Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation¶
会议: ACL 2026
arXiv: 2604.20366
代码: 无
领域: 幻觉检测
关键词: 视觉语言模型, 对象幻觉, 表示干预, 正交投影, 选择性参数编辑
一句话总结¶
本文提出 MPD 框架,通过语义感知正交子空间投影分离幻觉成分,并仅选择性更新与幻觉最相关的少量参数,在减少 23.4% 幻觉的同时保持 97.4% 的通用生成能力,不引入额外推理开销。
研究背景与动机¶
领域现状:大型视觉语言模型(LVLM)在跨模态理解和生成上表现优异,但普遍存在对象幻觉问题——生成的文本描述会编造不存在的物体、错误归属视觉属性或虚构空间关系。主流缓解方法分为两条路线:标注数据微调(代价高)和表示干预(高效但有副作用)。
现有痛点:表示干预方法(如 Nullu)虽然无需标注数据,但处理后的 LVLM 会丧失通用生成能力——表现为语义不连贯和词汇重复率升高。根本原因有二:(1)幻觉成分提取时与通用语义高度耦合,简单差分会误删正常语义;(2)参数更新时对目标层所有权重施加大幅扰动,修改数亿参数导致过拟合和原始参数分布破坏。
核心矛盾:幻觉成分与通用语义在隐藏表示空间中高度纠缠,粗暴的全局干预必然同时破坏两者——如何精确分离幻觉信号并最小扰动地抑制它?
本文目标:设计一个双阶段框架,在有效缓解幻觉的同时保持模型的通用生成能力,且不引入额外推理成本。
切入角度:从线性代数的正交投影理论出发,将忠实表示和幻觉表示视为不同子空间的成分,通过 SVD 分解实现精确解耦。
核心 idea:正交投影提取纯幻觉成分 + 余弦相似度选择性参数编辑 = 精准抑制幻觉且不损害生成能力。
方法详解¶
整体框架¶
MPD 分为两个阶段:(1)幻觉成分提取——利用对比查询对构建忠实/幻觉表示,通过 SVD 正交投影分离出纯幻觉成分;(2)选择性参数更新——通过余弦相似度找到与幻觉成分最相关的权重向量,仅对这些权重施加空间投影编辑。输入是原始 LVLM + 少量对比数据对,输出是编辑后的无额外推理开销的 LVLM。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["原始 LVLM + 图像"] --> B["对比查询对构建<br/>辅助 LLM 生成幻觉/忠实配对查询(LURE)"]
subgraph EXT["语义感知幻觉成分解耦(正交投影)"]
direction TB
C["逐层采集隐状态<br/>忠实矩阵 X+ / 幻觉矩阵 X−"] --> D["对 X+ 做 SVD 得忠实子空间投影 P"]
D --> E["X− 打到正交补 (I−P)X−<br/>得纯幻觉成分"]
end
B --> C
subgraph EDIT["选择性参数识别与编辑"]
direction TB
F["余弦相似度选 top-K 幻觉权重行"] --> G["对选中行做正交补投影<br/>抹掉幻觉方向分量"]
end
E --> F
G --> H["编辑后 LVLM<br/>零额外推理开销"]
关键设计¶
1. 对比查询对构建:为成分提取准备配对的幻觉/忠实表示
整套方法都建立在"同一张图既有幻觉表示、又有忠实表示"之上,否则无从做差异分析。MPD 借助辅助 LLM 为同一图像生成语义等价的两条查询——一条诱导模型产生幻觉、一条忠实于图像内容,配对数据直接取自 LURE 数据集。有了这组对照,每一层的忠实隐状态矩阵 \(\mathbf{X}_\ell^+\) 与幻觉隐状态矩阵 \(\mathbf{X}_\ell^-\) 才能在严格对齐的条件下被采集出来,喂给下一步的正交投影。
2. 语义感知幻觉成分解耦(正交投影):从幻觉表示里剥出不含通用语义的"纯"幻觉成分
最直接的做法是把幻觉描述和忠实描述的表示做差分(\(\mathbf{X}^- - \mathbf{X}^+\))当作幻觉方向,但这条差分里既混着与忠实语义共享的平行分量、又叠了双倍噪声,照此干预会连正常生成能力一起删掉。MPD 改用正交投影来切割:对每一层 \(\ell\),对忠实隐状态矩阵 \(\mathbf{X}_\ell^+\) 做 SVD 得到忠实子空间的投影矩阵 \(\mathbf{P}_\ell = \mathbf{U}_\ell \mathbf{U}_\ell^\top\),再把幻觉表示打到忠实子空间的正交补里:
这一步自动消去与忠实语义重合的成分,剩下的 \(\tilde{\mathbf{X}}_\ell\) 才是"纯"幻觉方向。论文用 Proposition 1 证明它在估计幻觉成分上的期望误差比朴素差分更小,所以后续干预既能压住幻觉、又不会误伤通用语义。
3. 选择性参数识别与编辑:只动与幻觉最相关的少数权重,把对原始参数分布的扰动压到最低
Nullu 这类方法会把目标层的所有权重一并改写,动辄扰动数亿参数,过拟合、原始分布破坏,通用能力随之滑坡。MPD 先定位再做手术:对权重矩阵 \(\mathbf{W}_\ell\) 的每一行 \(\mathbf{w}_\ell^{(i)}\),算它与幻觉成分 \(\tilde{\mathbf{x}}_{\ell,j}\) 的平均余弦相似度 \(s_i\),挑出相似度最高的 top-K 行作为"幻觉权重",再构造幻觉子空间的正交补投影矩阵
只对选中的那几行执行 \(\mathbf{w}_\ell^{(i)} \leftarrow \tilde{\mathbf{Q}}_\ell\,\mathbf{w}_\ell^{(i)}\),把它们在幻觉方向上的分量抹掉。这样改完,mPLUG-Owl2 上的参数修改量比 Nullu 少 42%、MiniGPT-4 上少 37%,却换来更低的幻觉率和更好的生成质量——精准打击胜过全面轰炸。
损失函数 / 训练策略¶
MPD 是无训练(training-free)方法——不涉及梯度优化,仅通过 SVD 分解和投影操作直接编辑模型权重。整个流程在编辑完成后,推理时与原模型完全相同,无额外计算开销。
实验关键数据¶
主实验(CHAIR 基准)¶
| 模型 | 方法 | CHAIR_S ↓ | CHAIR_I ↓ | BLEU ↑ |
|---|---|---|---|---|
| LLaVA-1.5-7B | Greedy | 20.40 | 7.08 | 15.72 |
| LLaVA-1.5-7B | Nullu | 15.20 | 5.30 | 15.69 |
| LLaVA-1.5-7B | MPD | 12.80 | 4.20 | 15.31 |
| mPLUG-Owl2 | Greedy | 22.90 | 8.62 | 15.01 |
| mPLUG-Owl2 | Nullu | 15.60 | 5.77 | 15.45 |
| mPLUG-Owl2 | MPD | 14.00 | 4.99 | 16.06 |
| MiniGPT-4 | Greedy | 32.40 | 12.20 | 14.57 |
| MiniGPT-4 | Nullu | 21.40 | 8.99 | 14.81 |
| MiniGPT-4 | MPD | 19.40 | 7.50 | 14.98 |
消融实验(LLaVA-Bench 生成能力)¶
| 模型 | 方法 | Accuracy ↑ | Detailedness ↑ |
|---|---|---|---|
| MiniGPT-4 | Original | 4.05 | 3.95 |
| MiniGPT-4 | MPD | 5.53 | 4.67 |
| mPLUG-Owl2 | Original | 5.76 | 4.22 |
| mPLUG-Owl2 | MPD | 6.13 | 4.62 |
| LLaVA-1.5-7B | Original | 5.59 | 4.72 |
| LLaVA-1.5-7B | MPD | 6.39 | — |
关键发现¶
- MPD 在所有模型和所有基准上都同时实现了最低幻觉率和最高/竞争性的生成质量(BLEU),打破了此前幻觉缓解与生成能力之间的 trade-off
- 在 POPE 基准的三种设置(random/popular/adversarial)下,MPD 在所有模型上均取得最高 F1
- 在 LLaVA-Bench 上 MPD 不仅没有降低生成能力,反而提升了准确度和详细度——说明去除幻觉噪声本身就能改善生成质量
- 在 HallusionBench 上也有一致提升,表明方法泛化到超越对象幻觉的更细粒度幻觉场景
亮点与洞察¶
- 正交投影的理论优雅性——Proposition 1 严格证明了投影方法比朴素差分在估计幻觉成分上的期望误差更小,给出了方法的数学基础而非仅靠经验
- 选择性参数编辑的思想很有实用价值——减少 37-42% 的参数修改量却获得更好效果,说明"少即是多"——精准打击比全面轰炸更有效
- 编辑后的模型推理开销为零(参数已永久修改),这比需要修改推理流程的 VCD、OPERA 等方法更适合实际部署
局限与展望¶
- 仅在三个较小的 LVLM 上验证(MiniGPT-4、mPLUG-Owl2、LLaVA-1.5-7B),未在更大更新的模型(如 LLaVA-Next、Qwen-VL)上测试
- 需要预先准备对比数据对,虽然规模不大但增加了pipeline复杂度
- 正交投影假设幻觉和忠实语义可以线性分离,对于高度非线性纠缠的情况可能失效
- SVD 中保留的主成分数 C 和 top-K 参数选择需要调参
相关工作与启发¶
- vs Nullu (Yang et al., 2025): 同样使用零空间投影但对所有权重操作,MPD 增加正交解耦和选择性编辑两个改进,在幻觉指标和生成质量上均优于 Nullu
- vs VCD (Leng et al., 2024): VCD 在解码时引入对比分布约束,增加推理延迟;MPD 编辑后推理零开销
- vs HALC (Chen et al., 2024): HALC 依赖外部视觉定位模块做后验修正,引入额外模型依赖;MPD 自包含无外部依赖
评分¶
- 新颖性: ⭐⭐⭐⭐ 正交投影+选择性编辑的组合有理论支撑,但核心思路是对 Nullu 的改进而非全新范式
- 实验充分度: ⭐⭐⭐⭐ 5个基准、3个模型、多种对比方法,但模型规模偏小
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,但符号较多
- 价值: ⭐⭐⭐⭐ 实用性强——零推理开销的幻觉缓解对部署有直接价值