Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation¶

会议: ACL 2026 Oral
arXiv: 2604.20366
代码: 无
领域: 幻觉检测
关键词: 视觉语言模型, 对象幻觉, 表示干预, 正交投影, 选择性参数编辑

一句话总结¶

本文提出 MPD 框架，通过语义感知正交子空间投影分离幻觉成分，并仅选择性更新与幻觉最相关的少量参数，在减少 23.4% 幻觉的同时保持 97.4% 的通用生成能力，不引入额外推理开销。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）在跨模态理解和生成上表现优异，但普遍存在对象幻觉问题——生成的文本描述会编造不存在的物体、错误归属视觉属性或虚构空间关系。主流缓解方法分为两条路线：标注数据微调（代价高）和表示干预（高效但有副作用）。

现有痛点：表示干预方法（如 Nullu）虽然无需标注数据，但处理后的 LVLM 会丧失通用生成能力——表现为语义不连贯和词汇重复率升高。根本原因有二：（1）幻觉成分提取时与通用语义高度耦合，简单差分会误删正常语义；（2）参数更新时对目标层所有权重施加大幅扰动，修改数亿参数导致过拟合和原始参数分布破坏。

核心矛盾：幻觉成分与通用语义在隐藏表示空间中高度纠缠，粗暴的全局干预必然同时破坏两者——如何精确分离幻觉信号并最小扰动地抑制它？

本文目标：设计一个双阶段框架，在有效缓解幻觉的同时保持模型的通用生成能力，且不引入额外推理成本。

切入角度：从线性代数的正交投影理论出发，将忠实表示和幻觉表示视为不同子空间的成分，通过 SVD 分解实现精确解耦。

核心 idea：正交投影提取纯幻觉成分 + 余弦相似度选择性参数编辑 = 精准抑制幻觉且不损害生成能力。

方法详解¶

整体框架¶

MPD 分为两个阶段：（1）幻觉成分提取——利用对比查询对构建忠实/幻觉表示，通过 SVD 正交投影分离出纯幻觉成分；（2）选择性参数更新——通过余弦相似度找到与幻觉成分最相关的权重向量，仅对这些权重施加空间投影编辑。输入是原始 LVLM + 少量对比数据对，输出是编辑后的无额外推理开销的 LVLM。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["原始 LVLM + 图像"] --> B["对比查询对构建<br/>辅助 LLM 生成幻觉/忠实配对查询（LURE）"]
    subgraph EXT["语义感知幻觉成分解耦（正交投影）"]
        direction TB
        C["逐层采集隐状态<br/>忠实矩阵 X+ / 幻觉矩阵 X−"] --> D["对 X+ 做 SVD 得忠实子空间投影 P"]
        D --> E["X− 打到正交补 (I−P)X−<br/>得纯幻觉成分"]
    end
    B --> C
    subgraph EDIT["选择性参数识别与编辑"]
        direction TB
        F["余弦相似度选 top-K 幻觉权重行"] --> G["对选中行做正交补投影<br/>抹掉幻觉方向分量"]
    end
    E --> F
    G --> H["编辑后 LVLM<br/>零额外推理开销"]

关键设计¶

1. 对比查询对构建：为成分提取准备配对的幻觉/忠实表示

整套方法都建立在"同一张图既有幻觉表示、又有忠实表示"之上，否则无从做差异分析。MPD 借助辅助 LLM 为同一图像生成语义等价的两条查询——一条诱导模型产生幻觉、一条忠实于图像内容，配对数据直接取自 LURE 数据集。有了这组对照，每一层的忠实隐状态矩阵 \(\mathbf{X}_\ell^+\) 与幻觉隐状态矩阵 \(\mathbf{X}_\ell^-\) 才能在严格对齐的条件下被采集出来，喂给下一步的正交投影。

2. 语义感知幻觉成分解耦（正交投影）：从幻觉表示里剥出不含通用语义的"纯"幻觉成分

最直接的做法是把幻觉描述和忠实描述的表示做差分（\(\mathbf{X}^- - \mathbf{X}^+\)）当作幻觉方向，但这条差分里既混着与忠实语义共享的平行分量、又叠了双倍噪声，照此干预会连正常生成能力一起删掉。MPD 改用正交投影来切割：对每一层 \(\ell\)，对忠实隐状态矩阵 \(\mathbf{X}_\ell^+\) 做 SVD 得到忠实子空间的投影矩阵 \(\mathbf{P}_\ell = \mathbf{U}_\ell \mathbf{U}_\ell^\top\)，再把幻觉表示打到忠实子空间的正交补里：

\[\tilde{\mathbf{X}}_\ell = (\mathbf{I} - \mathbf{P}_\ell)\,\mathbf{X}_\ell^-\]

这一步自动消去与忠实语义重合的成分，剩下的 \(\tilde{\mathbf{X}}_\ell\) 才是"纯"幻觉方向。论文用 Proposition 1 证明它在估计幻觉成分上的期望误差比朴素差分更小，所以后续干预既能压住幻觉、又不会误伤通用语义。

3. 选择性参数识别与编辑：只动与幻觉最相关的少数权重，把对原始参数分布的扰动压到最低

Nullu 这类方法会把目标层的所有权重一并改写，动辄扰动数亿参数，过拟合、原始分布破坏，通用能力随之滑坡。MPD 先定位再做手术：对权重矩阵 \(\mathbf{W}_\ell\) 的每一行 \(\mathbf{w}_\ell^{(i)}\)，算它与幻觉成分 \(\tilde{\mathbf{x}}_{\ell,j}\) 的平均余弦相似度 \(s_i\)，挑出相似度最高的 top-K 行作为"幻觉权重"，再构造幻觉子空间的正交补投影矩阵

\[\tilde{\mathbf{Q}}_\ell = \mathbf{I} - \tilde{\mathbf{X}}_\ell^\top (\tilde{\mathbf{X}}_\ell \tilde{\mathbf{X}}_\ell^\top)^{-1} \tilde{\mathbf{X}}_\ell\]

只对选中的那几行执行 \(\mathbf{w}_\ell^{(i)} \leftarrow \tilde{\mathbf{Q}}_\ell\,\mathbf{w}_\ell^{(i)}\)，把它们在幻觉方向上的分量抹掉。这样改完，mPLUG-Owl2 上的参数修改量比 Nullu 少 42%、MiniGPT-4 上少 37%，却换来更低的幻觉率和更好的生成质量——精准打击胜过全面轰炸。

损失函数 / 训练策略¶

MPD 是无训练（training-free）方法——不涉及梯度优化，仅通过 SVD 分解和投影操作直接编辑模型权重。整个流程在编辑完成后，推理时与原模型完全相同，无额外计算开销。

实验关键数据¶

主实验（CHAIR 基准）¶

模型	方法	CHAIR_S ↓	CHAIR_I ↓	BLEU ↑
LLaVA-1.5-7B	Greedy	20.40	7.08	15.72
LLaVA-1.5-7B	Nullu	15.20	5.30	15.69
LLaVA-1.5-7B	MPD	12.80	4.20	15.31
mPLUG-Owl2	Greedy	22.90	8.62	15.01
mPLUG-Owl2	Nullu	15.60	5.77	15.45
mPLUG-Owl2	MPD	14.00	4.99	16.06
MiniGPT-4	Greedy	32.40	12.20	14.57
MiniGPT-4	Nullu	21.40	8.99	14.81
MiniGPT-4	MPD	19.40	7.50	14.98

消融实验（LLaVA-Bench 生成能力）¶

模型	方法	Accuracy ↑	Detailedness ↑
MiniGPT-4	Original	4.05	3.95
MiniGPT-4	MPD	5.53	4.67
mPLUG-Owl2	Original	5.76	4.22
mPLUG-Owl2	MPD	6.13	4.62
LLaVA-1.5-7B	Original	5.59	4.72
LLaVA-1.5-7B	MPD	6.39	—

关键发现¶

MPD 在所有模型和所有基准上都同时实现了最低幻觉率和最高/竞争性的生成质量（BLEU），打破了此前幻觉缓解与生成能力之间的 trade-off
在 POPE 基准的三种设置（random/popular/adversarial）下，MPD 在所有模型上均取得最高 F1
在 LLaVA-Bench 上 MPD 不仅没有降低生成能力，反而提升了准确度和详细度——说明去除幻觉噪声本身就能改善生成质量
在 HallusionBench 上也有一致提升，表明方法泛化到超越对象幻觉的更细粒度幻觉场景

亮点与洞察¶

正交投影的理论优雅性——Proposition 1 严格证明了投影方法比朴素差分在估计幻觉成分上的期望误差更小，给出了方法的数学基础而非仅靠经验
选择性参数编辑的思想很有实用价值——减少 37-42% 的参数修改量却获得更好效果，说明"少即是多"——精准打击比全面轰炸更有效
编辑后的模型推理开销为零（参数已永久修改），这比需要修改推理流程的 VCD、OPERA 等方法更适合实际部署

局限与展望¶

仅在三个较小的 LVLM 上验证（MiniGPT-4、mPLUG-Owl2、LLaVA-1.5-7B），未在更大更新的模型（如 LLaVA-Next、Qwen-VL）上测试
需要预先准备对比数据对，虽然规模不大但增加了pipeline复杂度
正交投影假设幻觉和忠实语义可以线性分离，对于高度非线性纠缠的情况可能失效
SVD 中保留的主成分数 C 和 top-K 参数选择需要调参

评分¶

新颖性: ⭐⭐⭐⭐ 正交投影+选择性编辑的组合有理论支撑，但核心思路是对 Nullu 的改进而非全新范式
实验充分度: ⭐⭐⭐⭐ 5个基准、3个模型、多种对比方法，但模型规模偏小
写作质量: ⭐⭐⭐⭐ 理论推导清晰，但符号较多
价值: ⭐⭐⭐⭐ 实用性强——零推理开销的幻觉缓解对部署有直接价值