Mitigating Hallucinations in Large Vision-Language Models via Causal Route Gating¶

会议: ICML 2026
arXiv: 2605.24024
代码: 无
领域: 多模态VLM
关键词: LVLM 幻觉, 因果干预, 注意力头门控, 路线分解, 训练自由

一句话总结¶

CRG 把每个注意力头的输出沿视觉/文本两条路线做精确线性分解，用一前向一反向梯度估计两条路线对当前 token 的因果"do-effect"，再仅压制那些视觉与文本符号冲突且 VRI 偏低（即先验主导）的头的文本路线，从而在无需训练的前提下系统性削弱 LVLM 的语言先验幻觉。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）已成为图像问答与描述生成的主流接口，但"幻觉"——生成与图像无关却语义通顺的内容——仍是部署最大的可靠性瓶颈。训练自由（training-free）的推理期干预因为不需要额外算力和数据成为热门方向，主流路线分两类：一类是 VCD/OPERA/MaskCD 等输出级解码策略，一类是 PAI/VTI 等基于注意力代理的内部干预。

现有痛点：解码级干预把模型当黑盒看，无法定位"是哪些组件让模型选择了不该选的 token"；而基于"视觉注意力占比"（VAR）的内部干预默认"注意力越多→视觉证据越强"，这一假设在 softmax 归一化和价值向量内容耦合下并不成立——同一个头的视觉注意力很大，但价值向量与梯度方向几乎正交，对决策仍可能没有正贡献。而且这类方法通常在头级别整体放缩，连同有用的视觉路线一起被压制。

核心矛盾：相关性度量（注意力质量）≠ 因果贡献（do-intervention 下决策得分的真实变化）。要真正定位"语言先验压过视觉证据"的头，必须做决策对齐的因果干预，而不是看注意力图。

本文目标：(1) 在不重训的前提下，给出一个能区分"视觉路线对决策的因果效应"和"文本路线对决策的因果效应"的工具；(2) 利用两者的符号冲突精准识别"先验主导"的头；(3) 只压文本路线、保留视觉路线，且与解码同步在线运行。

切入角度：观察到多头注意力的输出 \(O_{l,h}=\alpha_{l,h}V_{l,h}\) 中，价值矩阵 \(V_{l,h}\) 可以按视觉/文本 token 的索引集合做对角掩码精确分裂为 \(O_{l,h}^{\mathrm{vis}}+O_{l,h}^{\mathrm{txt}}\)。这意味着可以在不动 attention weights 的前提下，单独"do-intervene"任意一条路线。

核心 idea：把每个头内部劈成两条路线，量化两条路线分别对当前 token 决策的 do-effect，只对"视觉为正、文本为负"或"视觉为负、文本为正"的冲突头压制文本路线，把语言先验的影响逐 token 切掉。

方法详解¶

整体框架¶

CRG（Causal Route Gating）是一个嵌进解码循环的推理期模块，每生成一个 token 都跑三步：(1) 把每个头的输出按 token 模态精确分裂为视觉路线 \(O^{\mathrm{vis}}_{l,h}\) 与文本路线 \(O^{\mathrm{txt}}_{l,h}\)；(2) 用一前向一反向梯度估计两条路线的因果效应 \(\widehat{\Delta}^{\mathrm{vis}}_{l,h}\) 与 \(\widehat{\Delta}^{\mathrm{txt}}_{l,h}\)，并归一化得到视觉依赖指数 \(\mathrm{VRI}_{l,h}\)；(3) 按 \((\widehat{\Delta}^{\mathrm{vis}},\widehat{\Delta}^{\mathrm{txt}})\) 的符号将头划入 Agreement / Conflict-A / Conflict-B 三类，对冲突头按 VRI 取最小的 top-\(k\) 用一个秩相关的平滑 schedule 单独压制文本门 \(g^{\mathrm{txt}}_{l,h}\)。模型权重、视觉路线、KV-cache 全程不变。

关键设计¶

头内路线精确分解 + 决策对齐的因果路线效应（CRE）:
- 功能：把多头注意力的每个头输出精确拆成视觉 / 文本两条路线，并定义两条路线对当前 token 决策的因果"do-effect"。
- 核心思路：用 \(\{0,1\}^{L\times L}\) 对角选择矩阵 \(S_{\mathrm{vis}},S_{\mathrm{txt}}\) 按 token 索引掩掉价值矩阵的非目标行，得到 \(O^{\mathrm{vis}}_{l,h}=\alpha_{l,h}(S_{\mathrm{vis}}V_{l,h})\)、\(O^{\mathrm{txt}}_{l,h}=\alpha_{l,h}(S_{\mathrm{txt}}V_{l,h})\)，由于 \(S_{\mathrm{vis}}+S_{\mathrm{txt}}=I_L\) 且 \(S_{\mathrm{vis}}S_{\mathrm{txt}}=0\)，恒等式 \(O_{l,h}=O^{\mathrm{vis}}_{l,h}+O^{\mathrm{txt}}_{l,h}\) 严格成立；同时给每条路线加标量门 \(g^{\mathrm{vis}}_{l,h},g^{\mathrm{txt}}_{l,h}\in\mathbb{R}_{\geq 0}\) 接在 \(W^O_l\) 之前。把整个网络在头 \((l,h)\) 上做单头干预、其余头保持 \((1,1)\) 基线，用任务相关的标量得分 \(\ell\) 定义 \(\Delta^{\mathrm{vis}}_{l,h}=\ell_{l,h}(1,1)-\ell_{l,h}(0,1)\) 与 \(\Delta^{\mathrm{txt}}_{l,h}=\ell_{l,h}(1,1)-\ell_{l,h}(1,0)\)。生成式任务用 \(\ell=\log p(y^*)\)，二元 QA 用 \(\ell=\log p(\mathrm{Yes})-\log p(\mathrm{No})\)。再聚合成视觉依赖指数 \(\mathrm{VRI}_{l,h}=|\Delta^{\mathrm{vis}}_{l,h}|/(|\Delta^{\mathrm{vis}}_{l,h}|+|\Delta^{\mathrm{txt}}_{l,h}|+\varepsilon)\) 用来排序。
- 设计动机：VAR 之类的注意力质量代理只看权重不看值，且受 softmax 竞争影响（文本 logit 下降会让 VAR 上升而视觉证据没变）。CRE 直接把"如果关掉这条路线，决策得分会怎么变"作为定义，从而把"相关"换成"因果"，再把它落到每个头每条路线的细粒度上，使得后续干预既精准又最小化对正常视觉通路的扰动。
一前向一反向的一阶 do-effect 估计器:
- 功能：把每个解码 token 上的 \(\Delta^{\mathrm{vis}}_{l,h}\) 与 \(\Delta^{\mathrm{txt}}_{l,h}\) 用极低额外开销估出来，使因果干预能跟解码同步在线进行。
- 核心思路：正常做一次门全 1 的解码前向，缓存所有 \(O^{\mathrm{vis}}_{l,h},O^{\mathrm{txt}}_{l,h}\)；通过 torch.autograd.grad 对决策得分 \(\ell\) 反向一次拿到每个头 pre-\(W^O_l\) 张量处的灵敏度 \(G_{l,h}=\partial\ell/\partial\tilde O_{l,h}\)；按命题 3.1，沿门轴方向的方向导数给出估计 \(\widehat{\Delta}^{\mathrm{vis}}_{l,h}=\langle G_{l,h},O^{\mathrm{vis}}_{l,h}\rangle\)、\(\widehat{\Delta}^{\mathrm{txt}}_{l,h}=\langle G_{l,h},O^{\mathrm{txt}}_{l,h}\rangle\)，与精确 do-difference 的一阶项一致。代入即得 \(\widehat{\mathrm{VRI}}_{l,h}\)。
- 设计动机：精确两点 do-effect 需要为每个 \((l,h)\) 各跑一次"门关掉"的前向，全模型代价是 \(O(LH)\) 倍解码成本，无法在线。作者证明只要 \(\ell\) 是门的可微函数，一阶展开就给出严格的一前向一反向估计，KV-cache 不动；下游用法又只关心 sign 与 ranking（不是精确数值），与近期"粗略效应估计足以做近最优预算分配"的理论一致，使得这个粗估计完全够用。
冲突感知的文本路线门控（Conflict-A / Conflict-B + 秩值 schedule）:
- 功能：基于两条路线 do-effect 的符号关系分类头，再用 VRI 选 top-\(k\)、用秩相关的平滑 schedule 单独压制文本门，视觉门一律保持 1。
- 核心思路：按 \((\widehat{\Delta}^{\mathrm{vis}},\widehat{\Delta}^{\mathrm{txt}})\) 的符号分四象限——同号（\(+,+\) / \(-,-\)）是"两条路线方向一致"的 Agreement，不干预；\((+,-)\) 记为 Conflict-A（视觉支持当前决策、文本反对），视为文本噪声，温和压制；\((-,+)\) 记为 Conflict-B（视觉反对、文本支持，幻觉特征），强力压制。形式上构造头集合 \(\mathcal{H}_A,\mathcal{H}_B\)，在每个集合内取 VRI 最小的 top-\(k\) 头组成 \(\mathcal{S}\)，升序排序后赋秩 \(i\)，归一化为 \(s_i=i/(|\mathcal{S}|-1)\)，门值为 \(g^{\mathrm{txt}}_{(i)}=g_{\min}+(g_{\max}-g_{\min})\cdot\mathrm{clip}(s_i^\gamma,\epsilon,1-\epsilon)\)；Conflict-A 用 \((0.5,1.0)\) 的温和区间，Conflict-B 用 \((0,0.5)\) 的强抑制区间。
- 设计动机：同号头里"两条路线一起把决策朝同一方向推"，多半是模型真在做正确的多模态融合，硬切会伤性能；只有符号冲突的头才同时具备"视觉证据被忽视"的特征，且 VRI 偏低意味着这个头的决策几乎只由文本驱动（即典型的"语言先验主导"）。秩值 schedule 而不是统一标量保证压制强度随 VRI 排名平滑过渡，避免"全砍到 0"或"硬阈值"带来的解码退化，同时保留 grounded reasoning 的头不被误伤。

损失函数 / 训练策略¶

完全训练自由：不更新任何参数，无监督信号，无额外训练阶段。所有超参（top-\(k\)、\(\gamma\)、\(\epsilon\)、\(g_{\min/\max}^{A/B}\)）在小验证集上一次性确定，跨模型固定不变；每 token 多一次 autograd backward 是唯一额外开销。具体地，对当前解码 token 先做一次门全 1 的标准前向得到 logits 并选出 \(y^*\)，缓存所有头的 \(O^{\mathrm{vis}}_{l,h},O^{\mathrm{txt}}_{l,h}\) 与 pre-\(W^O_l\) 张量；调用一次 backward 得到 \(G_{l,h}\)，按式 (3) 求出 \(\widehat{\Delta}^{\mathrm{vis}/\mathrm{txt}}_{l,h}\) 与 \(\widehat{\mathrm{VRI}}_{l,h}\)；按算法 1 用秩值 schedule 给冲突头打门后，再用更新后的门做一次"真正用于解码"的前向得到 token 分布并采样。KV-cache 因为只改 \(W^O_l\) 之前的标量门、不动 attention 内部结构而完全可复用，与标准 greedy / beam 解码兼容。

实验关键数据¶

主实验¶

在 LLaVA-1.5-7B、Qwen-VL-Chat、Qwen2.5-VL-7B-Instruct 三个 LVLM 上，五个基准（POPE、CHAIR、MME、MMHal-Bench、AMBER）系统超过 Regular、VCD、OPERA、PAI、VTI。

数据集 / 设定	指标	Regular	最强 baseline	CRG	相对 Regular 提升
POPE-Random / LLaVA-1.5-7B	Acc / F1	83.29 / 81.33	VTI 89.50 / 88.89	90.30 / 89.51	+7.01 / +8.18
POPE-Adv / Qwen2.5-VL-7B	Acc / F1	82.79 / 83.15	VTI 85.78 / 85.14	86.98 / 87.07	+4.19 / +3.92
CHAIR / LLaVA-1.5-7B	\(C_S\downarrow\) / \(C_I\downarrow\) / Recall↑	52.8 / 15.9 / 77.3	VTI 37.6 / 12.9 / 79.3	34.2 / 11.2 / 77.8	\(C_S\) −18.6
AMBER / LLaVA-1.5-7B	CHAIR↓ / F1↑ / Score↑	8.3 / 73.7 / 82.70	—	4.6 / 77.5 / 86.45	Score +3.75

消融实验¶

配置	POPE-Avg↑	\(C_S\)↓	MMHal↑	MME↑	含义
Regular	81.37	52.8	2.23	1640	无干预基线
CRG w/o A (仅 Conflict-B)	中等	中等	中等	中等	只切语言先验主导头
CRG w/o B (仅 Conflict-A)	略低于 w/o A	略高	—	—	只压噪声型文本路线
CRG (A+B)	最优	34.2	最优	最优	完整冲突感知策略

关键发现¶

Conflict-B（视觉反对、文本支持）是幻觉的最强单一信号源，其单独干预收益大于 Conflict-A；但二者联合才能最大化幻觉削减且 MME 等综合能力不掉点，说明两类冲突在因果机制上是互补的。
图 3 的逐头可视化表明 VAR 与 VRI 在前几层模式相近、中层却出现明显错位：中层 VAR 几乎扁平而 VRI 仍有显著结构，验证"注意力质量不是决策相关视觉接地的可靠代理"的核心论断。
干预只动文本门、视觉门保持 1，使得 MME 在 Existence、Count、Position、Color 等接地敏感类目和 Commonsense Reasoning、Numerical Calculation 等高级推理类目同时提升，说明该方法在削幻觉的同时几乎不损伤一般多模态能力。
在 CHAIR 上 \(C_S\) 从 52.8 降至 34.2（LLaVA-1.5-7B）、50.2 降至 32.4（Qwen-VL-Chat），同时 Recall 几乎不掉甚至上升（76.4→81.6），表明削幻觉不是靠"少说"而是"说对"。
在 AMBER 综合指标上 Score +3.75，其中 CHAIR↓ −3.7 与 F1↑ +3.8 同时获得，说明 CRG 同时改善了开放生成与判别两类幻觉评测维度。

亮点与洞察¶

用 \(S_{\mathrm{vis}}+S_{\mathrm{txt}}=I_L\)、\(S_{\mathrm{vis}}S_{\mathrm{txt}}=0\) 的两条互补对角掩码把 \(V_{l,h}\) 严格劈成两块，注意力权重和 \(W^O_l\) 完全没动——这是整个方法在"完全不重训也不动 attention"的前提下还能做精确 do-intervention 的根本理由。
"粗略一阶 do-effect 够用"的理论支撑 + 只需符号与排序的下游用法，让因果干预从离线分析工具变成可在线运行的解码组件，把因果方法的部署成本压到几乎与梯度反传相当，是非常巧妙的工程-理论结合。
把幻觉显式定义为 "视觉 \(-\)、文本 \(+\)" 的符号冲突，比"看视觉注意力比例"更贴近问题本质；同时还能区分 Conflict-A（文本噪声）与 Conflict-B（先验主导）并差异化干预，这种"先分类再差异化处置"的范式可直接迁移到其他需要削弱某条模态路径的多模态任务（如多模态对齐、模态丢失鲁棒性）。
文中第 4.2 节给出 VAR 的反事实分析（\(\partial R/\partial s_k=-R\alpha_k<0\)）显式说明"文本 logit 下降→VAR 上升"的虚假相关性，这是对"注意力即解释"长期假设的一次干净反例。

局限与展望¶

一阶估计在大门变动下偏差未被严格刻画，论文给出 Lipschitz 条件下的偏差界但实证仅做了 sign-consistency 验证；当模型规模/层数继续放大、单个头影响非线性更强时，是否需要二阶修正仍是开放问题。
推理期每 token 多一次 backward，作者声称"开销适中"但未对长生成场景给出绝对延迟数；在 batch 解码与 KV-cache 复杂的实际系统里这部分代价可能不容忽视。
门区间 \((g_{\min}^A,g_{\max}^A)=(0.5,1.0)\) 与 \((g_{\min}^B,g_{\max}^B)=(0,0.5)\) 是人工选取的二段化设计，跨模型/跨任务统一固定有简洁性但缺乏自适应；当未来 LVLM 头数与层数继续放大时，自动学习 top-\(k\) 与门区间的动态版本可能进一步释放潜力。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一次把"头内视觉/文本路线"作为因果干预的最小单元，并配上能在线运行的一阶估计器，路线级而非头级。
实验充分度: ⭐⭐⭐⭐ 五个基准、三种 LVLM、四种 baseline、完整消融与可视化对照 VAR/VRI；但缺更大模型与多语言/多模态扩展。
写作质量: ⭐⭐⭐⭐⭐ 从动机—理论—算法—实验链条非常清晰，公式排版与符号体系一致性高。
价值: ⭐⭐⭐⭐⭐ 训练自由、即插即用、不损一般多模态能力，对 LVLM 部署侧的幻觉控制有直接落地价值。