Mitigating Hallucinations in Large Vision-Language Models via Causal Route Gating¶

会议: ICML 2026 Spotlight
arXiv: 2605.24024
代码: 无
领域: 幻觉检测
关键词: LVLM 幻觉, 因果干预, 注意力头门控, 路线分解, 训练自由

一句话总结¶

CRG 把每个注意力头的输出沿视觉/文本两条路线做精确线性分解，用一前向一反向梯度估计两条路线对当前 token 的因果"do-effect"，再仅压制那些视觉与文本符号冲突且 VRI 偏低（即先验主导）的头的文本路线，从而在无需训练的前提下系统性削弱 LVLM 的语言先验幻觉。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）已成为图像问答与描述生成的主流接口，但"幻觉"——生成与图像无关却语义通顺的内容——仍是部署最大的可靠性瓶颈。训练自由（training-free）的推理期干预因为不需要额外算力和数据成为热门方向，主流路线分两类：一类是 VCD/OPERA/MaskCD 等输出级解码策略，一类是 PAI/VTI 等基于注意力代理的内部干预。

现有痛点：解码级干预把模型当黑盒看，无法定位"是哪些组件让模型选择了不该选的 token"；而基于"视觉注意力占比"（VAR）的内部干预默认"注意力越多→视觉证据越强"，这一假设在 softmax 归一化和价值向量内容耦合下并不成立——同一个头的视觉注意力很大，但价值向量与梯度方向几乎正交，对决策仍可能没有正贡献。而且这类方法通常在头级别整体放缩，连同有用的视觉路线一起被压制。

核心矛盾：相关性度量（注意力质量）≠ 因果贡献（do-intervention 下决策得分的真实变化）。要真正定位"语言先验压过视觉证据"的头，必须做决策对齐的因果干预，而不是看注意力图。

本文目标：(1) 在不重训的前提下，给出一个能区分"视觉路线对决策的因果效应"和"文本路线对决策的因果效应"的工具；(2) 利用两者的符号冲突精准识别"先验主导"的头；(3) 只压文本路线、保留视觉路线，且与解码同步在线运行。

切入角度：观察到多头注意力的输出 \(O_{l,h}=\alpha_{l,h}V_{l,h}\) 中，价值矩阵 \(V_{l,h}\) 可以按视觉/文本 token 的索引集合做对角掩码精确分裂为 \(O_{l,h}^{\mathrm{vis}}+O_{l,h}^{\mathrm{txt}}\)。这意味着可以在不动 attention weights 的前提下，单独"do-intervene"任意一条路线。

核心 idea：把每个头内部劈成两条路线，量化两条路线分别对当前 token 决策的 do-effect，只对"视觉为正、文本为负"或"视觉为负、文本为正"的冲突头压制文本路线，把语言先验的影响逐 token 切掉。

方法详解¶

整体框架¶

CRG（Causal Route Gating）是一个嵌进解码循环的推理期模块，每生成一个 token 都跑三步：(1) 把每个头的输出按 token 模态精确分裂为视觉路线 \(O^{\mathrm{vis}}_{l,h}\) 与文本路线 \(O^{\mathrm{txt}}_{l,h}\)；(2) 用一前向一反向梯度估计两条路线的因果效应 \(\widehat{\Delta}^{\mathrm{vis}}_{l,h}\) 与 \(\widehat{\Delta}^{\mathrm{txt}}_{l,h}\)，并归一化得到视觉依赖指数 \(\mathrm{VRI}_{l,h}\)；(3) 按 \((\widehat{\Delta}^{\mathrm{vis}},\widehat{\Delta}^{\mathrm{txt}})\) 的符号将头划入 Agreement / Conflict-A / Conflict-B 三类，对冲突头按 VRI 取最小的 top-\(k\) 用一个秩相关的平滑 schedule 单独压制文本门 \(g^{\mathrm{txt}}_{l,h}\)。模型权重、视觉路线、KV-cache 全程不变。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["当前解码 token<br/>各头输出 O(l,h)=α·V"] --> B["头内路线分解<br/>对角掩码 S_vis/S_txt 切出 O_vis + O_txt"]
    B --> C["一前向一反向 do-effect 估计器<br/>门全 1 前向 + 一次反向，方向导数得 Δ_vis、Δ_txt"]
    C --> D["视觉依赖指数<br/>VRI = |Δ_vis| / (|Δ_vis| + |Δ_txt|)"]
    D -->|"同号 (+,+)/(−,−) Agreement"| E["不干预<br/>视觉门、文本门均保 1"]
    D -->|"异号 (+,−) Conflict-A / (−,+) Conflict-B"| F["冲突感知文本路线门控<br/>取 VRI 最小 top-k，秩值 schedule 压 g_txt"]
    E --> G["更新门后再前向<br/>得 token 分布并采样"]
    F --> G
    G -->|"循环到下一 token"| A

关键设计¶

1. 头内路线精确分解 + 决策对齐的因果路线效应（CRE）：把"相关"换成"因果"

VAR 之类的注意力质量代理只看权重不看值，还受 softmax 竞争污染——文本 logit 一降，VAR 就上升，可视觉证据其实没变。CRG 不看注意力图，而是直接问"如果关掉这条路线，决策得分会怎么变"。关键观察是头输出 \(O_{l,h}=\alpha_{l,h}V_{l,h}\) 里的价值矩阵可以按 token 模态精确切开：用一对互补的对角选择矩阵 \(S_{\mathrm{vis}},S_{\mathrm{txt}}\)（满足 \(S_{\mathrm{vis}}+S_{\mathrm{txt}}=I_L\)、\(S_{\mathrm{vis}}S_{\mathrm{txt}}=0\)）掩掉非目标行，得到 \(O^{\mathrm{vis}}_{l,h}=\alpha_{l,h}(S_{\mathrm{vis}}V_{l,h})\)、\(O^{\mathrm{txt}}_{l,h}=\alpha_{l,h}(S_{\mathrm{txt}}V_{l,h})\)，恒等式 \(O_{l,h}=O^{\mathrm{vis}}_{l,h}+O^{\mathrm{txt}}_{l,h}\) 严格成立，注意力权重和 \(W^O_l\) 一点没动。给每条路线接一个标量门后，在单个头上做干预、其余头保持基线，用任务得分 \(\ell\) 定义两条路线的 do-effect \(\Delta^{\mathrm{vis}}_{l,h}=\ell(1,1)-\ell(0,1)\)、\(\Delta^{\mathrm{txt}}_{l,h}=\ell(1,1)-\ell(1,0)\)（生成任务取 \(\ell=\log p(y^*)\)，二元 QA 取 \(\ell=\log p(\mathrm{Yes})-\log p(\mathrm{No})\)），再聚合成视觉依赖指数 \(\mathrm{VRI}_{l,h}=|\Delta^{\mathrm{vis}}_{l,h}|/(|\Delta^{\mathrm{vis}}_{l,h}|+|\Delta^{\mathrm{txt}}_{l,h}|+\varepsilon)\) 用于排序。这样定位"语言先验压过视觉"的头就是看决策的真实变化，而非看注意力多少。

2. 一前向一反向的一阶 do-effect 估计器：让因果干预跟解码同步在线跑

精确两点 do-effect 要为每个 \((l,h)\) 各跑一次"门关掉"的前向，全模型代价是 \(O(LH)\) 倍解码成本，根本没法在线。作者证明只要 \(\ell\) 是门的可微函数，一阶展开就给出严格估计：正常做一次门全 1 的前向，缓存所有 \(O^{\mathrm{vis}}_{l,h},O^{\mathrm{txt}}_{l,h}\)；再对决策得分反向一次，拿到每个头 pre-\(W^O_l\) 处的灵敏度 \(G_{l,h}=\partial\ell/\partial\tilde O_{l,h}\)，沿门轴的方向导数即 \(\widehat{\Delta}^{\mathrm{vis}}_{l,h}=\langle G_{l,h},O^{\mathrm{vis}}_{l,h}\rangle\)、\(\widehat{\Delta}^{\mathrm{txt}}_{l,h}=\langle G_{l,h},O^{\mathrm{txt}}_{l,h}\rangle\)，与精确 do-difference 的一阶项一致。KV-cache 全程不动，每 token 只多一次 backward。妙处在于下游只关心 sign 与 ranking 而非精确数值，与"粗略效应估计足以做近最优预算分配"的理论一致，所以这个粗估计完全够用。

3. 冲突感知的文本路线门控（Conflict-A / Conflict-B + 秩值 schedule）：只切冲突头的文本路线，视觉门一律保 1

有了两条路线的 do-effect 符号，就能把头分到四象限。同号（\(+,+\) / \(-,-\)）是 Agreement，意味着两条路线一起把决策朝同一方向推，多半是模型在做正确的多模态融合，硬切会伤性能，所以不动；\((+,-)\) 记 Conflict-A（视觉支持、文本反对），视作文本噪声温和压制；\((-,+)\) 记 Conflict-B（视觉反对、文本支持），正是幻觉的最强特征，强力压制。具体在 \(\mathcal{H}_A,\mathcal{H}_B\) 各取 VRI 最小的 top-\(k\) 头组成 \(\mathcal{S}\)（VRI 低意味着这个头几乎只由文本驱动，典型的语言先验主导），升序赋秩归一化 \(s_i=i/(|\mathcal{S}|-1)\)，门值 \(g^{\mathrm{txt}}_{(i)}=g_{\min}+(g_{\max}-g_{\min})\cdot\mathrm{clip}(s_i^\gamma,\epsilon,1-\epsilon)\)，Conflict-A 用温和区间 \((0.5,1.0)\)、Conflict-B 用强抑制区间 \((0,0.5)\)。用秩值平滑过渡而非统一标量，避免"全砍到 0"或硬阈值带来的解码退化，也保住了真正在做 grounded reasoning 的头不被误伤。

损失函数 / 训练策略¶

完全训练自由：不更新任何参数，无监督信号，无额外训练阶段。所有超参（top-\(k\)、\(\gamma\)、\(\epsilon\)、\(g_{\min/\max}^{A/B}\)）在小验证集上一次性确定，跨模型固定不变；每 token 多一次 autograd backward 是唯一额外开销。具体地，对当前解码 token 先做一次门全 1 的标准前向得到 logits 并选出 \(y^*\)，缓存所有头的 \(O^{\mathrm{vis}}_{l,h},O^{\mathrm{txt}}_{l,h}\) 与 pre-\(W^O_l\) 张量；调用一次 backward 得到 \(G_{l,h}\)，按式 (3) 求出 \(\widehat{\Delta}^{\mathrm{vis}/\mathrm{txt}}_{l,h}\) 与 \(\widehat{\mathrm{VRI}}_{l,h}\)；按算法 1 用秩值 schedule 给冲突头打门后，再用更新后的门做一次"真正用于解码"的前向得到 token 分布并采样。KV-cache 因为只改 \(W^O_l\) 之前的标量门、不动 attention 内部结构而完全可复用，与标准 greedy / beam 解码兼容。

实验关键数据¶

主实验¶

在 LLaVA-1.5-7B、Qwen-VL-Chat、Qwen2.5-VL-7B-Instruct 三个 LVLM 上，五个基准（POPE、CHAIR、MME、MMHal-Bench、AMBER）系统超过 Regular、VCD、OPERA、PAI、VTI。

数据集 / 设定	指标	Regular	最强 baseline	CRG	相对 Regular 提升
POPE-Random / LLaVA-1.5-7B	Acc / F1	83.29 / 81.33	VTI 89.50 / 88.89	90.30 / 89.51	+7.01 / +8.18
POPE-Adv / Qwen2.5-VL-7B	Acc / F1	82.79 / 83.15	VTI 85.78 / 85.14	86.98 / 87.07	+4.19 / +3.92
CHAIR / LLaVA-1.5-7B	\(C_S\downarrow\) / \(C_I\downarrow\) / Recall↑	52.8 / 15.9 / 77.3	VTI 37.6 / 12.9 / 79.3	34.2 / 11.2 / 77.8	\(C_S\) −18.6
AMBER / LLaVA-1.5-7B	CHAIR↓ / F1↑ / Score↑	8.3 / 73.7 / 82.70	—	4.6 / 77.5 / 86.45	Score +3.75

消融实验¶

配置	POPE-Avg↑	\(C_S\)↓	MMHal↑	MME↑	含义
Regular	81.37	52.8	2.23	1640	无干预基线
CRG w/o A (仅 Conflict-B)	中等	中等	中等	中等	只切语言先验主导头
CRG w/o B (仅 Conflict-A)	略低于 w/o A	略高	—	—	只压噪声型文本路线
CRG (A+B)	最优	34.2	最优	最优	完整冲突感知策略

关键发现¶

Conflict-B（视觉反对、文本支持）是幻觉的最强单一信号源，其单独干预收益大于 Conflict-A；但二者联合才能最大化幻觉削减且 MME 等综合能力不掉点，说明两类冲突在因果机制上是互补的。
图 3 的逐头可视化表明 VAR 与 VRI 在前几层模式相近、中层却出现明显错位：中层 VAR 几乎扁平而 VRI 仍有显著结构，验证"注意力质量不是决策相关视觉接地的可靠代理"的核心论断。
干预只动文本门、视觉门保持 1，使得 MME 在 Existence、Count、Position、Color 等接地敏感类目和 Commonsense Reasoning、Numerical Calculation 等高级推理类目同时提升，说明该方法在削幻觉的同时几乎不损伤一般多模态能力。
在 CHAIR 上 \(C_S\) 从 52.8 降至 34.2（LLaVA-1.5-7B）、50.2 降至 32.4（Qwen-VL-Chat），同时 Recall 几乎不掉甚至上升（76.4→81.6），表明削幻觉不是靠"少说"而是"说对"。
在 AMBER 综合指标上 Score +3.75，其中 CHAIR↓ −3.7 与 F1↑ +3.8 同时获得，说明 CRG 同时改善了开放生成与判别两类幻觉评测维度。

亮点与洞察¶

用 \(S_{\mathrm{vis}}+S_{\mathrm{txt}}=I_L\)、\(S_{\mathrm{vis}}S_{\mathrm{txt}}=0\) 的两条互补对角掩码把 \(V_{l,h}\) 严格劈成两块，注意力权重和 \(W^O_l\) 完全没动——这是整个方法在"完全不重训也不动 attention"的前提下还能做精确 do-intervention 的根本理由。
"粗略一阶 do-effect 够用"的理论支撑 + 只需符号与排序的下游用法，让因果干预从离线分析工具变成可在线运行的解码组件，把因果方法的部署成本压到几乎与梯度反传相当，是非常巧妙的工程-理论结合。
把幻觉显式定义为 "视觉 \(-\)、文本 \(+\)" 的符号冲突，比"看视觉注意力比例"更贴近问题本质；同时还能区分 Conflict-A（文本噪声）与 Conflict-B（先验主导）并差异化干预，这种"先分类再差异化处置"的范式可直接迁移到其他需要削弱某条模态路径的多模态任务（如多模态对齐、模态丢失鲁棒性）。
文中第 4.2 节给出 VAR 的反事实分析（\(\partial R/\partial s_k=-R\alpha_k<0\)）显式说明"文本 logit 下降→VAR 上升"的虚假相关性，这是对"注意力即解释"长期假设的一次干净反例。

局限与展望¶

一阶估计在大门变动下偏差未被严格刻画，论文给出 Lipschitz 条件下的偏差界但实证仅做了 sign-consistency 验证；当模型规模/层数继续放大、单个头影响非线性更强时，是否需要二阶修正仍是开放问题。
推理期每 token 多一次 backward，作者声称"开销适中"但未对长生成场景给出绝对延迟数；在 batch 解码与 KV-cache 复杂的实际系统里这部分代价可能不容忽视。
门区间 \((g_{\min}^A,g_{\max}^A)=(0.5,1.0)\) 与 \((g_{\min}^B,g_{\max}^B)=(0,0.5)\) 是人工选取的二段化设计，跨模型/跨任务统一固定有简洁性但缺乏自适应；当未来 LVLM 头数与层数继续放大时，自动学习 top-\(k\) 与门区间的动态版本可能进一步释放潜力。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一次把"头内视觉/文本路线"作为因果干预的最小单元，并配上能在线运行的一阶估计器，路线级而非头级。
实验充分度: ⭐⭐⭐⭐ 五个基准、三种 LVLM、四种 baseline、完整消融与可视化对照 VAR/VRI；但缺更大模型与多语言/多模态扩展。
写作质量: ⭐⭐⭐⭐⭐ 从动机—理论—算法—实验链条非常清晰，公式排版与符号体系一致性高。
价值: ⭐⭐⭐⭐⭐ 训练自由、即插即用、不损一般多模态能力，对 LVLM 部署侧的幻觉控制有直接落地价值。