Mitigating Hallucinations in Large Vision-Language Models via Causal Route Gating¶
会议: ICML 2026
arXiv: 2605.24024
代码: 无
领域: 多模态VLM
关键词: LVLM 幻觉, 因果干预, 注意力头门控, 路线分解, 训练自由
一句话总结¶
CRG 把每个注意力头的输出沿视觉/文本两条路线做精确线性分解,用一前向一反向梯度估计两条路线对当前 token 的因果"do-effect",再仅压制那些视觉与文本符号冲突且 VRI 偏低(即先验主导)的头的文本路线,从而在无需训练的前提下系统性削弱 LVLM 的语言先验幻觉。
研究背景与动机¶
领域现状:大型视觉语言模型(LVLM)已成为图像问答与描述生成的主流接口,但"幻觉"——生成与图像无关却语义通顺的内容——仍是部署最大的可靠性瓶颈。训练自由(training-free)的推理期干预因为不需要额外算力和数据成为热门方向,主流路线分两类:一类是 VCD/OPERA/MaskCD 等输出级解码策略,一类是 PAI/VTI 等基于注意力代理的内部干预。
现有痛点:解码级干预把模型当黑盒看,无法定位"是哪些组件让模型选择了不该选的 token";而基于"视觉注意力占比"(VAR)的内部干预默认"注意力越多→视觉证据越强",这一假设在 softmax 归一化和价值向量内容耦合下并不成立——同一个头的视觉注意力很大,但价值向量与梯度方向几乎正交,对决策仍可能没有正贡献。而且这类方法通常在头级别整体放缩,连同有用的视觉路线一起被压制。
核心矛盾:相关性度量(注意力质量)≠ 因果贡献(do-intervention 下决策得分的真实变化)。要真正定位"语言先验压过视觉证据"的头,必须做决策对齐的因果干预,而不是看注意力图。
本文目标:(1) 在不重训的前提下,给出一个能区分"视觉路线对决策的因果效应"和"文本路线对决策的因果效应"的工具;(2) 利用两者的符号冲突精准识别"先验主导"的头;(3) 只压文本路线、保留视觉路线,且与解码同步在线运行。
切入角度:观察到多头注意力的输出 \(O_{l,h}=\alpha_{l,h}V_{l,h}\) 中,价值矩阵 \(V_{l,h}\) 可以按视觉/文本 token 的索引集合做对角掩码精确分裂为 \(O_{l,h}^{\mathrm{vis}}+O_{l,h}^{\mathrm{txt}}\)。这意味着可以在不动 attention weights 的前提下,单独"do-intervene"任意一条路线。
核心 idea:把每个头内部劈成两条路线,量化两条路线分别对当前 token 决策的 do-effect,只对"视觉为正、文本为负"或"视觉为负、文本为正"的冲突头压制文本路线,把语言先验的影响逐 token 切掉。
方法详解¶
整体框架¶
CRG(Causal Route Gating)是一个嵌进解码循环的推理期模块,每生成一个 token 都跑三步:(1) 把每个头的输出按 token 模态精确分裂为视觉路线 \(O^{\mathrm{vis}}_{l,h}\) 与文本路线 \(O^{\mathrm{txt}}_{l,h}\);(2) 用一前向一反向梯度估计两条路线的因果效应 \(\widehat{\Delta}^{\mathrm{vis}}_{l,h}\) 与 \(\widehat{\Delta}^{\mathrm{txt}}_{l,h}\),并归一化得到视觉依赖指数 \(\mathrm{VRI}_{l,h}\);(3) 按 \((\widehat{\Delta}^{\mathrm{vis}},\widehat{\Delta}^{\mathrm{txt}})\) 的符号将头划入 Agreement / Conflict-A / Conflict-B 三类,对冲突头按 VRI 取最小的 top-\(k\) 用一个秩相关的平滑 schedule 单独压制文本门 \(g^{\mathrm{txt}}_{l,h}\)。模型权重、视觉路线、KV-cache 全程不变。
关键设计¶
-
头内路线精确分解 + 决策对齐的因果路线效应(CRE):
- 功能:把多头注意力的每个头输出精确拆成视觉 / 文本两条路线,并定义两条路线对当前 token 决策的因果"do-effect"。
- 核心思路:用 \(\{0,1\}^{L\times L}\) 对角选择矩阵 \(S_{\mathrm{vis}},S_{\mathrm{txt}}\) 按 token 索引掩掉价值矩阵的非目标行,得到 \(O^{\mathrm{vis}}_{l,h}=\alpha_{l,h}(S_{\mathrm{vis}}V_{l,h})\)、\(O^{\mathrm{txt}}_{l,h}=\alpha_{l,h}(S_{\mathrm{txt}}V_{l,h})\),由于 \(S_{\mathrm{vis}}+S_{\mathrm{txt}}=I_L\) 且 \(S_{\mathrm{vis}}S_{\mathrm{txt}}=0\),恒等式 \(O_{l,h}=O^{\mathrm{vis}}_{l,h}+O^{\mathrm{txt}}_{l,h}\) 严格成立;同时给每条路线加标量门 \(g^{\mathrm{vis}}_{l,h},g^{\mathrm{txt}}_{l,h}\in\mathbb{R}_{\geq 0}\) 接在 \(W^O_l\) 之前。把整个网络在头 \((l,h)\) 上做单头干预、其余头保持 \((1,1)\) 基线,用任务相关的标量得分 \(\ell\) 定义 \(\Delta^{\mathrm{vis}}_{l,h}=\ell_{l,h}(1,1)-\ell_{l,h}(0,1)\) 与 \(\Delta^{\mathrm{txt}}_{l,h}=\ell_{l,h}(1,1)-\ell_{l,h}(1,0)\)。生成式任务用 \(\ell=\log p(y^*)\),二元 QA 用 \(\ell=\log p(\mathrm{Yes})-\log p(\mathrm{No})\)。再聚合成视觉依赖指数 \(\mathrm{VRI}_{l,h}=|\Delta^{\mathrm{vis}}_{l,h}|/(|\Delta^{\mathrm{vis}}_{l,h}|+|\Delta^{\mathrm{txt}}_{l,h}|+\varepsilon)\) 用来排序。
- 设计动机:VAR 之类的注意力质量代理只看权重不看值,且受 softmax 竞争影响(文本 logit 下降会让 VAR 上升而视觉证据没变)。CRE 直接把"如果关掉这条路线,决策得分会怎么变"作为定义,从而把"相关"换成"因果",再把它落到每个头每条路线的细粒度上,使得后续干预既精准又最小化对正常视觉通路的扰动。
-
一前向一反向的一阶 do-effect 估计器:
- 功能:把每个解码 token 上的 \(\Delta^{\mathrm{vis}}_{l,h}\) 与 \(\Delta^{\mathrm{txt}}_{l,h}\) 用极低额外开销估出来,使因果干预能跟解码同步在线进行。
- 核心思路:正常做一次门全 1 的解码前向,缓存所有 \(O^{\mathrm{vis}}_{l,h},O^{\mathrm{txt}}_{l,h}\);通过
torch.autograd.grad对决策得分 \(\ell\) 反向一次拿到每个头 pre-\(W^O_l\) 张量处的灵敏度 \(G_{l,h}=\partial\ell/\partial\tilde O_{l,h}\);按命题 3.1,沿门轴方向的方向导数给出估计 \(\widehat{\Delta}^{\mathrm{vis}}_{l,h}=\langle G_{l,h},O^{\mathrm{vis}}_{l,h}\rangle\)、\(\widehat{\Delta}^{\mathrm{txt}}_{l,h}=\langle G_{l,h},O^{\mathrm{txt}}_{l,h}\rangle\),与精确 do-difference 的一阶项一致。代入即得 \(\widehat{\mathrm{VRI}}_{l,h}\)。 - 设计动机:精确两点 do-effect 需要为每个 \((l,h)\) 各跑一次"门关掉"的前向,全模型代价是 \(O(LH)\) 倍解码成本,无法在线。作者证明只要 \(\ell\) 是门的可微函数,一阶展开就给出严格的一前向一反向估计,KV-cache 不动;下游用法又只关心 sign 与 ranking(不是精确数值),与近期"粗略效应估计足以做近最优预算分配"的理论一致,使得这个粗估计完全够用。
-
冲突感知的文本路线门控(Conflict-A / Conflict-B + 秩值 schedule):
- 功能:基于两条路线 do-effect 的符号关系分类头,再用 VRI 选 top-\(k\)、用秩相关的平滑 schedule 单独压制文本门,视觉门一律保持 1。
- 核心思路:按 \((\widehat{\Delta}^{\mathrm{vis}},\widehat{\Delta}^{\mathrm{txt}})\) 的符号分四象限——同号(\(+,+\) / \(-,-\))是"两条路线方向一致"的 Agreement,不干预;\((+,-)\) 记为 Conflict-A(视觉支持当前决策、文本反对),视为文本噪声,温和压制;\((-,+)\) 记为 Conflict-B(视觉反对、文本支持,幻觉特征),强力压制。形式上构造头集合 \(\mathcal{H}_A,\mathcal{H}_B\),在每个集合内取 VRI 最小的 top-\(k\) 头组成 \(\mathcal{S}\),升序排序后赋秩 \(i\),归一化为 \(s_i=i/(|\mathcal{S}|-1)\),门值为 \(g^{\mathrm{txt}}_{(i)}=g_{\min}+(g_{\max}-g_{\min})\cdot\mathrm{clip}(s_i^\gamma,\epsilon,1-\epsilon)\);Conflict-A 用 \((0.5,1.0)\) 的温和区间,Conflict-B 用 \((0,0.5)\) 的强抑制区间。
- 设计动机:同号头里"两条路线一起把决策朝同一方向推",多半是模型真在做正确的多模态融合,硬切会伤性能;只有符号冲突的头才同时具备"视觉证据被忽视"的特征,且 VRI 偏低意味着这个头的决策几乎只由文本驱动(即典型的"语言先验主导")。秩值 schedule 而不是统一标量保证压制强度随 VRI 排名平滑过渡,避免"全砍到 0"或"硬阈值"带来的解码退化,同时保留 grounded reasoning 的头不被误伤。
损失函数 / 训练策略¶
完全训练自由:不更新任何参数,无监督信号,无额外训练阶段。所有超参(top-\(k\)、\(\gamma\)、\(\epsilon\)、\(g_{\min/\max}^{A/B}\))在小验证集上一次性确定,跨模型固定不变;每 token 多一次 autograd backward 是唯一额外开销。具体地,对当前解码 token 先做一次门全 1 的标准前向得到 logits 并选出 \(y^*\),缓存所有头的 \(O^{\mathrm{vis}}_{l,h},O^{\mathrm{txt}}_{l,h}\) 与 pre-\(W^O_l\) 张量;调用一次 backward 得到 \(G_{l,h}\),按式 (3) 求出 \(\widehat{\Delta}^{\mathrm{vis}/\mathrm{txt}}_{l,h}\) 与 \(\widehat{\mathrm{VRI}}_{l,h}\);按算法 1 用秩值 schedule 给冲突头打门后,再用更新后的门做一次"真正用于解码"的前向得到 token 分布并采样。KV-cache 因为只改 \(W^O_l\) 之前的标量门、不动 attention 内部结构而完全可复用,与标准 greedy / beam 解码兼容。
实验关键数据¶
主实验¶
在 LLaVA-1.5-7B、Qwen-VL-Chat、Qwen2.5-VL-7B-Instruct 三个 LVLM 上,五个基准(POPE、CHAIR、MME、MMHal-Bench、AMBER)系统超过 Regular、VCD、OPERA、PAI、VTI。
| 数据集 / 设定 | 指标 | Regular | 最强 baseline | CRG | 相对 Regular 提升 |
|---|---|---|---|---|---|
| POPE-Random / LLaVA-1.5-7B | Acc / F1 | 83.29 / 81.33 | VTI 89.50 / 88.89 | 90.30 / 89.51 | +7.01 / +8.18 |
| POPE-Adv / Qwen2.5-VL-7B | Acc / F1 | 82.79 / 83.15 | VTI 85.78 / 85.14 | 86.98 / 87.07 | +4.19 / +3.92 |
| CHAIR / LLaVA-1.5-7B | \(C_S\downarrow\) / \(C_I\downarrow\) / Recall↑ | 52.8 / 15.9 / 77.3 | VTI 37.6 / 12.9 / 79.3 | 34.2 / 11.2 / 77.8 | \(C_S\) −18.6 |
| AMBER / LLaVA-1.5-7B | CHAIR↓ / F1↑ / Score↑ | 8.3 / 73.7 / 82.70 | — | 4.6 / 77.5 / 86.45 | Score +3.75 |
消融实验¶
| 配置 | POPE-Avg↑ | \(C_S\)↓ | MMHal↑ | MME↑ | 含义 |
|---|---|---|---|---|---|
| Regular | 81.37 | 52.8 | 2.23 | 1640 | 无干预基线 |
| CRG w/o A (仅 Conflict-B) | 中等 | 中等 | 中等 | 中等 | 只切语言先验主导头 |
| CRG w/o B (仅 Conflict-A) | 略低于 w/o A | 略高 | — | — | 只压噪声型文本路线 |
| CRG (A+B) | 最优 | 34.2 | 最优 | 最优 | 完整冲突感知策略 |
关键发现¶
- Conflict-B(视觉反对、文本支持)是幻觉的最强单一信号源,其单独干预收益大于 Conflict-A;但二者联合才能最大化幻觉削减且 MME 等综合能力不掉点,说明两类冲突在因果机制上是互补的。
- 图 3 的逐头可视化表明 VAR 与 VRI 在前几层模式相近、中层却出现明显错位:中层 VAR 几乎扁平而 VRI 仍有显著结构,验证"注意力质量不是决策相关视觉接地的可靠代理"的核心论断。
- 干预只动文本门、视觉门保持 1,使得 MME 在 Existence、Count、Position、Color 等接地敏感类目和 Commonsense Reasoning、Numerical Calculation 等高级推理类目同时提升,说明该方法在削幻觉的同时几乎不损伤一般多模态能力。
- 在 CHAIR 上 \(C_S\) 从 52.8 降至 34.2(LLaVA-1.5-7B)、50.2 降至 32.4(Qwen-VL-Chat),同时 Recall 几乎不掉甚至上升(76.4→81.6),表明削幻觉不是靠"少说"而是"说对"。
- 在 AMBER 综合指标上 Score +3.75,其中 CHAIR↓ −3.7 与 F1↑ +3.8 同时获得,说明 CRG 同时改善了开放生成与判别两类幻觉评测维度。
亮点与洞察¶
- 用 \(S_{\mathrm{vis}}+S_{\mathrm{txt}}=I_L\)、\(S_{\mathrm{vis}}S_{\mathrm{txt}}=0\) 的两条互补对角掩码把 \(V_{l,h}\) 严格劈成两块,注意力权重和 \(W^O_l\) 完全没动——这是整个方法在"完全不重训也不动 attention"的前提下还能做精确 do-intervention 的根本理由。
- "粗略一阶 do-effect 够用"的理论支撑 + 只需符号与排序的下游用法,让因果干预从离线分析工具变成可在线运行的解码组件,把因果方法的部署成本压到几乎与梯度反传相当,是非常巧妙的工程-理论结合。
- 把幻觉显式定义为 "视觉 \(-\)、文本 \(+\)" 的符号冲突,比"看视觉注意力比例"更贴近问题本质;同时还能区分 Conflict-A(文本噪声)与 Conflict-B(先验主导)并差异化干预,这种"先分类再差异化处置"的范式可直接迁移到其他需要削弱某条模态路径的多模态任务(如多模态对齐、模态丢失鲁棒性)。
- 文中第 4.2 节给出 VAR 的反事实分析(\(\partial R/\partial s_k=-R\alpha_k<0\))显式说明"文本 logit 下降→VAR 上升"的虚假相关性,这是对"注意力即解释"长期假设的一次干净反例。
局限与展望¶
- 一阶估计在大门变动下偏差未被严格刻画,论文给出 Lipschitz 条件下的偏差界但实证仅做了 sign-consistency 验证;当模型规模/层数继续放大、单个头影响非线性更强时,是否需要二阶修正仍是开放问题。
- 推理期每 token 多一次 backward,作者声称"开销适中"但未对长生成场景给出绝对延迟数;在 batch 解码与 KV-cache 复杂的实际系统里这部分代价可能不容忽视。
- 门区间 \((g_{\min}^A,g_{\max}^A)=(0.5,1.0)\) 与 \((g_{\min}^B,g_{\max}^B)=(0,0.5)\) 是人工选取的二段化设计,跨模型/跨任务统一固定有简洁性但缺乏自适应;当未来 LVLM 头数与层数继续放大时,自动学习 top-\(k\) 与门区间的动态版本可能进一步释放潜力。
相关工作与启发¶
- vs VCD / OPERA / MaskCD:解码级启发式只调输出分布、不触及内部机制,CRG 在头内细粒度做因果干预,定位能力强于黑盒解码控制。
- vs PAI / VTI:同属内部干预但前者在隐层做空间引导、后者做潜空间方向控制,CRG 把干预粒度下沉到"头内单条路线",且用 do-effect 做选择而不是隐式表征距离。
- vs VAR-style 选择(Jiang et al. 2025 等):用注意力质量代理选头并整头放缩,CRG 在理论与实验上指出 VAR 与决策相关视觉接地存在系统性错位,且头级放缩会连带压视觉路线。
- vs CHG(Causal Head Gating):CHG 学习头级可微门,CRG 把因果干预从"头级学习门"推到"头内路线级解码期 do-effect",无需训练且粒度更细。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 第一次把"头内视觉/文本路线"作为因果干预的最小单元,并配上能在线运行的一阶估计器,路线级而非头级。
- 实验充分度: ⭐⭐⭐⭐ 五个基准、三种 LVLM、四种 baseline、完整消融与可视化对照 VAR/VRI;但缺更大模型与多语言/多模态扩展。
- 写作质量: ⭐⭐⭐⭐⭐ 从动机—理论—算法—实验链条非常清晰,公式排版与符号体系一致性高。
- 价值: ⭐⭐⭐⭐⭐ 训练自由、即插即用、不损一般多模态能力,对 LVLM 部署侧的幻觉控制有直接落地价值。