跳转至

Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models

会议: ICML 2026
arXiv: 2511.10292
代码: 有(论文称 RUDDER,缓存未给出完整 URL)
领域: 多模态VLM / 幻觉缓解
关键词: LVLM幻觉, inference-time steering, residual stream, Beta Gate, 视觉 grounding

一句话总结

这篇论文提出 RUDDER,在 LVLM 的 prefill 阶段从残差更新中提取每样本视觉证据方向,并在解码时用 Beta Gate 自适应注入,从而以接近单次前向的开销降低物体幻觉。

研究背景与动机

领域现状:大型视觉语言模型通常把图像 token 作为语言解码器的前缀,然后自回归生成文本。随着生成步数增加,图像前缀的信息会逐渐被语言先验稀释,模型容易在描述中添加图像里不存在的物体。

现有痛点:已有 inference-time intervention 方法往往在 logits 上做 contrastive decoding,或通过迭代反馈修正输出。这些方法能减少幻觉,但通常需要额外 forward pass、图像扰动、外部 classifier 或多轮 refinement,延迟和吞吐开销较大。对于真实部署,尤其是长文本生成,这个成本很难接受。

核心矛盾:降低幻觉需要持续提醒模型关注视觉证据,但强行加入固定 steering 又可能破坏流畅性、召回率和一般多模态能力。模型需要一种“只在合适 token 上提醒视觉证据”的轻量控制机制。

本文目标:作者希望在不改模型权重、不增加额外 forward pass 的情况下,把 prefill 阶段已经存在的视觉信息转化为一个可持续使用的 visual anchor,并在解码过程中低成本地抑制物体幻觉。

切入角度:论文观察到自注意力子层的 residual update 在 prefill 阶段包含图像对文本表示的净影响。既然 prefill 本来就是 LVLM 生成必须执行的步骤,那么从中缓存一个视觉证据方向几乎是零额外成本。

核心 idea:从 prefill residual update 中提取 CARD 视觉证据向量,再用 Beta 分布门控在解码时按 token 自适应注入。

方法详解

RUDDER 的关键不是重新训练 LVLM,而是在标准生成流程中挂两个轻量模块。第一个模块在 prefill 阶段读取某个 decoder 层的 self-attention residual update,聚合成输入相关的 CARD 向量。第二个模块在每个解码步根据当前 hidden state 与 CARD 的相似度计算 Beta Gate,决定这一步要不要、以及多强地把 CARD 注入 residual stream。

整体框架

给定图像和文本 prompt,LVLM 首先执行 prefill,处理图像 token 和 prompt token 并构建 KV cache。RUDDER 在目标层放一个只读 hook,收集 prefill span 中每个 token 的 self-attention 输出,即 residual update。它将这些 update 做 mean 或范数加权 mean pooling,再做 \(L_2\) 归一化,得到每个样本自己的视觉证据方向 \(v_{\mathrm{CARD}}\)

进入 autoregressive decoding 后,RUDDER 在同一目标层持续工作。每生成一个 answer token,先计算当前 hidden state \(h_{l,t}\)\(v_{\mathrm{CARD}}\) 的 cosine similarity \(s_t\);再把 \(s_t\) 映射成 Beta 分布的两个参数,并取 \(g_t=\alpha_t/(\alpha_t+\beta_t)\) 作为 gate。最终注入向量是 \((\alpha_{\max}g_t)v_{\mathrm{CARD}}\),加入 self-attention 后的 residual stream。

关键设计

  1. CARD 视觉证据方向:

    • 功能:在不额外前向的情况下,为每个输入提取一个持久视觉 anchor。
    • 核心思路:在 prefill 阶段缓存目标层 self-attention residual update \(\Delta_i^l\),对 prefill token 集合做 pooling,并归一化为 \(v_{\mathrm{CARD}}=\mathrm{Pool}(\{\Delta_i^l\})/\|\mathrm{Pool}(\{\Delta_i^l\})\|_2\)。由于 residual update 表示视觉-文本融合后的新增信息,聚合后的方向可被视为该样本的视觉证据摘要。
    • 设计动机:幻觉通常来自生成过程逐渐转向语言先验;CARD 把最强视觉融合阶段的信息保存下来,后续可以反复提醒模型。
  2. Beta Gate 自适应门控:

    • 功能:让视觉提醒按 token 调节强度,避免固定 steering 伤害语法 token 和非视觉内容。
    • 核心思路:计算 \(s_t=\cos(h_{l,t},v_{\mathrm{CARD}})\),再用 \(\alpha_t=\mathrm{softplus}(ks_t+c)\)\(\beta_t=\mathrm{softplus}(-ks_t+c)\) 得到 \(g_t=\alpha_t/(\alpha_t+\beta_t)\)。高相似度表示当前生成轨迹可信地沿着视觉证据方向,门控增强;低相似度或负相似度则抑制注入。
    • 设计动机:它不是错误检测器,而是 trust mechanism。模型当前状态越贴近视觉证据,继续强化越安全;状态偏离或正在生成语法功能词时,强注入反而可能破坏流畅性。
  3. 单 pass 集成与轻量校准:

    • 功能:让方法具备部署可行性。
    • 核心思路:CARD 来自必需的 prefill,Beta Gate 只在解码中增加少量向量运算。超参数通过 100 张 held-out MSCOCO 图像一次性校准,选择目标层、最大强度 \(\alpha_{\max}\) 和敏感度 \(k\),并约束 recall 至少保持 vanilla 的 95%。
    • 设计动机:幻觉缓解如果靠多次 forward 换效果,在在线生成中很难落地;RUDDER 把计算放在已有路径内,重点解决效果-效率 trade-off。

损失函数 / 训练策略

RUDDER 是 training-free 的 inference-time intervention,没有新增训练损失。校准只用于选择部署超参数:LLaVA-1.5 选择较晚层 \(L=30\),Idefics2 选择 \(L=28\),InstructBLIP 选择早层 \(L=1\);对应 \((\alpha_{\max},k)\) 分别为 \((20,5.0)\)\((8.0,5.0)\)\((6.5,8.0)\)。门控浓度 \(c=1\),并把 gate clamp 到 \([0.05,1]\),以避免完全关闭或饱和。

实验关键数据

主实验

论文在 CHAIR、POPE 和 MME 上评估幻觉、物体问答和一般多模态能力。下表摘取 greedy decoding 下的代表结果。

数据集/指标 模型 Vanilla RUDDER-Beta 变化
CHAIR \(C_S/C_I\) LLaVA-1.5 48.6 / 13.6 39.5 / 10.5 句级和物体级幻觉都下降
CHAIR \(C_S/C_I\) Idefics2 46.6 / 14.9 28.4 / 10.9 句级幻觉下降最明显
CHAIR \(C_S/C_I\) InstructBLIP 39.2 / 12.8 27.1 / 8.5 低幻觉且保持召回约束
POPE Acc/F1 ↑ LLaVA-1.5 85.34 / 84.91 86.53 / 86.03 识别能力小幅提升
POPE Acc/F1 ↑ Idefics2 78.40 / 74.86 78.74 / 76.52 F1 提升更明显
POPE Acc/F1 ↑ InstructBLIP 85.74 / 84.75 86.02 / 84.93 基本不损伤问答能力
MME ↑ Idefics2 1518.84 1540.56 一般能力提升
MME ↑ InstructBLIP 1566.77 1592.07 一般能力提升

消融实验

论文的分析重点是自适应门控、层选择、强度敏感性和效率。

配置 关键指标 说明
RUDDER-Beta vs RUDDER-Add CHAIR 上 Beta 更稳 开放式 captioning 中 token-wise gate 更适合精准抑制具体物体幻觉
RUDDER-Add POPE 上对 InstructBLIP 有时更强 yes/no 任务较短,固定强推在部分架构上足够有效
Idefics2 层消融 最优层约 \(L=28\) mid-late 层最能影响最终输出且保留视觉语义
Idefics2 超参热图 \(\alpha_{\max}=8.0,k=5.0\) 最平衡 强度越大越降 CHAIR,但过大会伤 recall
吞吐量 tokens/s Vanilla 56.7/47.8/62.3,VISTA 36.1/31.9/28.9,RUDDER-Beta 54.9/45.8/59.5 RUDDER-Beta 平均保持约 96.0% vanilla throughput,明显快于多 forward 方法
扩展到 LLaVA-13B/Qwen2.5-VL LLaVA-13B POPE F1 85.5,Qwen2.5-VL \(C_I=7.0\) 方法可扩展到更大模型和不同融合架构

关键发现

  • RUDDER 的最大价值在效率:它接近 VISTA 的幻觉缓解能力,但吞吐保持在 vanilla 的约 96%,而 VISTA 平均只有约 58.1%。
  • CARD 的 per-sample 特性很重要。它不是离线学一个通用 hallucination direction,而是从当前图像和 prompt 的 residual update 中提取视觉证据,因此跨 LLaVA、Idefics2、InstructBLIP 和 Qwen2.5-VL 都能工作。
  • 自适应门控适合长文本和开放式描述,因为它能在内容词上强化视觉证据,同时避免在非视觉 token 上过度干预。

亮点与洞察

  • 把 prefill residual update 当作“视觉证据缓存”很巧妙。这个信号本来就会被模型计算出来,RUDDER 只是把它显式保存并在解码时复用。
  • Beta Gate 的解释比普通 sigmoid gate 更有语义:它把相似度当作 pseudo-count,输出的是对“当前轨迹可信地贴近视觉证据”的估计。
  • 论文对幻觉缓解的评价比较克制,不只看 CHAIR 下降,还用 recall 约束、POPE、MME 和 throughput 检查是否用“少说话”或“慢很多”换来低幻觉。

局限与展望

  • 方法仍需要为不同架构调目标层和强度,论文也承认超参数敏感性。未来可研究自动层选择或在线自适应校准。
  • CARD 来自单层 residual update,可能无法覆盖需要多层、多尺度视觉推理的复杂错误。对关系、计数、OCR 等非物体幻觉的效果还需要更细分分析。
  • Beta Gate 的高相似度增强假设在大多数物体描述任务中合理,但在模型已经沿错误视觉方向自信生成时,单纯强化可能不足以纠偏。
  • 该方法是 inference-time steering,不能替代训练阶段的视觉 grounding 或安全对齐;更适合部署时低成本降低幻觉。

相关工作与启发

  • vs VCD / PAI / HALC: 这些方法多在 logits 或对比上下文上操作,常需要额外 forward;RUDDER 直接改 hidden residual stream,开销更低。
  • vs VISTA / ASD: 这些 steering 方法也改表示,但通常依赖预定义方向或额外计算;RUDDER 的 CARD 是每样本从 prefill 中即时提取。
  • vs DeGF: DeGF 通过迭代反馈修正输出,效果可能强但延迟高;RUDDER 更偏向轻量在线控制。
  • 对后续工作的启发: prefill 阶段可能包含很多可复用的任务证据,不只视觉 grounding,也可用于多模态安全、OCR 保真和视频长上下文记忆。

评分

  • 新颖性: ⭐⭐⭐⭐☆ CARD + Beta Gate 的组合简洁有效,核心信号来源很巧妙。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖多模型、多解码策略、幻觉/能力/效率/扩展性。
  • 写作质量: ⭐⭐⭐⭐☆ 结构清楚,少数表格跨模型较密,读者需要整理主趋势。
  • 价值: ⭐⭐⭐⭐⭐ 直接面向 LVLM 幻觉缓解的部署痛点,效果和效率兼顾。