Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://mlrm-LEAD.github.io/ (项目页)
领域: 多模态VLM / 幻觉缓解
关键词: 多模态推理模型, 幻觉缓解, 熵感知解码, 潜在叠加推理, 视觉锚点注入

一句话总结¶

本文发现多模态推理模型（MLRM）的幻觉高度集中在 because/however/wait 这类转折词附近、而这些位置恰好是高熵（高不确定）步，于是提出免训练的 LEAD 解码策略：高熵步把采样得到的单个 token 换成「按概率加权的连续嵌入」以保留多条推理假设、并注入视觉锚点强化看图，低熵步回到常规离散解码，从而在多个 MLRM 与多个基准上稳定降低幻觉。

研究背景与动机¶

领域现状：多模态大推理模型（MLRM）靠 test-time scaling 在回答前先生成一长串显式推理链（因果、对比、自反思），通过可验证奖励的强化学习训练，在视觉问答上推理能力显著增强。

现有痛点：尽管推理更强，MLRM 仍极易产生幻觉。现有缓解手段要么改视觉奖励、要么做数据增强，都需要额外训练成本；免训练的对比解码（contrastive decoding）虽便宜，但只是在 token 级扰动输出分布，没有针对推理模型本身的行为特性做分析。

核心矛盾：作者的关键观察是——MLRM 在生成中会高频使用转折词（because、however、wait）来组织推理链的语义关系，而这些转折词恰好是 token 熵最高的位置（图 2），紧随其后的内容又最容易出现幻觉（图 1 显示幻觉案例大量集中在转折词后 10 个 token 内）。换句话说，幻觉与「高不确定的推理岔路口」强相关。作者进一步做 token masking 消融验证：遮蔽高熵 token 会让推理性能大幅下降、遮蔽低熵 token 几乎没影响（图 3a），且越靠前的高熵 token 影响越大（图 3b）——说明高熵 token 是推理链上真正的「关键决策节点」。

本文目标：在不重训模型的前提下，让 MLRM 在高熵推理步既保留多条候选语义（别过早坍缩）、又把注意力拉回图像（别脱离视觉），从而压住幻觉。

核心 idea：问题根源在于离散解码每步把整个预测分布 \(p_t\) 坍缩成一个采样 token，丢掉了在不确定时刻最需要的分布信息，逼着模型在岔路口过早地做单线程显式推理。受叠加表示理论（superposed representation）启发，作者主张「在高熵步用 token 概率分布构造更丰富的语义表示」，让模型把多条候选推理假设以连续嵌入的形式同时往下传——这就是 Latent Entropy-Aware Decoding (LEAD) 的出发点。

方法详解¶

整体框架¶

LEAD 是一个即插即用、免训练的解码策略，套在任意 MLRM 的自回归生成循环外面。它的核心机制是熵感知的推理模式切换：每生成一步，先用 token 级熵 \(H_t\) 度量当前不确定度，与一个动态参考阈值 \(\hat{H}\) 比较——

低熵（确定）步：走常规离散解码，用采样 token 的 one-hot 嵌入 \(e(r_t)\) 作为下一步输入，保证推理链收敛、输出稳定；
高熵（不确定）步：切到潜在解码（latent decoding），把下一步输入换成整个分布的概率加权嵌入 \(E_{v\sim p_t}[e(v)]\)，让多条候选语义同时保留、不过早坍缩；同时在进入高熵段的第一步注入视觉锚点，把模型注意力拉回图像。

为防止两种模式之间高频抖动，还加了持久窗口（persistence window）约束 D→L 切换、以及切换次数上限 \(C_{max}\) 防止 overthinking。最终输出阶段仍用离散采样产生答案。整体是一个「逐步判熵 → 选模式 → 构造下一步嵌入」的解码循环：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["第 t 步：前向得到<br/>分布 p_t"] --> B["熵感知推理模式切换<br/>算 H_t 与阈值比较"]
    B -->|"低熵 H_t 小"| C["离散解码<br/>下一步输入 = e(r_t)"]
    B -->|"高熵 H_t 大"| D["潜在解码<br/>下一步输入 = 概率加权嵌入"]
    D --> E["熵感知视觉锚点注入<br/>高熵段首步混入视觉嵌入"]
    C --> F["持久窗口 + 切换次数上限<br/>抑制抖动 / 防 overthinking"]
    E --> F
    F --> G["回填嵌入 → 下一步 / 超预算转答案阶段"]

关键设计¶

1. 熵感知推理模式切换：在高熵岔路口用「叠加嵌入」代替单 token，保留多条推理假设

这一设计直击「离散采样把分布坍缩成单 token、在不确定时丢信息」这个痛点。token 级熵定义为 \(H_t = -\sum_v p_t[v]\log p_t[v]\)：当多个候选 token 概率接近（\(p_t[v_1]\approx p_t[v_2]\approx\cdots\)）时熵高，说明模型在多条推理路径间竞争；当单个 token 主导（\(p_t[v^\*]\gg p_t[v]\)）时熵低、推理收敛。LEAD 据此定义下一步输入嵌入：

\[\tilde{e}_t = \begin{cases} e(r_t), & H_t < \hat{H}\ (\text{不确定度下降}) \\ E_{v\sim p_t}[e(v)], & \text{otherwise}\ (\text{不确定度上升}) \end{cases}\]

其中 \(E_{v\sim p_t}[e(v)]=\sum_v p_t[v]\,e(v)\) 是按预测概率对全词表嵌入加权得到的连续「叠加嵌入」，它把所有可能 token 的语义混在一起喂回模型，等价于让多条推理假设并行往下传播，而不是在岔路口提前赌一条。参考阈值 \(\hat{H}\) 不是固定值：每次切换模式时更新为当前熵 \(\hat{H}\leftarrow H_t\)，因此模型是按熵的局部变化趋势自适应切换，而非卡死一个全局门限。这正是后面消融里「动态阈值（∆）优于任何固定阈值」的原因——固定大阈值会把模型锁死在离散 CoT、固定小阈值会让它在潜在模式停太久而难收敛。

2. 持久窗口与切换次数上限：让模式切换稳定、避免抖动和过度思考

光有熵阈值会带来两个工程问题：熵在阈值附近抖动时模型会在离散/潜在两模式间反复横跳；以及推理已收敛后仍不断切换、陷入 overthinking。作者用两个门控量解决。设 \(m_t\in\{D,L\}\) 为当前模式、\(\rho_t\) 为已在当前模式停留的连续步数，定义 \(g^D_t=\mathbb{1}[H_t<\hat{H}]\)、\(g^L_t=\mathbb{1}[(H_t>\hat{H})\wedge(\rho_t\ge W_{D\to L})]\)，转移规则为 \(m_{t+1}=g^D_t D+g^L_t L+(1-g^D_t-g^L_t)m_t\)。关键是这个设计不对称：只对 D→L 设持久窗口 \(W_{D\to L}>0\)（必须在离散模式待够 \(W_{D\to L}\) 步、把一段连贯推理夯实后，才允许重新进入潜在探索），而 L→D（一旦置信度回升）可以立刻发生。此外引入全局切换计数 \(C_t\) 与上限 \(C_{max}\)（默认 5），一旦超限就停止推理直接进入答案阶段，避免无谓地反复切换。消融显示窗口大小到 128 最佳、过大则退化回标准 CoT。

3. 熵感知视觉锚点注入：在高熵段首步把注意力强行拉回图像

作者发现「带幻觉的高熵 token」普遍对视觉的注意力更低（图 3d），即模型在高不确定时反而更少看图、更依赖语言先验，这是多模态幻觉的直接诱因。LEAD 的对策是只在每个高熵段的第一个 token（即潜在推理刚开始那一步 \(t^\star\)）做一次性视觉锚点注入，给模型一个朝向视觉语义空间的初始化线索，而不持续干扰后续自适应推理。设 \(e_{vis}\) 为预训练视觉特殊 token（<|vision_start|>、<|image_pad|>、<|vision_end|>）嵌入的平均，注入公式为：

\[\tilde{e}_{t^\star} = (1-\lambda)\,E_{v\sim p_{t^\star}}[e(v)] + \lambda\, e_{vis}\]

\(\lambda\in[0,1]\) 控制视觉引导强度。消融（表 1）显示 \(\lambda\) 增大时性能上升、\(\lambda=0.4\) 时在所有数据集达到峰值，再大则视觉嵌入开始压过语言上下文、性能略降——所以是「适量」而非越强越好。这个一次性、段首注入的设计既稳定了推理轨迹的视觉 grounding，又不会让视觉信号淹没语义推理。

损失函数 / 训练策略¶

LEAD 完全免训练，是即插即用的解码期策略，不修改任何模型参数。输出答案阶段仍用常规离散采样（示例用 greedy）。默认超参：切换次数上限 \(C_{max}=5\)、持久窗口 128、视觉注入强度 \(\lambda=0.4\)。

实验关键数据¶

主实验¶

在 5 个代表性 MLRM（R1-Onevision-7B、Vision-R1-7B、VL-Rethinker-7B、VL-Cogito-7B、OpenVLThinker-7B）上作为插件接入，评测覆盖通用推理、幻觉、数学与科学推理基准。以 R1-Onevision-7B 为例，与 VCD / MemVR / SID 等解码方法对比（表 2，节选）：

方法 (R1-Onevision-7B)	VStar↑	MMEval-Pro↑	MMHalu↑ (0–6)	Bingo↑ (1–5)	POPE-R↑
Base	66.5	69.4	3.52	3.65	84.6
+ VCD	67.1	69.8	3.55	3.61	84.4
+ MemVR	69.6	71.3	3.69	3.68	82.3
+ SID	70.2	71.0	3.70	3.65	85.0
+ LEAD	71.2 (+4.7)	73.9 (+4.5)	3.80 (+4.7)	3.84 (+3.8)	85.9 (+1.3)

通用推理与理解平均提升 +3.6%，幻觉指标 MMHalu/Bingo 分别 +4.7% / +3.8%。在域专项任务上（表 3），数学基准平均准确率 +2.0%、科学基准 +3.2%（如 MMK12-Bio 从 40.8 → 44.8，+4.0）。增益在其余 4 个 MLRM 上同样成立（如 Vision-R1-7B 的 POPE-R 88.0 → 91.4，+3.4）。

消融实验¶

配置	关键指标	说明
动态阈值 ∆（完整）	MMHalu +4.7% / +4.1%	LEAD 默认，优于任何固定阈值
阈值 → ∞	退化到标准 CoT	锁死离散推理，无法用潜在探索
阈值 → 0	幻觉风险上升	长期停在潜在推理，难收敛
持久窗口 = 64/256/∞	均低于 128	窗口=128 最佳；过大退化回 CoT
视觉注入 λ=0 / 0.2 / 0.6	均低于 0.4	λ=0.4 峰值；过大视觉压过语义

关键发现¶

熵的动态阈值是性能主因：固定阈值（无论大小）都打不过按局部熵趋势自适应切换的动态策略，说明「何时进入潜在探索」必须随上下文不确定度走。
视觉注入有甜区：\(\lambda=0.4\) 最优，再大会让视觉嵌入主导、削弱语言上下文，是典型的 grounding 与推理的平衡点。
推理更短还更准：在 MathVision 上 LEAD 的平均推理长度短于所有 baseline 但准确率最高（图 9）——潜在推理在岔路口一次性融合多假设，省去了离散链上的反复试探。
文本质量未受损：用 GPT-5 评 grammar/fluency/naturalness 与 PPL，LEAD 在降幻觉的同时保持了生成文本质量（图 8）。

亮点与洞察¶

把幻觉定位到「转折词 = 高熵步」是很漂亮的诊断：先用相关性（图 1）+ 熵可视化（图 2）+ token masking 因果消融（图 3a/b）三连，扎实地证明高熵 token 是推理链关键节点，再对症下药，动机非常具体而非空谈。
「叠加嵌入」是核心 trick：高熵步不采样、直接把概率加权的全词表嵌入喂回去，等于让多条推理假设以连续向量并行传播，避免离散坍缩丢信息——这个思路可迁移到任何自回归推理模型的不确定步。
不对称持久窗口很务实：D→L 设门槛、L→D 立刻放行，体现「探索要谨慎、收敛要果断」的工程直觉，配合切换上限治 overthinking。
免训练、即插即用、对 5 个不同 MLRM 都涨点，落地友好。

局限与展望¶

切换阈值、持久窗口、\(\lambda\)、\(C_{max}\) 均为人工设定的超参，虽给了默认值，但跨模型/任务是否需要重调、敏感度如何，正文未充分展开。
概率加权嵌入需要在每个高熵步对全词表嵌入做加权求和，⚠️ 论文主打「轻量」，但这一步的实际显存/时延开销未给出量化对比（仅给了推理长度更短的间接证据）。
视觉锚点用的是预训练视觉特殊 token 的平均嵌入，是一种较粗的全局视觉先验，未利用与当前 query 相关的局部视觉区域，可能仍有 grounding 上限。
评测集中在 7B 量级模型，更大/更小尺度的规律（附录 A 有部分）以及对非推理型 MLLM 是否同样有效，值得进一步验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「转折词=高熵=幻觉」的诊断 + 叠加嵌入潜在推理，视角新且自洽
实验充分度: ⭐⭐⭐⭐ 5 个 MLRM × 多类基准 + 完整消融，缺显存/时延量化
写作质量: ⭐⭐⭐⭐⭐ 动机—诊断—方法逻辑链清晰，公式与可视化到位
价值: ⭐⭐⭐⭐⭐ 免训练即插即用、稳定降幻觉，落地价值高