Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling¶

会议: NeurIPS 2025
arXiv: 2504.13169
代码: GitHub
领域: 多模态大模型 / 幻觉缓解
关键词: VLM, 视觉幻觉, 自校正, 回溯采样, 置信度token

一句话总结¶

提出REVERSE框架，首次将生成调整和事后验证统一到单个VLM中：通过1.3M半合成样本的幻觉感知训练+推理时回溯重采样，使VLM能在生成过程中自动检测并修正幻觉，在CHAIR-MSCOCO上降低12%、HaloQuest上提升34%。

研究背景与动机¶

核心问题: VLM在视觉理解中常产生幻觉（描述不存在的物体/动作），在安全关键场景（自动驾驶、辅助技术）中风险巨大
现有方案缺陷: 生成调整方法（VCD, OPERA, DoLA等）修改解码行为但一旦生成错误token无法修正；事后验证方法（Woodpecker, LURE）依赖外部模型，流程复杂且倾向于拒绝输出而非修正
关键差距: 没有方法能在单个模型内同时完成生成、验证和修正
切入点: 引入显式置信度token让VLM自我标注短语级幻觉，结合回溯重采样实现运行时自校正

方法详解¶

置信度Token设计¶

向VLM词表添加3个特殊token： - : 标记关键短语的开始 - </CN>: 标记置信的、有依据的短语结束 - </UN>: 标记不置信的、幻觉短语结束

1.3M半合成幻觉感知训练数据¶

基于LLaVA-v1.5-665k扩展，包含6.8M QA对（3.8M正确答案+2.9M幻觉答案）： - 正例短语用和</CN>包围 - 负例短语用和</UN>包围，且在</UN>后立即截断 - 二值Yes/No和计数题用规则方法生成负例，通用答案用GPT-4o-mini生成 - 20%数据注入query rewriting提示以支持回溯修正

幻觉感知训练损失¶

改进的交叉熵损失，对和</UN>之间的token进行target masking（权重设为0），避免在幻觉内容上强化语言先验：

\[L(S) = -\sum_{y_i \in Y} \mathbb{1}_{Hall(i)} \cdot \log P(y_i | X, y_1, ..., y_{i-1}; \theta)\]

其中 \(\mathbb{1}_{Hall(i)}=0\) 仅当token在和</UN>之间时。

回溯重采样（Retrospective Resampling）¶

推理时持续监控</UN>的生成概率 \(P(\text{</UN>})\)。当超过阈值 \(\tau\) 时触发分层回退策略：

局部回溯: 回退到最近的</CN>（置信检查点），尝试局部修正
句子级回溯: 若局部修正失败K次（K=10），回退到上一个句子边界
包含提示的Query Rewriting: 在输入中添加"Hint: potential incorrect phrases → \<placeholder>"提示
终止: 若N次（N=50）修正后仍失败，返回当前输出并标记可能存在幻觉

拒绝采样时逐步提升温度（步长Δ T=0.1，上限T₀+0.5），鼓励模型探索替代表达。

实验关键数据¶

CHAIR-MSCOCO图像描述（越低越好）¶

方法	CHAIRi↓	CHAIRs↓
LLaVA-v1.5 7B	15.4	50.0
HA-DPO	11.0	38.2
HALVA	11.7	41.4
REVERSE (τ=0.003)	10.3	37.0
REVERSE (τ=0.0003)	6.1	13.6

HaloQuest开放问答（准确率↑）¶

方法	Avg Acc↑	FP	VC	IC
LLaVA-v1.5	22.6	17.1	39.5	10.7
HALVA	23.9	21.1	37.4	10.7
REVERSE (τ=0.003)	30.7	31.8	31.5	26.9
REVERSE (τ=0.0003)	32.3	29.4	18.7	58.8

MMHal-Bench（Score↑ / Hall Rate↓）¶

方法	Score↑	Hall. Rate↓
LLaVA-v1.5	2.11	0.54
HALVA	2.25	0.54
REVERSE (τ=0.003)	2.56	0.47
REVERSE (τ=0.0003)	3.28	0.30

消融实验（AMBER-G）¶

组件	CHAIR↓	Cover↑	Hall↓	Cog↓
LLaVA-v1.5基线	7.8	51.0	36.4	4.2
+ 幻觉感知训练	7.2	53.2	36.3	3.4
+ 拒绝采样	6.0	51.0	30.5	3.0
+ Query Rewriting	6.0	52.2	30.4	3.0

效率¶

37%样本无需回溯，剩余中超半数仅需1轮修正
N=50时总token生成量约为基线3.05×
验证开销可忽略（内联token级置信估计）；远低于Woodpecker的外部模型开销

亮点与洞察¶

首次统一生成+验证+修正: 单个VLM既是生成器又是验证器，无需外部模型，回溯修正而非简单拒绝
可调阈值τ实现表达力-可信度平衡: τ从0.01到0.0001可连续调控，τ=0.0001时幻觉控制甚至超越GPT-4V，是首个提供此类用户可控参数的方法
幻觉感知训练本身即有增益: 即使不使用推理时回溯，仅训练阶段的对比学习效果已超越现有VLM（类似DPO效应）
对温度变化鲁棒: 其他方法在高温时幻觉和覆盖率同时恶化，REVERSE在高温下仍能降低幻觉同时提升覆盖率

局限性¶

推理开销增加: 最坏情况token生成量3×，KV-cache复用可优化但未实现
对判别式VQA无效: 二值Yes/No任务中回溯无法提供额外推理
训练数据依赖GPT-4o-mini: 可能引入偏差和有限覆盖
阈值τ需要per-model调整: LLaVA用0.003，Qwen用0.01，不同模型间置信度不可校准
VC（视觉挑战）子集准确率下降: 更保守的生成策略导致模型拒绝一些实际可回答的问题

评分¶

⭐⭐⭐⭐ — 统一框架设计优雅，实验全面（3个VLM backbone × 多个benchmark），可调阈值带来实用价值。不足是推理开销和训练数据质量依赖外部模型。