Stop Learning It All to Mitigate Visual Hallucination, Focus on the Hallucination Target¶
会议: CVPR 2025
arXiv: 2506.11417
代码: 未公开
领域: 幻觉检测
关键词: 视觉幻觉, 目标学习, DPO, 偏好优化, 多模态大模型
一句话总结¶
提出TL-DPO(Target-Learning DPO),将传统DPO的全句级偏好学习限制到幻觉发生的目标chunk和对应的图像区域,通过目标生成损失和目标条件损失排除无关信号,在LLaVA-1.5上将CHAIR_s从66.8降至20.1,同时LLaVA-Bench从63.4提升至71.2。
研究背景与动机¶
多模态大语言模型(MLLM)在视觉-语言任务中表现出色,但存在严重的幻觉问题——生成图像中不存在的物体信息或不准确的空间描述。偏好学习方法(如RLHF、DPO)被广泛用于缓解幻觉,但效果有限。
现有痛点: 1. 全局学习的局限——传统偏好学习在完整响应级别进行优化,但幻觉可能只出现在响应的某个局部(如"时钟显示11:20"中只有"11:20"是错误的),全局优化会学到大量与幻觉无关的信号 2. 注意力偏移——通过分析注意力图发现,传统DPO训练后模型可能将注意力从图像目标物体转移到文本信号上,导致过拟合文本模式而非修正视觉理解 3. 无关信号干扰——偏好学习中"好/差"响应对的大部分内容是相同的,真正的差异仅在幻觉部分,但模型被迫在整个响应上学习偏好,效率低且可能学到错误信号
核心矛盾:人类修正错误时只修改出错的地方(如改掉一个错字),但现有偏好学习方法要求模型"重写全部内容",导致学习效率低且引入副作用。
切入角度:像人类一样只关注出错的地方——将偏好学习限制在幻觉目标(target)上,包括响应中出错的文本chunk和图像中导致幻觉的对象区域。
方法详解¶
整体框架¶
TL-DPO包含两个互补的损失函数:(1) 目标生成损失——仅在幻觉发生的文本chunk上计算DPO损失,过滤掉无关的文本信号;(2) 目标条件损失——通过遮罩图像中导致幻觉的目标对象,训练模型学会利用目标区域的视觉信息来给出正确回答。训练数据基于Visual Genome数据集构建,包含幻觉响应、正确响应、以及幻觉目标位置信息(包括文本chunk位置和图像bounding box)。
关键设计¶
-
目标生成损失(Target Generation Loss)
- 功能:将DPO的偏好比较从全句级别缩小到幻觉chunk级别,排除响应中与幻觉无关的部分
- 核心思路:假设响应 \(y\) 中只有部分chunk \(y^t\) 包含幻觉信息。DPO标准损失比较整个响应 \((y_r, y_h)\) 的奖励差,TL-DPO只比较目标chunk \((y_r^t, y_h^t)\) 的奖励差: $\(\mathcal{L}_t = -\mathbb{E}_{(x, y_r^t, y_h^t) \sim D} [\log \sigma(u(x, y_r^t, y_h^t))]\)$ 例如,对于"时钟显示约11:20(错误)"和"时钟显示约15:26(正确)",\(y_h^t\) = "11:20",\(y_r^t\) = "15:26",只在这两个片段上计算偏好
- 设计动机:理论证明(Theorem 3.3),在假设3.1(幻觉无关信号不影响奖励差异)下,目标级DPO与完整DPO等价,但前者假设空间更小(Proposition 1),需要更少的样本达到相同泛化误差
-
目标条件损失(Target Condition Loss)
- 功能:训练模型学会利用图像中目标区域的视觉信息,而非依赖文本先验来回答
- 核心思路:给定幻觉相关的图像区域 \(m_i^t\)(由bounding box标记),构造遮罩图像 \(\tilde{m}_i^t\)(将该区域遮罩),形成偏好对 \((m_i, q, y_r)\)(完整图像+正确回答)vs \((\tilde{m}_i^t, q, y_r)\)(遮罩图像+正确回答),训练模型偏好使用完整图像信息: $\(\mathcal{L}_c = -\mathbb{E}_{(m_i, \tilde{m}_i^t, x, y_r) \sim D} [\log \sigma(u^*(m_i, \tilde{m}_i^t, x, y_r))]\)$ 其中 \(u^* = r(m_i, x, y_r) - r(\tilde{m}_i^t, x, y_r)\)
- 设计动机:解决偏好学习中模型可能过拟合文本模式而忽略图像信息的问题。通过遮罩-未遮罩图像对,显式引导模型关注与幻觉相关的视觉区域
-
最终训练目标
- 功能:综合文本目标和视觉目标的偏好学习
- 核心思路:\(\mathcal{L}_{TL-DPO} = \mathcal{L}_t + \mathcal{L}_c\),两个损失互补——目标生成损失确保文本层面的精准修正,目标条件损失确保视觉层面的正确关注
- 设计动机:单独使用任一损失都不够——仅用目标生成损失可能导致模型仍然不看图像,仅用目标条件损失可能不够精确地修正文本幻觉
损失函数 / 训练策略¶
基于LoRA微调LLaVA-v1.5-7B,batch size=32,3个epoch,学习率1e-5,cosine调度,warm-up 0.1。DPO的β=0.1,LoRA α=128,rank=64。训练数据基于VG数据集,用基线模型生成响应,GPT-4判断正确/错误并生成修正,构建包含目标位置信息的偏好数据集。
实验关键数据¶
主实验(LLaVA-1.5基线,与其他偏好学习方法对比)¶
| 方法 | CHAIR_s ↓ | CHAIR_i ↓ | POPE ↑ | MMHal ↑ | MMBench ↑ | LLaVA-Bench ↑ |
|---|---|---|---|---|---|---|
| LLaVA-1.5 | 66.8 | 12.7 | 85.9 | 2.42 | 63.0 | 63.4 |
| +RLHF-V | 44.6 | 7.9 | 86.2 | 2.59 | 63.6 | 65.4 |
| +HA-DPO | 37.2 | 10.0 | 86.9 | 1.97 | 64.0 | 66.2 |
| +HALVA | 46.6 | 23.1 | 87.0 | 2.25 | 66.1 | 67.2 |
| +TL-DPO | 20.1 | 5.2 | 86.95 | 2.72 | 67.8 | 71.2 |
跨模型泛化¶
| 模型 | CHAIR_s (基线→+TL-DPO) | POPE (基线→+TL-DPO) | MMBench (基线→+TL-DPO) |
|---|---|---|---|
| LLaVA-1.5 | 66.8→20.1 | 85.9→87.0 | 63.0→67.8 |
| LLaVA-Next | 29.1→25.1 | 84.8→87.1 | 63.0→63.1 |
| InternVL-2.5(8B) | 18.4→7.6 | 86.5→87.0 | 68.6→80.0 |
| Llama3 | 5.5→7.1 | 82.8→87.1 | 85.8→87.3 |
消融实验¶
| 配置 | CHAIR_s ↓ | CHAIR_i ↓ | POPE ↑ | MMHal ↑ | LLaVA-Bench ↑ |
|---|---|---|---|---|---|
| LLaVA-1.5基线 | 66.8 | 12.7 | 85.9 | 2.42 | 63.4 |
| +目标条件仅 | 32.4 | 8.6 | 84.4 | 2.58 | 66.5 |
| +目标生成仅 | 14.6 | 6.1 | 89.6 | 2.70 | 68.7 |
| TL-DPO(两者结合) | 20.1 | 5.2 | 87.0 | 2.72 | 71.2 |
关键发现¶
- TL-DPO在CHAIR_s上相比最强基线HALVA降低了57%(20.1 vs 46.6),同时综合性能全面提升
- 仅目标生成损失的CHAIR_s更低(14.6),但POPE略降;两者结合实现最佳平衡
- TL-DPO对多个模型(LLaVA、Qwen、InternVL等)都有效,展现良好泛化性
- InternVL-2.5上CHAIR_s从18.4大幅降至7.6,MMBench从68.6提升至80.0(+11.4),效果惊人
亮点与洞察¶
- "像人类一样改错"的直觉——类比人类修正绘画或文字时只改出错部分,而非重画重写,这一简洁直觉催生了target learning的核心思想
- 理论支撑扎实——从Bradley-Terry模型出发证明了目标级DPO与完整DPO的等价性(Theorem 3.3),并证明目标学习需要更少样本(Proposition 1),理论与实验一致
- 双重损失互补——目标生成损失解决"改什么文本",目标条件损失解决"看什么图像区域",两者结合实现文本和视觉的双重精准修正
- 不牺牲综合性能——多数幻觉缓解方法会降低综合benchmark分数,TL-DPO反而在MMBench、LLaVA-Bench上大幅提升,说明排除无关信号不仅减少幻觉还改善了整体学习
局限性¶
- 损失函数中目标生成损失和目标条件损失权重固定为1:1,未探索加权的影响
- 训练数据构建依赖GPT-4判断幻觉和生成修正,数据质量受GPT-4能力制约
- 部分模型(如Qwen VL Chat)加TL-DPO后某些综合指标反而下降,泛化性不完全一致
- 假设3.1(幻觉无关信号不影响奖励差异)在实际中可能不完全成立
相关工作与启发¶
- 偏好学习: 从RLHF到DPO的发展使偏好学习更简洁,本文进一步将DPO从全句级精炼到目标级,是偏好学习粒度的重要进步
- 视觉幻觉: HA-DPO、POVID、RLHF-V等方法从数据或全局优化角度缓解幻觉,本文首次从"排除无关信号"角度出发
- 启发: 在偏好学习中,"少学"可能比"多学"更有效——排除无关信号不仅提高效率还提高效果,这一原则可能适用于其他偏好学习场景
评分¶
⭐⭐⭐⭐ — 直觉清晰、理论扎实、效果显著(CHAIR_s降低70%),跨模型泛化验证充分,但假设的实际合理性和数据构建对GPT-4的依赖是潜在限制