FINER: MLLMs Hallucinate under Fine-grained Negative Queries¶

会议: CVPR 2026
arXiv: 2603.17662
代码: https://explainableml.github.io/finer-project/
领域: 幻觉检测
关键词: MLLM幻觉, 细粒度负查询, DPO, 场景图, 幻觉基准

一句话总结¶

发现 MLLM 在细粒度负查询（涉及多个对象/属性/关系的查询中仅有一个细微错误）下幻觉率急剧上升，提出 FINER 基准和 FINER-Tuning 方法（基于 DPO），在 InternVL3.5-14B 上最高提升 24.2%。

研究背景与动机¶

领域现状：MLLM 的幻觉问题已被广泛研究，现有基准（POPE、DASH、AMBER）主要关注粗粒度查询，如单个物体是否存在。

现有痛点：真实场景下用户的查询往往是精细的——涉及多个对象、多个属性、多个关系。当查询越精细，模型越容易被"大部分正确"的内容误导而回答"是"。

核心矛盾：查询粒度与幻觉率之间存在强正相关。InternVL3.5-14B 在粒度1时准确率约80%，到粒度5-7时骤降至约20%。

本文目标 (a) 系统研究细粒度负查询下的幻觉行为；(b) 提出能有效缓解细粒度幻觉的训练方法。

切入角度：模拟人类构句过程（先说物体→加属性→加关系），构建渐进精细的负查询来系统化地暴露幻觉。

核心idea：用场景图驱动构建精细负查询基准，配合 DPO 训练让模型学会检测查询中的细微错误。

方法详解¶

整体框架¶

这篇论文要做两件事：先用一个新基准把「MLLM 在细粒度负查询下到底有多容易幻觉」量化出来，再给出一套训练方法把这个弱点补上。基准这一侧从每张图像的场景图（对象、属性、关系三类元素）出发，挑出其中一个元素换成图中不存在的负版本、并用判别器验证这个负元素确实不在图里，组成一对正/负多选题，并按涉及元素的多少把查询分成不同粒度。训练这一侧则换一批数据（Pixmo 长描述）按同样的方式造出大量「正确答案 vs 含细微错误的答案」偏好对，用 DPO 让模型学会盯住查询里的那个错误元素。两侧最终都汇到「评测 MLLM 的细粒度幻觉」这一落点。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph BENCH["基准构建侧"]
        direction TB
        A["图像正场景图<br/>对象 / 属性 / 关系"] --> B["FINER 负查询构建<br/>挑一元素→LLM 生 4 个负替换→配对多选·分粒度"]
        B --> C{"负样本质量验证<br/>判别器确认负元素真不存在?"}
        C -->|有歧义, 重新生成| B
        C -->|通过| D["FINER 基准<br/>配对多选题库"]
    end
    subgraph TRAIN["训练侧"]
        direction TB
        E["Pixmo 长描述<br/>抽 对象/属性/关系 短语"] --> F["FINER-Tuning<br/>Phi-4 造 chosen/rejected 偏好对 → DPO"]
    end
    D --> G["评测 MLLM 细粒度幻觉"]
    F --> G

关键设计¶

1. FINER 基准：把负查询从"单物体存在性"推到"多元素细粒度"

POPE、AMBER 这些老基准大多只问「图里有没有某个物体」，而真实用户的问题往往一句话里塞进好几个对象、属性、关系，模型很容易被句子里「大部分都对」的内容带着回答「是」。FINER 直接从图像的正场景图下手：对每个元素，用 LLM 生成 4 个语义合理但图中并不存在的负替换（比如把 "door frame" 换成 "pillar"），再套模板拼成多选题，覆盖多对象、多属性、多关系和 Wh-问题四种设置。两个关键取舍让这个基准更难作弊——一是用多选题代替简单的 Yes/No，避开模型天生偏好某个答案带来的偏差；二是把正查询和它对应的负查询配成一对，要求两道题都答对才算这一对正确（paired accuracy），模型靠"一律答 No"蒙不过去。

2. 负样本质量验证：保证"不存在"的元素是真的不存在

整个基准的可靠性都压在一点上——那些被当作负样本的替换元素，必须确实不在图像里，否则一道"负"题其实是对的，评测就失真了。FINER 用 Qwen2.5-VL-72B 当判别器来把关：把真正存在的正元素混进一堆负元素里让它挑，如果判别器反而挑不出那个正元素，说明这组负元素里有歧义项（可能也算图里有），就打回去重新生成。这一步相当于给每条负样本做了一遍交叉检验，把"看起来像负其实是正"的脏数据滤掉。

3. FINER-Tuning：用 DPO 教模型检测查询里的错误，而不是回答里的幻觉

以往用 DPO 缓解幻觉（如 RLAIF-V、OPA-DPO）针对的是模型自己生成的描述里的幻觉，而 FINER 的弱点出在"读懂用户那句含细微错误的问句"上，所以训练目标也得换。具体做法是从 Pixmo 的长描述里抽出对象/属性/关系短语，用 Phi-4-14B 把其中一个改成负版本，于是同一道题就有了一个正确答案（chosen）和一个含细微错误的答案（rejected），再用标准 DPO 损失拉开两者的概率差：

\[\mathcal{L}_{DPO}(\theta) = -\mathbb{E}\big[\log\sigma\big(\beta(\Delta_\theta - \Delta_{ref})\big)\big]\]

其中 \(\Delta\) 是模型对 chosen 与 rejected 的对数似然之差，\(\beta\) 控制偏离参考模型的强度。训练数据特意用 Pixmo-caption 而非基准的图像，避免训练集泄漏；造数据用的 Phi-4-14B 也和基准构建用的 LLM 错开，防止学到同一个生成器的系统性偏好。

训练策略¶

DPO 取 \(\beta = 0.1\)；数据源固定为 Pixmo-caption，与基准评测集隔离以排除泄漏。

实验关键数据¶

主实验（FINER-CompreCap，Paired Accuracy）¶

模型	Multi-obj	Multi-attr	Multi-rel	Wh
Random Guess	4.0	4.0	4.0	4.0
LLaVA-1.6-7B	25.3	13.0	7.6	15.3
+FINER-Tuning	48.4 (+23.1)	38.4 (+25.4)	24.2 (+16.6)	22.1 (+6.8)
InternVL-3.5-8B	75.0	72.5	49.8	23.5
+FINER-Tuning	77.1 (+2.1)	78.9 (+6.4)	64.1 (+14.3)	34.2 (+10.7)
InternVL-3.5-14B	74.5	68.1	47.0	21.8
+FINER-Tuning	80.0 (+5.5)	78.9 (+10.8)	71.2 (+24.2)	30.1 (+8.3)

粒度-准确率关系¶

查询粒度	InternVL3.5-14B 基线	+FINER-Tuning
Level 1	~80%	~85%
Level 3	~50%	~65%
Level 5	~25%	~50%
Level 7	~20%	~45%

关键发现¶

幻觉与查询粒度强相关：粒度越高，正确率越低，证实细粒度查询是 MLLM 的系统性弱点
Multi-rel（多关系）是最难的设置，即使强模型基线也低于50%
FINER-Tuning 对弱模型（LLaVA-1.6-7B）的提升比强模型更大
FINER-Tuning 不仅提升 FINER 基准表现，在现有8个幻觉基准上也同步提升，且通用能力（6个基准）不退化

亮点与洞察¶

粒度-幻觉相关性的发现非常有洞察力：揭示了 MLLM 被"大部分正确"的信息误导的机制
配对正负查询的评估方式确保模型不能通过偏好"No"来作弊
FINER-Tuning 在教模型检测"查询中的错误"而非"回答中的幻觉"，视角新颖
数据构建流程可迁移到其他 VQA 鲁棒性评估

局限与展望¶

负元素的生成依赖 LLM，可能引入系统性偏差
场景图到查询的模板较为固定，不涵盖自然语言的所有表达方式
基准仅关注否定查询，肯定查询的细粒度理解也值得研究
DOCCI 的场景图是从长描述中提取的，可能有提取噪声

评分¶

新颖性: ⭐⭐⭐⭐⭐ 粒度-幻觉关系的系统性研究开创了新方向
实验充分度: ⭐⭐⭐⭐ 4个模型+2个基准+8个已有基准+6个通用基准
写作质量: ⭐⭐⭐⭐ 动机分析清晰，数据构建流程详尽
价值: ⭐⭐⭐⭐⭐ 基准和方法对理解和缓解 MLLM 幻觉均有重要价值