FREAK: A Fine-grained Hallucination Evaluation Benchmark for Advanced MLLMs¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=YeagC09j2K
代码: 已开源(论文标注 GitHub,链接待确认)
领域: 多模态幻觉评测 / MLLM Benchmark
关键词: 细粒度幻觉、反常识图像、CCS、MLLM 评测、CoT 退化
一句话总结¶
FREAK 用「先生成正常图、再局部编辑出反常识细节」的自动化管线造出 1,786 张照片级反常识图像与 1,799 道题,专门戳 SOTA 多模态大模型在细粒度视觉感知上的幻觉——最强模型也只有 45% 准确率,远低于人类的 86.71%,并实锤了 CoT 推理在这类任务上不升反降。
研究背景与动机¶
领域现状:多模态大模型(MLLM)在图像理解上突飞猛进,但幻觉问题始终没解决——模型常生成「逻辑自洽、符合常识,却与图像证据矛盾」的内容。其中最难的子类是细粒度幻觉(fine-grained hallucination):模型对图像里某个局部细节视而不见或凭空捏造,习惯性地用常识知识盖过眼前的视觉事实。
现有痛点:早期的 POPE、AMBER 等幻觉基准已被刷到天花板,因为它们任务太简单、评测协议过于粗糙(多为二元 true/false 判断),对当代 SOTA 模型几乎没有区分度。更糟的是,这些基准的图像多来自开源数据集,与模型训练数据高度重叠,存在数据泄漏与记忆偏差——模型不是「看懂了」而是「背过了」。后来 HallusionBench、PhD 等工作转向用 AI 生成的反常识图像(counter-commonsense, CCS)来测试模型究竟是「真看」还是「靠记忆」,方向对了,但仍受困于样本多样性不足、图像质量欠佳、任务设计过于简化。
核心矛盾:要测出真实幻觉水平,CCS 图像必须同时满足「照片级真实 + 局部反常识细节 + 内容多样」三个条件;但现有造数方法里,人工修改不可规模化,直接 prompt 图像生成模型又会反复生成相似物体、且生成模型因缺乏 CCS 训练数据而天然倾向于画出符合常识的图,根本造不出可信的反常识细节。
本文目标:构建一个面向当代 SOTA 模型、专测细粒度幻觉的高质量基准,并配套客观(非二元)的评测方法。
核心 idea:「生成-然后-编辑」(generate-then-edit)反常识造图——先让图像生成模型画出符合常识的正常图,再用强力编辑模型对其施加局部的反常识修改,既保住照片级真实感又精准注入反常识细节;在此之上用 6 类细粒度任务 + 选择题/自由问答双格式做客观评测。
方法详解¶
整体框架¶
FREAK 的数据构建是一条三步自动化管线,再叠加人工校验:先用 LLM 批量生成多样的反常识描述,再用「生成模型出正常图 + 编辑模型注入反常识细节」造出照片级 CCS 图像,最后由 LLM 自动出题、经过滤去重和人工精修成题。整套数据被切成 6 类子任务(检测/计数/属性/分析/位置/OCR),用准确率与幻觉率(HalluRate)双指标客观评测。
flowchart LR
A[指定目标物体 O] --> B[LLM 生成三元组<br/>O, A正常属性, W反常识属性]
B --> C[生成模型 F<br/>P = F O,A 正常图]
C --> D[编辑模型 E<br/>CCS = E P,W 反常识图]
D --> E[LLM 自动出题<br/>选择题/自由问答]
E --> F[过滤去重 + 人工校验]
F --> G[FREAK 基准<br/>1786 图 / 1799 题]
关键设计¶
1. 反常识描述生成:用「物体锚定」破解多样性塌缩。 直接让 LLM 自由编反常识描述会迅速收敛到重复物体和低质内容,无法支撑大规模多样数据。FREAK 改为先指定一个目标物体 \(O\)(如「狐狸」「沙发」),再让 LLM 围绕该物体的某个具体属性生成描述,最终凝练成三元组 \((O, A, W)\):\(O\) 是目标物体,\(A\) 是该属性的正确(常识)描述,\(W\) 是同一属性的反常识描述(如「一只方耳朵的狐狸」「一张背对电视的沙发」)。以物体为锚点撒网,既保证了内容多样性,又让后续生成和出题都有清晰可控的语义抓手。
2. 生成-然后-编辑:绕开生成模型「画不出反常识图」的天性。 这是 FREAK 最核心的造图创新。因为图像生成模型缺少 CCS 训练数据、只会复现见过的模式,直接喂反常识 prompt 多半还是画出常识图。FREAK 把过程拆成两阶段:先用目标物体 \(O\) 和正确属性 \(A\) 拼出 prompt 喂给生成模型 \(F\),得到一张正常的写实图 \(P = F(O, A)\);再用编辑模型 \(E\) 在反常识描述 \(W\) 的条件下对 \(P\) 做局部修改,得到反常识图 \(CCS = E(P, W)\)。先立常识、再做局部手术,使得产出的图像整体照片级真实、仅在目标细节处违反常识(如交通灯红绿位置互换),这正是细粒度幻觉测试所需要的。实现上用 Seedream3.0 做生成、SeedEdit3.0 做编辑。
3. 四选项选择题:用「常识干扰项」直接量化幻觉。 单纯让模型答对没法分离「真看懂」和「碰巧蒙对」,FREAK 为每张图配一道四选项题做客观评测:A 是与反常识属性 \(W\) 对齐的正确项;B 是对应常识属性 \(A\) 的常识干扰项(即幻觉选项);C 是由 \(W\) 和 \(A\) 语义合成的 AI 干扰项;D 是固定开放项「正确答案不在其中」。模型若被常识带跑选了 B,就直接暴露了幻觉;评测时还对选项做循环置换(cyclic permutation)消除位置偏置。据此定义幻觉率 \(\text{HalluRate}\) 为模型在自由问答中输出常识答案、或在选择题中选中常识干扰项的比例,把「凭参数知识脑补」的程度量化出来。
4. 双格式评测 + LLM-as-judge:兼顾开放性与客观性。 基准同时含 1,000 道选择题与 799 道自由问答。自由问答里正确答案对应反常识描述 \(W\)、幻觉答案对应常识属性 \(A\),用 LLM-as-judge 把模型回答归为 Correct / Commonsense Error / Other Error 三类;选择题则直接按选项判分。最后还有一道关键防线——100 名不知情本科生做盲测(每人随机答 18 题防止学习效应),既建立人类基线(86.71%)又验证数据集本身合理、无偏。
实验关键数据¶
主实验表格(SOTA 模型在 FREAK 上的整体表现,节选)¶
| 模型 | 类型 | 准确率↑ | 幻觉率↓ |
|---|---|---|---|
| 人类基线 | — | 86.71 | 6.95 |
| Gemini-2.5-Pro | 推理 | 45.49 | 40.26 |
| o3 | 推理 | 43.00 | 43.67 |
| GPT-4.1 | 非推理 | 42.01 | 44.54 |
| MiniCPM-4V | 非推理 | 41.44 | 41.08 |
| GLM-4.5V | 推理 | 41.19 | 46.17 |
| Qwen2.5-VL-72B | 非推理 | 39.39 | 46.82 |
| InternVL3-78B | 非推理 | 39.32 | 48.76 |
| Claude-4.0-Sonnet | 推理 | 29.85 | 55.64 |
| DeepEyes | 推理 | 28.39 | 53.40 |
即便最强的 Gemini-2.5-Pro 也只有 45.49%,主流模型扎堆在 30%–43%,与人类 86.71% 差出约 40 个百分点;多数模型的幻觉率逼近甚至超过其准确率。
消融/对照实验表格(正常图 vs 反常识图)¶
| 模型 | 规模 | 正常图准确率 | CCS 图准确率 |
|---|---|---|---|
| InternVL3 | 14B | 91.26 | 34.69(↓56.67) |
| InternVL3 | 38B | 93.63 | 43.97(↓49.66) |
| Qwen2.5-VL | 7B | 86.04 | 34.28(↓51.76) |
| Qwen2.5-VL | 32B | 90.31 | 36.25(↓54.06) |
同一题只把图从正常图换成反常识图,准确率断崖式下跌约 50 个百分点,证明模型在正常图上能答对,恰恰是「没真看图、靠常识脑补」导致细粒度幻觉。
CoT 退化对照(直接回答 vs 推理后回答,节选)¶
| 模型 | 直接准确率 | CoT 准确率 | 直接幻觉率 | CoT 幻觉率 |
|---|---|---|---|---|
| GPT-4.1 | 42.01 | 40.66(↓1.45) | 45.43 | 46.30(↑) |
| InternVL3-78B | 39.32 | 33.91(↓5.41) | 48.76 | 52.83(↑) |
| Qwen2.5-VL-72B | 39.39 | 33.39(↓6.00) | 46.82 | 50.95(↑) |
| Phi-4-multimodal | 33.32 | 25.09(↓8.23) | 42.13 | 46.83(↑) |
关键发现¶
- CoT 在细粒度幻觉上不升反降:对绝大多数模型,开启思考/CoT 后准确率下降、幻觉率上升,RL 调优的推理模型相比基座版也无明显优势;小型非推理模型 MiniCPM-4V 反而超过所有开源推理模型。
- 推理过程会越想越偏:通过 FREAK 追踪推理动态发现,模型在思考中对干扰项的偏好持续上升、对正确答案的信心持续流失,常常最终选了与初始判断相反的错误项,暴露 CoT 机制的根本缺陷。
- 任务难度分化:计数最差、属性与 OCR 相对较好;模型在低层视觉任务(形状/颜色/纹理)上表现好,在分析/位置/检测这类高层理解任务上幻觉更严重——因为高层推理更依赖语言先验,更容易压过视觉证据。
- 规模律基本成立但有例外:性能大体随模型规模上升,但部分尺寸出现退化,且小模型可媲美大模型,说明降幻觉更取决于架构与训练流程而非单纯堆参数。
亮点与洞察¶
- 造图思路真正解决了痛点:「先画常识图、再局部编辑成反常识」绕开了生成模型画不出反常识图的天性,同时拿到了「照片级真实 + 局部反常识」这对看似矛盾的属性,是细粒度 CCS 基准的关键工程突破。
- 评测设计够客观:四选项里专门埋常识干扰项 + 循环置换消位置偏置 + HalluRate 直接量化「凭参数脑补」的程度,比传统二元判断信息量大得多。
- 对 CoT 的负面结论很有价值:在「需要看清细节」的任务上,链式思考反而放大语言先验、稀释视觉信号,给「推理万能」的乐观叙事浇了一盆冷水,且用概率轨迹聚类把「越想越偏」可视化出来,说服力强。
局限与展望¶
- 依赖闭源生成/编辑模型:管线绑定 Seedream3.0 / SeedEdit3.0,复现成本和可控性受限,编辑质量也直接决定数据上限。
- 规模与覆盖仍有限:1,786 张图、6 类任务对「细粒度幻觉」全貌而言仍是采样,部分题目跨多个子任务、计数任务以小数目为主,长尾与复杂场景覆盖不足。
- 只诊断不开药:FREAK 把问题量化得很透彻,但未给出降低细粒度幻觉的训练或解码方案;CoT 为何退化也只做了现象分析,机制层面的根因仍待挖掘。
- LLM-as-judge 的隐患:自由问答靠 LLM 评判,裁判模型自身的偏差可能传导到分数上。
相关工作与启发¶
FREAK 延续了 HallusionBench、PhD、WHOOPS、VLind-Bench 等用反常识图像探测幻觉的路线,但在图像真实感、内容多样性与评测客观性上做了系统升级;与 MIRAGE、LongHalQA 等评测长文本输出的工作不同,它专注于细粒度 CCS 视觉挑战。它给后续工作的启发有三:其一,「生成-编辑」分离的造数范式可推广到其他需要「真实底图 + 受控扰动」的评测场景;其二,幻觉率这类「凭先验脑补」的显式指标应成为多模态评测标配;其三,CoT 在视觉细节任务上的退化提示,未来降幻觉的重点可能在视觉编码与训练流程,而非单纯加长推理链。
评分¶
- 新颖性: ⭐⭐⭐⭐ 「生成-然后-编辑」造反常识图的范式切中现有方法死穴,四选项+幻觉率的客观评测设计也有新意。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 20+ 个主流闭源/开源模型,含规模律、正常图-CCS 图对照、CoT 退化、推理概率轨迹聚类等多角度分析,证据扎实。
- 写作质量: ⭐⭐⭐⭐ 动机—管线—评测—发现层层递进,图表清晰,关键结论(45% vs 86.71%、CoT 退化)一目了然。
- 价值: ⭐⭐⭐⭐ 给当代 SOTA 模型提供了一个未饱和、有区分度的细粒度幻觉标尺,并实证 CoT 在此类任务上的局限,对评测和方法研究都有参考价值。