FREAK: A Fine-grained Hallucination Evaluation Benchmark for Advanced MLLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=YeagC09j2K
代码: 已开源（论文标注 GitHub，链接待确认）
领域: 多模态幻觉评测 / MLLM Benchmark
关键词: 细粒度幻觉、反常识图像、CCS、MLLM 评测、CoT 退化

一句话总结¶

FREAK 用「先生成正常图、再局部编辑出反常识细节」的自动化管线造出 1,786 张照片级反常识图像与 1,799 道题，专门戳 SOTA 多模态大模型在细粒度视觉感知上的幻觉——最强模型也只有 45% 准确率，远低于人类的 86.71%，并实锤了 CoT 推理在这类任务上不升反降。

研究背景与动机¶

领域现状：多模态大模型（MLLM）在图像理解上突飞猛进，但幻觉问题始终没解决——模型常生成「逻辑自洽、符合常识，却与图像证据矛盾」的内容。其中最难的子类是细粒度幻觉（fine-grained hallucination）：模型对图像里某个局部细节视而不见或凭空捏造，习惯性地用常识知识盖过眼前的视觉事实。

现有痛点：早期的 POPE、AMBER 等幻觉基准已被刷到天花板，因为它们任务太简单、评测协议过于粗糙（多为二元 true/false 判断），对当代 SOTA 模型几乎没有区分度。更糟的是，这些基准的图像多来自开源数据集，与模型训练数据高度重叠，存在数据泄漏与记忆偏差——模型不是「看懂了」而是「背过了」。后来 HallusionBench、PhD 等工作转向用 AI 生成的反常识图像（counter-commonsense, CCS）来测试模型究竟是「真看」还是「靠记忆」，方向对了，但仍受困于样本多样性不足、图像质量欠佳、任务设计过于简化。

核心矛盾：要测出真实幻觉水平，CCS 图像必须同时满足「照片级真实 + 局部反常识细节 + 内容多样」三个条件；但现有造数方法里，人工修改不可规模化，直接 prompt 图像生成模型又会反复生成相似物体、且生成模型因缺乏 CCS 训练数据而天然倾向于画出符合常识的图，根本造不出可信的反常识细节。

本文目标：构建一个面向当代 SOTA 模型、专测细粒度幻觉的高质量基准，并配套客观（非二元）的评测方法。

核心 idea：「生成-然后-编辑」（generate-then-edit）反常识造图——先让图像生成模型画出符合常识的正常图，再用强力编辑模型对其施加局部的反常识修改，既保住照片级真实感又精准注入反常识细节；在此之上用 6 类细粒度任务 + 选择题/自由问答双格式做客观评测。

方法详解¶

整体框架¶

FREAK 的数据构建是一条三步自动化管线，再叠加人工校验：先用 LLM 批量生成多样的反常识描述，再用「生成模型出正常图 + 编辑模型注入反常识细节」造出照片级 CCS 图像，最后由 LLM 自动出题、经过滤去重和人工精修成题。整套数据被切成 6 类子任务（检测/计数/属性/分析/位置/OCR），用准确率与幻觉率（HalluRate）双指标客观评测。

flowchart LR
    A[指定目标物体 O] --> B[LLM 生成三元组<br/>O, A正常属性, W反常识属性]
    B --> C[生成模型 F<br/>P = F O,A 正常图]
    C --> D[编辑模型 E<br/>CCS = E P,W 反常识图]
    D --> E[LLM 自动出题<br/>选择题/自由问答]
    E --> F[过滤去重 + 人工校验]
    F --> G[FREAK 基准<br/>1786 图 / 1799 题]

关键设计¶

1. 反常识描述生成：用「物体锚定」破解多样性塌缩。 直接让 LLM 自由编反常识描述会迅速收敛到重复物体和低质内容，无法支撑大规模多样数据。FREAK 改为先指定一个目标物体 \(O\)（如「狐狸」「沙发」），再让 LLM 围绕该物体的某个具体属性生成描述，最终凝练成三元组 \((O, A, W)\)：\(O\) 是目标物体，\(A\) 是该属性的正确（常识）描述，\(W\) 是同一属性的反常识描述（如「一只方耳朵的狐狸」「一张背对电视的沙发」）。以物体为锚点撒网，既保证了内容多样性，又让后续生成和出题都有清晰可控的语义抓手。

2. 生成-然后-编辑：绕开生成模型「画不出反常识图」的天性。 这是 FREAK 最核心的造图创新。因为图像生成模型缺少 CCS 训练数据、只会复现见过的模式，直接喂反常识 prompt 多半还是画出常识图。FREAK 把过程拆成两阶段：先用目标物体 \(O\) 和正确属性 \(A\) 拼出 prompt 喂给生成模型 \(F\)，得到一张正常的写实图 \(P = F(O, A)\)；再用编辑模型 \(E\) 在反常识描述 \(W\) 的条件下对 \(P\) 做局部修改，得到反常识图 \(CCS = E(P, W)\)。先立常识、再做局部手术，使得产出的图像整体照片级真实、仅在目标细节处违反常识（如交通灯红绿位置互换），这正是细粒度幻觉测试所需要的。实现上用 Seedream3.0 做生成、SeedEdit3.0 做编辑。

3. 四选项选择题：用「常识干扰项」直接量化幻觉。 单纯让模型答对没法分离「真看懂」和「碰巧蒙对」，FREAK 为每张图配一道四选项题做客观评测：A 是与反常识属性 \(W\) 对齐的正确项；B 是对应常识属性 \(A\) 的常识干扰项（即幻觉选项）；C 是由 \(W\) 和 \(A\) 语义合成的 AI 干扰项；D 是固定开放项「正确答案不在其中」。模型若被常识带跑选了 B，就直接暴露了幻觉；评测时还对选项做循环置换（cyclic permutation）消除位置偏置。据此定义幻觉率 \(\text{HalluRate}\) 为模型在自由问答中输出常识答案、或在选择题中选中常识干扰项的比例，把「凭参数知识脑补」的程度量化出来。

4. 双格式评测 + LLM-as-judge：兼顾开放性与客观性。 基准同时含 1,000 道选择题与 799 道自由问答。自由问答里正确答案对应反常识描述 \(W\)、幻觉答案对应常识属性 \(A\)，用 LLM-as-judge 把模型回答归为 Correct / Commonsense Error / Other Error 三类；选择题则直接按选项判分。最后还有一道关键防线——100 名不知情本科生做盲测（每人随机答 18 题防止学习效应），既建立人类基线（86.71%）又验证数据集本身合理、无偏。

实验关键数据¶

主实验表格（SOTA 模型在 FREAK 上的整体表现，节选）¶

模型	类型	准确率↑	幻觉率↓
人类基线	—	86.71	6.95
Gemini-2.5-Pro	推理	45.49	40.26
o3	推理	43.00	43.67
GPT-4.1	非推理	42.01	44.54
MiniCPM-4V	非推理	41.44	41.08
GLM-4.5V	推理	41.19	46.17
Qwen2.5-VL-72B	非推理	39.39	46.82
InternVL3-78B	非推理	39.32	48.76
Claude-4.0-Sonnet	推理	29.85	55.64
DeepEyes	推理	28.39	53.40

即便最强的 Gemini-2.5-Pro 也只有 45.49%，主流模型扎堆在 30%–43%，与人类 86.71% 差出约 40 个百分点；多数模型的幻觉率逼近甚至超过其准确率。

消融/对照实验表格（正常图 vs 反常识图）¶

模型	规模	正常图准确率	CCS 图准确率
InternVL3	14B	91.26	34.69（↓56.67）
InternVL3	38B	93.63	43.97（↓49.66）
Qwen2.5-VL	7B	86.04	34.28（↓51.76）
Qwen2.5-VL	32B	90.31	36.25（↓54.06）

同一题只把图从正常图换成反常识图，准确率断崖式下跌约 50 个百分点，证明模型在正常图上能答对，恰恰是「没真看图、靠常识脑补」导致细粒度幻觉。

CoT 退化对照（直接回答 vs 推理后回答，节选）¶

模型	直接准确率	CoT 准确率	直接幻觉率	CoT 幻觉率
GPT-4.1	42.01	40.66（↓1.45）	45.43	46.30（↑）
InternVL3-78B	39.32	33.91（↓5.41）	48.76	52.83（↑）
Qwen2.5-VL-72B	39.39	33.39（↓6.00）	46.82	50.95（↑）
Phi-4-multimodal	33.32	25.09（↓8.23）	42.13	46.83（↑）

关键发现¶

CoT 在细粒度幻觉上不升反降：对绝大多数模型，开启思考/CoT 后准确率下降、幻觉率上升，RL 调优的推理模型相比基座版也无明显优势；小型非推理模型 MiniCPM-4V 反而超过所有开源推理模型。
推理过程会越想越偏：通过 FREAK 追踪推理动态发现，模型在思考中对干扰项的偏好持续上升、对正确答案的信心持续流失，常常最终选了与初始判断相反的错误项，暴露 CoT 机制的根本缺陷。
任务难度分化：计数最差、属性与 OCR 相对较好；模型在低层视觉任务（形状/颜色/纹理）上表现好，在分析/位置/检测这类高层理解任务上幻觉更严重——因为高层推理更依赖语言先验，更容易压过视觉证据。
规模律基本成立但有例外：性能大体随模型规模上升，但部分尺寸出现退化，且小模型可媲美大模型，说明降幻觉更取决于架构与训练流程而非单纯堆参数。

亮点与洞察¶

造图思路真正解决了痛点：「先画常识图、再局部编辑成反常识」绕开了生成模型画不出反常识图的天性，同时拿到了「照片级真实 + 局部反常识」这对看似矛盾的属性，是细粒度 CCS 基准的关键工程突破。
评测设计够客观：四选项里专门埋常识干扰项 + 循环置换消位置偏置 + HalluRate 直接量化「凭参数脑补」的程度，比传统二元判断信息量大得多。
对 CoT 的负面结论很有价值：在「需要看清细节」的任务上，链式思考反而放大语言先验、稀释视觉信号，给「推理万能」的乐观叙事浇了一盆冷水，且用概率轨迹聚类把「越想越偏」可视化出来，说服力强。

局限与展望¶

依赖闭源生成/编辑模型：管线绑定 Seedream3.0 / SeedEdit3.0，复现成本和可控性受限，编辑质量也直接决定数据上限。
规模与覆盖仍有限：1,786 张图、6 类任务对「细粒度幻觉」全貌而言仍是采样，部分题目跨多个子任务、计数任务以小数目为主，长尾与复杂场景覆盖不足。
只诊断不开药：FREAK 把问题量化得很透彻，但未给出降低细粒度幻觉的训练或解码方案；CoT 为何退化也只做了现象分析，机制层面的根因仍待挖掘。
LLM-as-judge 的隐患：自由问答靠 LLM 评判，裁判模型自身的偏差可能传导到分数上。

评分¶

新颖性: ⭐⭐⭐⭐ 「生成-然后-编辑」造反常识图的范式切中现有方法死穴，四选项+幻觉率的客观评测设计也有新意。
实验充分度: ⭐⭐⭐⭐ 覆盖 20+ 个主流闭源/开源模型，含规模律、正常图-CCS 图对照、CoT 退化、推理概率轨迹聚类等多角度分析，证据扎实。
写作质量: ⭐⭐⭐⭐ 动机—管线—评测—发现层层递进，图表清晰，关键结论（45% vs 86.71%、CoT 退化）一目了然。
价值: ⭐⭐⭐⭐ 给当代 SOTA 模型提供了一个未饱和、有区分度的细粒度幻觉标尺，并实证 CoT 在此类任务上的局限，对评测和方法研究都有参考价值。