ICLR 2026 幻觉检测 object hallucination MLLM stress-test CLIP embedding optimization 扩散模型 transferability

GHOST: Hallucination-Inducing Image Generation for Multimodal LLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=f4TACE7HhU
代码: https://github.com/sudoparsa/GHOST
领域: 多模态大模型 / 物体幻觉 / 对抗鲁棒性
关键词: object hallucination, MLLM, stress-test, CLIP embedding optimization, diffusion, transferability

一句话总结¶

GHOST 不再用固定的静态 benchmark 评测多模态大模型（MLLM）的物体幻觉，而是主动生成一批"看起来自然、人眼看不出有目标物、却能让模型坚信物体存在"的图片，把幻觉成功率从已有方法的约 1% 拉到 28% 以上，并发现这些图片在不同模型间高度可迁移。

研究背景与动机¶

领域现状：多模态大模型在图像描述、VQA、多模态推理上表现亮眼，但普遍存在物体幻觉（object hallucination）——把图里根本不存在的物体说成"存在"。在安全敏感场景里这是致命缺陷，业界一直想系统性地压测模型的视觉鲁棒性。

现有痛点：现有的幻觉评测几乎都依赖静态 benchmark、固定视觉场景、人工策划的图集（POPE、CHAIR 等）。这类方法只能在一个被框死的场景集合里测，既暴露不了模型特有的盲点，也说不清"到底哪类图会触发幻觉"——无法判断这些错误是孤立个例，还是结构性的失败模式。

核心矛盾：要发现模型特有的、未被预料到的幻觉漏洞，就必须让评测能根据目标模型的反馈主动造图；但把 MLLM、扩散模型、目标图、物体检测器全塞进一个优化回路（如最接近的工作 DASH），又会让 pipeline 慢且贵，被迫只能用蒸馏的单步扩散模型。

本文目标：做一个全自动、无需人工监督和先验知识的工具，给定一张不含目标物的图和一个目标物体，生成一张视觉上接近原图、目标物仍然缺席、但能诱导模型幻觉的自然图片。

核心 idea：「在 CLIP 嵌入空间里优化，把优化和生成解耦」——不在像素或扩散 latent 上硬怼，而是优化图像的 CLIP embedding，使它既诱导模型答"Yes"、又不真的编码物体本身，再用一个 unCLIP 扩散模型把这个 embedding 解码成自然图片；关键是用一个轻量 mapper 把 MLLM 的视觉空间和扩散模型的视觉空间对齐，从而避免对整条 pipeline 反向传播。

方法详解¶

整体框架¶

GHOST（Generating Hallucinations via Optimizing Stealth Tokens）把"造幻觉图"拆成三步：先训练一个 mapper Π，把 CLIP 嵌入空间映射到目标 MLLM 的视觉 token 空间，使得优化时只需在 CLIP embedding 上做梯度下降、再经 Π 喂给 MLLM 拿反馈，而无需穿过整个扩散+MLLM 管线；然后在 CLIP embedding 上联合优化三个目标（贴近原图、不含物体语义、诱导模型答 Yes）；最后用 unCLIP 扩散模型把优化后的 embedding 解码成自然图，并用开放词表检测器 OWLv2 过滤掉真的含物体的样本。

flowchart LR
    A[原图 Xv<br/>不含目标物 t] --> B[CLIP 编码 c0]
    B --> C[优化 CLIP embedding c<br/>L_total = L_adv + λ_clip·L_clip + λ_reg·L_reg]
    C -->|经 mapper Π| D[MLLM 反馈<br/>p Yes ≥ τ?]
    D -->|未达阈值| C
    D -->|达标| E[unCLIP 扩散<br/>从部分加噪的原图 latent 去噪]
    E --> F[OWLv2 检测<br/>确认不含物体]
    F -->|含物体则丢弃| E
    F -->|确认缺席| G[幻觉诱导图<br/>模型答 Yes 但物体真不存在]

关键设计¶

1. 桥接两套视觉空间的 mapper Π：把优化从生成里解耦出来。 MLLM 用的视觉编码器（如 Qwen 的 ViT）和扩散模型用的 CLIP 编码器并不一样，要把 MLLM 的反馈引进生成过程，最朴素的办法是对整条管线（MLLM→生成图→扩散）反向传播，代价极高。GHOST 改成训练一个简单的 MLP 作为 mapper \(\Pi: \mathbb{R}^{d_{CLIP}} \to \mathbb{R}^{N \times d_M}\)，用 MSE 把 CLIP embedding 对齐到 MLLM 的视觉 token：\(\mathcal{L}_{align} = \|\Pi(V_{CLIP}(X_v)) - V_M(X_v)\|_2^2\)。一旦 Π 训好，优化阶段就只在 CLIP embedding 上动，通过 Π 直接预测 MLLM 会看到什么、再算幻觉损失，整条扩散管线不进优化回路——这正是 GHOST 比 DASH 快约 5×（约 10 秒/张，单卡 A100）的根源，也让它能兼容不同的扩散模型和 MLLM。

2. 三项联合优化目标：在"诱导幻觉"和"物体真不存在"之间走钢丝。 攻击的本质要求 embedding \(c\) 同时满足三件互相拉扯的事，写成 \(\mathcal{L}_{total} = \mathcal{L}_{adv} + \lambda_{clip}\mathcal{L}_{clip} + \lambda_{reg}\mathcal{L}_{reg}\)。其中诱导项 \(\mathcal{L}_{adv} = -\log p(y^\star \mid X_q, \Pi(c))\) 直接最大化模型对"Yes"这个 token 的概率（query 形如"Do you see a t in the image?"，并从一组语义等价模板里随机采样以防过拟合某种问法）；物体缺席项 \(\mathcal{L}_{clip} = \mathbb{E}_{T_q \sim T_{clip}}[\cos(c, V_{CLIP}(T_q))]\) 惩罚 \(c\) 与"a photo of a t"等文本模板的余弦相似度，逼它别真的把物体语义编码进去；贴近原图项 \(\mathcal{L}_{reg} = \|c - c_0\|_2^2\) 防止 embedding 漂移过远、保住高层语义。三者合力让生成的图只引入微妙的上下文误导线索（如把香蕉的梗改得像刀刃边缘），而非直接画出物体。

3. 阈值触发 + 部分加噪的引导扩散：把"模型相信"翻译成"自然的图"。 优化每一步后检查 \(p(y^\star \mid X_q, \Pi(c)) \geq \tau_{yes}\) 是否达标，最多优化 \(M\) 步，达不到就丢弃换下一张。达标后做引导扩散时不从纯噪声起步，而是把原图编码进 VAE latent、前向加噪 \(t\) 步得到 \(z_t\)，再在 \(c\) 条件下反向去噪——噪声等级 \(t\) 控制"保留原图结构"与"留出空间塞误导线索"的权衡。生成允许最多 4 次尝试以对冲扩散的随机性，最后用 OWLv2 把真含物体的样本保守地剔除：只有"模型幻觉了物体 + OWLv2 确认物体确实不在"才算一次成功，这保证了得到的图既骗过模型又对人眼诚实。

4. 适配推理型 MLLM：优化 think 段而非最终答案。 对 GLM-4.1V-Thinking 这类先输出 <think>...</think> 再给 <answer>...</answer> 的推理模型，GHOST 用 <think> 后第一个解码步上"Yes"的概率作为优化信号，保持目标和运行时与其它模型一致。虽然没直接优化最终答案，却足以把模型的推理轨迹整个带偏去为不存在的物体找理由——也因为优化的是 thinking token 而非答案，GLM 的图 FID 偏高、视觉漂移不如其它模型一致。

实验关键数据¶

主实验表格（COCO，10 个目标类，与 DASH 对比）¶

方法	模型	输入样本数	幻觉数	成功率
GHOST	Qwen2.5-VL	9423	2816	29.9%
GHOST	LLaVA-v1.6	8786	2468	28.1%
GHOST	GLM-4.1V	8889	2880	32.4%
DASH-LLM	Qwen2.5-VL	118,000	57	0.1%
DASH-OPT	Qwen2.5-VL	118,000	42	0.1%

GHOST 在小得多的图池上，发现的幻觉样本数比 DASH 高出数个量级（Qwen 上 2816 vs DASH 合计 99）。

图像质量（FID，越低越好）¶

方法	Qwen2.5-VL	LLaVA-v1.6	GLM4.1V
分布真实性（vs COCO val）
SD v2.1	46.19	48.42	44.79
SD unCLIP	46.51	50.20	44.76
GHOST	47.03	50.78	51.70
语义保真（vs 原图）
SD v2.1	41.71	42.64	39.85
SD unCLIP	31.67	35.47	32.07
GHOST	25.00	26.39	34.94

真实性与基线相当，语义保真显著更好（保住了原图身份）。

迁移性（行=源模型，列=目标模型成功率 %）¶

源\目标	Qwen2.5-VL	LLaVA-v1.6	GLM4.1V	GPT-4o	Aya	LLaMA3.2	Gemini
Qwen2.5-VL	–	62.2	72.0	66.5	71.1	65.8	58.6
LLaVA-v1.6	52.6	–	50.5	50.5	54.4	49.7	42.8
GLM4.1V	63.2	57.1	–	63.8	67.6	69.1	53.8

为 Qwen2.5-VL 优化的图，在闭源 GPT-4o 上诱发 66.5% 幻觉——指向跨模型的共享失败模式。

缓解实验（Qwen2.5-VL + LoRA，用 GHOST 图微调）¶

	POPE ↑	CHAIRs ↓	CHAIRi ↓	VQAv2 ↑	Caption ↑
Baseline	88.7	3.8	3	89.5	72.8
Finetuned	93.2	2.9	2.6	89.4	71.5

关键发现¶

阈值 τ 越大幻觉越强：高 τ 让优化更难达标（合格图变少），但合格图诱导幻觉的概率更高，证明 \(p(y^\star)\) 是模型"相信物体存在"的有效代理。
λclip 越大物体越不易出现：更强的 CLIP 相似度惩罚有效压制扩散模型把物体真画出来。
人类评测确认对人眼诚实：40 名评审 3000+ 票，LLaVA 图 89%、Qwen 图 86.3% 认为目标物不存在，自然度与扩散基线相当。
微调缓解不伤通用能力：POPE/CHAIR 显著改善，VQAv2、Caption 几乎不变。

亮点与洞察¶

从"静态评测"转向"主动造图压测"：把幻觉评估从被动的固定图集，变成能针对目标模型反馈主动搜索盲点的攻击式诊断，理念上是范式转变。
解耦设计是性能与通用性的核心：mapper Π 让优化彻底脱离扩散管线，既快又能在任意 MLLM × 扩散模型组合上复用，比 DASH 把所有组件塞进回路的做法优雅得多。
诊断+矫正一体：同一批图既能暴露漏洞，又能作为微调数据修复幻觉且不损通用能力，工具闭环。
迁移性揭示系统性漏洞：跨模型甚至跨闭源模型的高迁移率，说明这些不是单模型 bug，而是 MLLM 共享的伪相关/捷径偏置。

局限与展望¶

依赖 CLIP/unCLIP 与 OWLv2：整条管线绑定 CLIP 嵌入空间和特定开放词表检测器，OWLv2 漏检会让"物体缺席"的保证打折。
推理模型上效果打折：优化 thinking token 而非最终答案，使 GLM 的视觉漂移不一致、FID 偏高，对推理型 MLLM 的攻击仍不够精准。
缓解仅 toy setup：微调只在 Qwen2.5-VL + LoRA 的小规模上验证，是否能规模化、是否对更广幻觉类型有效仍待考。
目标类与数据集有限：只在 COCO 的 10 个类（外加 ObjectNet 附录验证）上测，目标物只覆盖"Yes/No 存在性"这一种幻觉形式。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把幻觉评测从静态 benchmark 翻转成主动造图压测，CLIP 空间优化 + mapper 解耦的设计巧妙且有效。
实验充分度: ⭐⭐⭐⭐ 覆盖 3 个开源模型 + 4 个迁移模型（含 GPT-4o/Gemini）、FID/人评/迁移/消融/缓解齐全；缓解实验偏 toy、目标幻觉形式单一。
写作质量: ⭐⭐⭐⭐ 问题设定、三项损失、pipeline 叙述清晰，图示丰富。
价值: ⭐⭐⭐⭐⭐ 既是诊断工具又是矫正数据源，迁移性揭示系统性漏洞，对构建可靠多模态系统有直接的工程与安全价值。