CCHall: A Novel Benchmark for Joint Cross-Lingual and Cross-Modal Hallucinations Detection in Large Language Models¶

会议: ACL2025
arXiv: 2505.19108
代码: GitHub
领域: 幻觉检测
关键词: 幻觉检测, 跨语言, 跨模态, benchmark, 多模态大模型

一句话总结¶

提出首个联合跨语言与跨模态幻觉检测基准 CCHall，覆盖 9 种语言和 4 类多模态数据集，系统评估 6 款主流 MLLM 在联合场景下的幻觉表现，揭示当前模型在该联合场景中 F1 比单独跨模态低 10.9、比单独跨语言低 3.4，且提出多语提示和外部工具辅助两条缓解路径。

研究背景与动机¶

幻觉是 LLM 部署的核心障碍：大语言模型在医学诊断、图像描述和语音转文本等高风险应用中产生幻觉，严重阻碍大规模落地。

跨语言幻觉已有研究但孤立：mFACT、HalOmi、MM-Eval 等基准仅评估多语场景下的翻译或摘要幻觉，未涉及视觉模态。

跨模态幻觉研究同样孤立：CHAIR、POPE、MHaluBench、HallusionBench 等仅在英文单语环境下评估视觉-文本对齐，忽略语言差异带来的额外挑战。

联合场景更贴近真实世界：实际应用中常需同时处理多语翻译和多模态对齐（如国际医疗影像报告），但目前没有基准覆盖这一联合场景。

联合场景更具挑战性：语言差异和模态差异叠加会放大幻觉风险，模型既要对齐图文又要对齐多语查询，难度远超单一场景。

缺乏系统性评估与缓解策略分析：现有工作未系统比较 CoT、SRO、VDGD、HalluciMAD 等缓解策略在联合跨语言跨模态场景下的有效性。

方法详解¶

整体框架：四阶段基准构建流程¶

功能：构建一个同时覆盖跨语言和跨模态幻觉的综合检测基准。
为什么：填补联合跨语言×跨模态幻觉评估的空白，为 MLLM 提供更真实的评估环境。
怎么做：按四个阶段依次执行——(1) 原始多模态数据集选择；(2) 跨模态幻觉数据构造；(3) 跨语言幻觉数据构造；(4) 联合数据集组装。

关键设计 1：跨模态幻觉数据构造¶

功能：在图像描述中注入语义相似但不存在于图中的实体，构造具有迷惑性的幻觉样本。
为什么：简单不相关的虚假实体容易被检测，语义相近的替换才能真正考验模型的细粒度视觉推理能力。
怎么做：从 GQA 和 AMBER 选取物体存在性问题（VQA），从 XM3600 和 xFlickr&Co 选取图像描述（IC），限制每个物体最多出现两次减少冗余；然后用 Gemini-1.5-Pro 对照真实答案和图像，嵌入图中不存在但语义相近的名词生成自然幻觉；每个子集随机采样 900 条，总计 3600 条。

关键设计 2：跨语言幻觉数据构造¶

功能：将英文数据翻译为 9 种不同资源水平的语言，并通过人工校验保证质量。
为什么：不同资源水平的语言在翻译质量和模型理解能力上差异显著，需要全面覆盖才能揭示模型在语言迁移中的弱点。
怎么做：按高/中/低资源分组，每组选翻译错误率最低的 3 种语言——高资源(fr/es/pt)、中资源(cs/nl/sv)、低资源(hr/cy/sw)；用 Google Translate 翻译后打乱排序消除顺序偏差；以英文为锚语言配对随机目标语言；最后组织人工复审，检查幻觉数据是否符合标准、翻译是否准确保留原意。

关键设计 3：四类幻觉组合定义¶

功能：定义四种样本类型——无幻觉、仅跨模态幻觉、仅跨语言幻觉、联合跨语言×跨模态幻觉。
为什么：细粒度分类使得评估可以分离不同因素的影响，便于对比联合 vs 单独场景的难度差。
怎么做：每个样本包含图像、问题和两个语言的回答，按幻觉有无和类型标注为四分类任务，模型需在 AMBER/GQA/xFlickr&Co/XM3600 四个子集上检测幻觉类型。

实验关键数据¶

表1：主实验——6款 MLLM 在 CCHall 上的 Acc/Macro-F1 (%)¶

模型	方法	AMBER Acc	GQA Acc	xFlickr Acc	XM3600 Acc	AVG Acc	AVG F1
InternVL2-8B	Direct	29.1	29.9	38.3	38.8	34.0	42.9
Llama-3.2-11B	CoT	32.0	34.3	43.6	46.4	39.1	46.8
Qwen2-VL-7B	CoT	38.6	33.9	48.3	48.4	42.3	46.7
Pixtral-12B	HalluciMAD	46.3	45.2	57.1	58.7	51.8	56.4
Gemini-1.5-Flash	HalluciMAD	52.2	59.0	61.6	63.7	59.1	61.0
GPT-4o	HalluciMAD	70.9	68.6	84.1	86.4	77.5	78.8

关键发现： - CCHall 极具挑战性，最弱模型(InternVL2-8B Direct)仅 34.0% 准确率，最强组合(GPT-4o+HalluciMAD)也只达 77.5%。 - 闭源 GPT-4o 和 Gemini-1.5-Flash 明显优于开源模型；开源中 Qwen2-VL-7B 优于更大的 Llama-3.2-11B，说明训练策略比参数量更重要。 - 基础策略(CoT/SRO)更适合小模型(<12B)，高级策略(VDGD/HalluciMAD)在强模型上更有效。

表2：分析实验——资源水平、分辨率与响应长度的影响¶

分析维度	关键发现
语言资源水平	高资源语言检测准确率最高，低资源(hr/cy/sw)显著下降
图像分辨率	高分辨率 > 低分辨率 > 无图像，视觉信息对减少幻觉至关重要
模型规模	InternVL: 8B > 4B > 2B，参数越多性能越好
响应长度	超过 120 词后幻觉率急剧上升，长输出更不可靠
多语提示	在 Gemini-1.5-Flash 上，En+SL 比仅 En 在 GQA 上提升 4.8%
外部工具(UniHD)	平均比 HalluciMAD 再提升 2.7%，外部验证有效

亮点¶

首创联合评估维度：首个同时覆盖跨语言和跨模态幻觉的基准，填补了重要空白。
精心的数据构造流程：用 Gemini-1.5-Pro 生成语义相近的幻觉实体，比简单替换更具挑战性；三级语言资源覆盖确保评估全面性。
丰富的分析维度：不仅评估模型表现，还系统探索了语言资源、图像分辨率、响应长度、多语提示和外部工具等影响因素，为缓解幻觉提供了实用指导。

局限与展望¶

仅覆盖文本+图像模态：未涉及音频/语音等模态，随着多模态模型扩展到更多模态，基准需要同步升级。
幻觉数据由模型生成：虽经人工校验，但 Gemini-1.5-Pro 生成的幻觉样本可能存在遗留错误或分布偏差。
翻译质量依赖 Google Translate：低资源语言翻译质量本身较差，可能引入非幻觉的翻译噪声。
四分类任务设置较简单：实际幻觉可能是连续程度而非离散类别，未来可引入细粒度幻觉严重程度标注。
缺乏自动化幻觉归因：知道有幻觉但不知道是哪部分产生幻觉，未来可加入 span-level 标注。

与相关工作的对比¶

维度	CCHall	HallusionBench (Guan et al. 2024)	POPE (Li et al. 2023)
跨语言	✔ 9种语言	✘ 仅英文	✘ 仅英文
跨模态	✔ VQA+IC	✔ VQA	✔ 物体存在性
联合场景	✔	✘	✘
数据规模	大 (3600×多语言)	346图+1129问	较大
幻觉类型	4类组合	视觉推理	二分类

vs MM-Eval (Son et al. 2024)：MM-Eval 覆盖 18 种语言但仅评估文本幻觉，不涉及跨模态场景。CCHall 同时评估视觉和语言幻觉的交互。
vs XTRUST (Li et al. 2024)：XTRUST 覆盖 10 种语言和多个信任维度（幻觉、错误信息、公平性等），但不包含跨模态场景。CCHall 聚焦于跨模态×跨语言的联合幻觉检测。

评分¶

维度	评分
新颖性	⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐