CCHall: A Novel Benchmark for Joint Cross-Lingual and Cross-Modal Hallucinations Detection in Large Language Models¶
会议: ACL2025
arXiv: 2505.19108
代码: GitHub
领域: 幻觉检测
关键词: 幻觉检测, 跨语言, 跨模态, benchmark, 多模态大模型
一句话总结¶
提出首个联合跨语言与跨模态幻觉检测基准 CCHall,覆盖 9 种语言和 4 类多模态数据集,系统评估 6 款主流 MLLM 在联合场景下的幻觉表现,揭示当前模型在该联合场景中 F1 比单独跨模态低 10.9、比单独跨语言低 3.4,且提出多语提示和外部工具辅助两条缓解路径。
研究背景与动机¶
幻觉是 LLM 部署的核心障碍:大语言模型在医学诊断、图像描述和语音转文本等高风险应用中产生幻觉,严重阻碍大规模落地。
跨语言幻觉已有研究但孤立:mFACT、HalOmi、MM-Eval 等基准仅评估多语场景下的翻译或摘要幻觉,未涉及视觉模态。
跨模态幻觉研究同样孤立:CHAIR、POPE、MHaluBench、HallusionBench 等仅在英文单语环境下评估视觉-文本对齐,忽略语言差异带来的额外挑战。
联合场景更贴近真实世界:实际应用中常需同时处理多语翻译和多模态对齐(如国际医疗影像报告),但目前没有基准覆盖这一联合场景。
联合场景更具挑战性:语言差异和模态差异叠加会放大幻觉风险,模型既要对齐图文又要对齐多语查询,难度远超单一场景。
缺乏系统性评估与缓解策略分析:现有工作未系统比较 CoT、SRO、VDGD、HalluciMAD 等缓解策略在联合跨语言跨模态场景下的有效性。
方法详解¶
整体框架:四阶段基准构建流程¶
- 功能:构建一个同时覆盖跨语言和跨模态幻觉的综合检测基准。
- 为什么:填补联合跨语言×跨模态幻觉评估的空白,为 MLLM 提供更真实的评估环境。
- 怎么做:按四个阶段依次执行——(1) 原始多模态数据集选择;(2) 跨模态幻觉数据构造;(3) 跨语言幻觉数据构造;(4) 联合数据集组装。
关键设计 1:跨模态幻觉数据构造¶
- 功能:在图像描述中注入语义相似但不存在于图中的实体,构造具有迷惑性的幻觉样本。
- 为什么:简单不相关的虚假实体容易被检测,语义相近的替换才能真正考验模型的细粒度视觉推理能力。
- 怎么做:从 GQA 和 AMBER 选取物体存在性问题(VQA),从 XM3600 和 xFlickr&Co 选取图像描述(IC),限制每个物体最多出现两次减少冗余;然后用 Gemini-1.5-Pro 对照真实答案和图像,嵌入图中不存在但语义相近的名词生成自然幻觉;每个子集随机采样 900 条,总计 3600 条。
关键设计 2:跨语言幻觉数据构造¶
- 功能:将英文数据翻译为 9 种不同资源水平的语言,并通过人工校验保证质量。
- 为什么:不同资源水平的语言在翻译质量和模型理解能力上差异显著,需要全面覆盖才能揭示模型在语言迁移中的弱点。
- 怎么做:按高/中/低资源分组,每组选翻译错误率最低的 3 种语言——高资源(fr/es/pt)、中资源(cs/nl/sv)、低资源(hr/cy/sw);用 Google Translate 翻译后打乱排序消除顺序偏差;以英文为锚语言配对随机目标语言;最后组织人工复审,检查幻觉数据是否符合标准、翻译是否准确保留原意。
关键设计 3:四类幻觉组合定义¶
- 功能:定义四种样本类型——无幻觉、仅跨模态幻觉、仅跨语言幻觉、联合跨语言×跨模态幻觉。
- 为什么:细粒度分类使得评估可以分离不同因素的影响,便于对比联合 vs 单独场景的难度差。
- 怎么做:每个样本包含图像、问题和两个语言的回答,按幻觉有无和类型标注为四分类任务,模型需在 AMBER/GQA/xFlickr&Co/XM3600 四个子集上检测幻觉类型。
实验关键数据¶
表1:主实验——6款 MLLM 在 CCHall 上的 Acc/Macro-F1 (%)¶
| 模型 | 方法 | AMBER Acc | GQA Acc | xFlickr Acc | XM3600 Acc | AVG Acc | AVG F1 |
|---|---|---|---|---|---|---|---|
| InternVL2-8B | Direct | 29.1 | 29.9 | 38.3 | 38.8 | 34.0 | 42.9 |
| Llama-3.2-11B | CoT | 32.0 | 34.3 | 43.6 | 46.4 | 39.1 | 46.8 |
| Qwen2-VL-7B | CoT | 38.6 | 33.9 | 48.3 | 48.4 | 42.3 | 46.7 |
| Pixtral-12B | HalluciMAD | 46.3 | 45.2 | 57.1 | 58.7 | 51.8 | 56.4 |
| Gemini-1.5-Flash | HalluciMAD | 52.2 | 59.0 | 61.6 | 63.7 | 59.1 | 61.0 |
| GPT-4o | HalluciMAD | 70.9 | 68.6 | 84.1 | 86.4 | 77.5 | 78.8 |
关键发现: - CCHall 极具挑战性,最弱模型(InternVL2-8B Direct)仅 34.0% 准确率,最强组合(GPT-4o+HalluciMAD)也只达 77.5%。 - 闭源 GPT-4o 和 Gemini-1.5-Flash 明显优于开源模型;开源中 Qwen2-VL-7B 优于更大的 Llama-3.2-11B,说明训练策略比参数量更重要。 - 基础策略(CoT/SRO)更适合小模型(<12B),高级策略(VDGD/HalluciMAD)在强模型上更有效。
表2:分析实验——资源水平、分辨率与响应长度的影响¶
| 分析维度 | 关键发现 |
|---|---|
| 语言资源水平 | 高资源语言检测准确率最高,低资源(hr/cy/sw)显著下降 |
| 图像分辨率 | 高分辨率 > 低分辨率 > 无图像,视觉信息对减少幻觉至关重要 |
| 模型规模 | InternVL: 8B > 4B > 2B,参数越多性能越好 |
| 响应长度 | 超过 120 词后幻觉率急剧上升,长输出更不可靠 |
| 多语提示 | 在 Gemini-1.5-Flash 上,En+SL 比仅 En 在 GQA 上提升 4.8% |
| 外部工具(UniHD) | 平均比 HalluciMAD 再提升 2.7%,外部验证有效 |
亮点¶
- 首创联合评估维度:首个同时覆盖跨语言和跨模态幻觉的基准,填补了重要空白。
- 精心的数据构造流程:用 Gemini-1.5-Pro 生成语义相近的幻觉实体,比简单替换更具挑战性;三级语言资源覆盖确保评估全面性。
- 丰富的分析维度:不仅评估模型表现,还系统探索了语言资源、图像分辨率、响应长度、多语提示和外部工具等影响因素,为缓解幻觉提供了实用指导。
局限与展望¶
- 仅覆盖文本+图像模态:未涉及音频/语音等模态,随着多模态模型扩展到更多模态,基准需要同步升级。
- 幻觉数据由模型生成:虽经人工校验,但 Gemini-1.5-Pro 生成的幻觉样本可能存在遗留错误或分布偏差。
- 翻译质量依赖 Google Translate:低资源语言翻译质量本身较差,可能引入非幻觉的翻译噪声。
- 四分类任务设置较简单:实际幻觉可能是连续程度而非离散类别,未来可引入细粒度幻觉严重程度标注。
- 缺乏自动化幻觉归因:知道有幻觉但不知道是哪部分产生幻觉,未来可加入 span-level 标注。
与相关工作的对比¶
| 维度 | CCHall | HallusionBench (Guan et al. 2024) | POPE (Li et al. 2023) |
|---|---|---|---|
| 跨语言 | ✔ 9种语言 | ✘ 仅英文 | ✘ 仅英文 |
| 跨模态 | ✔ VQA+IC | ✔ VQA | ✔ 物体存在性 |
| 联合场景 | ✔ | ✘ | ✘ |
| 数据规模 | 大 (3600×多语言) | 346图+1129问 | 较大 |
| 幻觉类型 | 4类组合 | 视觉推理 | 二分类 |
- vs MM-Eval (Son et al. 2024):MM-Eval 覆盖 18 种语言但仅评估文本幻觉,不涉及跨模态场景。CCHall 同时评估视觉和语言幻觉的交互。
- vs XTRUST (Li et al. 2024):XTRUST 覆盖 10 种语言和多个信任维度(幻觉、错误信息、公平性等),但不包含跨模态场景。CCHall 聚焦于跨模态×跨语言的联合幻觉检测。
评分¶
| 维度 | 评分 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 实验充分度 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 实用价值 | ⭐⭐⭐⭐ |