跳转至

Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

会议: ICML 2025
arXiv: 2412.15484
代码: github.com/adobe-research/CapMAS
领域: 多模态VLM
关键词: Hyper-Detailed Captioning, Hallucination, Multiagent System, Factuality, Coverage Evaluation

一句话总结

提出 CapMAS 多智能体系统,通过 LLM-MLLM 协作将详细图文描述分解为原子命题并逐一验证真实性来纠正幻觉,同时引入从事实性和覆盖度两个维度评估详细描述的框架,显著提升了包括 GPT-4V 在内的多种 MLLM 的描述质量。

研究背景与动机

MLLM 能生成长且详细的图片描述,但存在严重的幻觉问题:描述中包含图像中不存在的物体或错误的属性/关系。

关键发现:现有幻觉检测方法在长序列上失效。 - Confidence 方法和 Consistency 方法在第 192 个 token 之后无法检测幻觉 - 原因:随着 MLLM 输出变长,模型越来越依赖自身生成的文本而非输入图像(注意力权重从图像 token 转移到文本 token)

实验验证:将长描述中的物体"隔离"为独立查询(Isolation 方法),AUROC 从 Confidence 的 57.5 和 Consistency 的 73.5 提升到 81.4

方法详解

CapMAS 多智能体系统

三步流程(无需训练): 1. 分解器 LLM:将详细描述分解为原子命题(可判真假的最小单元) 2. 事实检查器 MLLM:将每个命题转为 True/False 问题,独立查询 MLLM

幻觉分数定义: $\(H(u) = -\log(\min(p(\text{T}|x, Q(u)) - p(\text{F}|x, Q(u)), \epsilon))\)$

根据阈值 \(\pi\) 将命题分为 True 集合 \(\mathcal{T}\) 和 False 集合 \(\mathcal{F}\)

  1. 纠正器 LLM:基于 \(\mathcal{T}\)\(\mathcal{F}\) 修正原始描述

评估框架

事实性评估: - GPT-4o 将描述分解为原子命题,同时参考图像和参考描述判断真假 - 事实性 = \(T / (T + F)\)

覆盖度评估: - 构建高细粒度 VQA 数据集(每张图平均 49.8 道选择题,共 19,899 题) - 假设:如果描述完整覆盖图像信息,仅用描述就能回答视觉问题 - 用 LLM 基于生成的描述回答问题,准确率作为覆盖度

评估指标验证(Meta-evaluation)

在 DOCCI 数据集上制造三类幻觉(Object/Attribution/Relation),测试各指标能否检测:

指标 Clean Object Attrib Relation 能否检测?
CIDEr 6.4 4.8 6.2 6.7
CLIP-S 81.3 81.0 80.9 81.4
CLAIR 86.9 85.2 80.0 83.5 部分
Ours 62.8 52.3 60.9 51.9

实验关键数据

CapMAS 对不同模型的提升

描述模型 CapMAS CLAIR 事实性 覆盖度 平均
LLaVA-NeXT-7B 68.8 59.9 47.9 58.9
LLaVA-NeXT-7B LLaMA-3 + 7B 74.1 72.2 46.9 64.4
GPT-4V 82.4 77.1 53.5 71.0
GPT-4V LLaMA-3 + InternVL 84.6 82.1 53.5 73.4

与其他方法对比

方法 CLAIR 事实性 覆盖度 平均
Base (LLaVA-1.5-7B) 62.1 52.8 34.3 49.7
VCD 59.7 44.6 39.3 47.9
OPERA 59.1 53.0 34.1 48.7
LURE 57.2 51.9 27.6 45.6
CapMAS 66.3 63.4 33.1 54.3

关键发现

  • 现有解码方法 (VCD, OPERA) 对详细描述无效甚至有害(VCD 降低了事实性)
  • CapMAS 对 GPT-4V 描述也能提升事实性(77.1→82.1),即使使用比 GPT-4V 弱得多的模型做检查
  • VQA 基准性能与详细描述能力不相关,质疑了以 VQA 为中心的评估范式

亮点与洞察

  1. Isolation 验证优于 Confidence/Consistency:确认了分解再检查策略的必要性
  2. 即插即用 + 无需训练:可用于任何描述模型,包括闭源 GPT-4V
  3. 事实性 × 覆盖度双维评估:首次系统分离评估这两个维度
  4. VQA 基准问题的揭示:MLLM 在 VQA 上好不代表描述能力强

局限性

  • 事实性提升伴随轻微的覆盖度下降(保守纠正导致信息丢失)
  • 依赖 MLLM 本身的视觉理解能力来检查幻觉
  • LLM 分解器的质量影响最终效果
  • 超参数 \(\pi\) 控制事实性-覆盖度权衡

相关工作

  • 解码方法(VCD、OPERA)
  • 训练方法(LRV)
  • 纠正方法(LURE、Volcano)
  • 评估方法(CLIPScore、CLAIR、ALOHa、FaithScore)

评分

⭐⭐⭐⭐ — 问题切入精准(长序列幻觉检测失效),评估框架设计周全。CapMAS 方法直觉清晰、实效性好。双维评估和 VQA benchmark 的局限性揭示有独立价值。