Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage¶
会议: ICML 2025
arXiv: 2412.15484
代码: github.com/adobe-research/CapMAS
领域: 多模态VLM
关键词: Hyper-Detailed Captioning, Hallucination, Multiagent System, Factuality, Coverage Evaluation
一句话总结¶
提出 CapMAS 多智能体系统,通过 LLM-MLLM 协作将详细图文描述分解为原子命题并逐一验证真实性来纠正幻觉,同时引入从事实性和覆盖度两个维度评估详细描述的框架,显著提升了包括 GPT-4V 在内的多种 MLLM 的描述质量。
研究背景与动机¶
MLLM 能生成长且详细的图片描述,但存在严重的幻觉问题:描述中包含图像中不存在的物体或错误的属性/关系。
关键发现:现有幻觉检测方法在长序列上失效。 - Confidence 方法和 Consistency 方法在第 192 个 token 之后无法检测幻觉 - 原因:随着 MLLM 输出变长,模型越来越依赖自身生成的文本而非输入图像(注意力权重从图像 token 转移到文本 token)
实验验证:将长描述中的物体"隔离"为独立查询(Isolation 方法),AUROC 从 Confidence 的 57.5 和 Consistency 的 73.5 提升到 81.4。
方法详解¶
CapMAS 多智能体系统¶
三步流程(无需训练): 1. 分解器 LLM:将详细描述分解为原子命题(可判真假的最小单元) 2. 事实检查器 MLLM:将每个命题转为 True/False 问题,独立查询 MLLM
幻觉分数定义: $\(H(u) = -\log(\min(p(\text{T}|x, Q(u)) - p(\text{F}|x, Q(u)), \epsilon))\)$
根据阈值 \(\pi\) 将命题分为 True 集合 \(\mathcal{T}\) 和 False 集合 \(\mathcal{F}\)。
- 纠正器 LLM:基于 \(\mathcal{T}\) 和 \(\mathcal{F}\) 修正原始描述
评估框架¶
事实性评估: - GPT-4o 将描述分解为原子命题,同时参考图像和参考描述判断真假 - 事实性 = \(T / (T + F)\)
覆盖度评估: - 构建高细粒度 VQA 数据集(每张图平均 49.8 道选择题,共 19,899 题) - 假设:如果描述完整覆盖图像信息,仅用描述就能回答视觉问题 - 用 LLM 基于生成的描述回答问题,准确率作为覆盖度
评估指标验证(Meta-evaluation)¶
在 DOCCI 数据集上制造三类幻觉(Object/Attribution/Relation),测试各指标能否检测:
| 指标 | Clean | Object | Attrib | Relation | 能否检测? |
|---|---|---|---|---|---|
| CIDEr | 6.4 | 4.8 | 6.2 | 6.7 | ✗ |
| CLIP-S | 81.3 | 81.0 | 80.9 | 81.4 | ✗ |
| CLAIR | 86.9 | 85.2 | 80.0 | 83.5 | 部分 |
| Ours | 62.8 | 52.3 | 60.9 | 51.9 | ✓ |
实验关键数据¶
CapMAS 对不同模型的提升¶
| 描述模型 | CapMAS | CLAIR | 事实性 | 覆盖度 | 平均 |
|---|---|---|---|---|---|
| LLaVA-NeXT-7B | — | 68.8 | 59.9 | 47.9 | 58.9 |
| LLaVA-NeXT-7B | LLaMA-3 + 7B | 74.1 | 72.2 | 46.9 | 64.4 |
| GPT-4V | — | 82.4 | 77.1 | 53.5 | 71.0 |
| GPT-4V | LLaMA-3 + InternVL | 84.6 | 82.1 | 53.5 | 73.4 |
与其他方法对比¶
| 方法 | CLAIR | 事实性 | 覆盖度 | 平均 |
|---|---|---|---|---|
| Base (LLaVA-1.5-7B) | 62.1 | 52.8 | 34.3 | 49.7 |
| VCD | 59.7 | 44.6 | 39.3 | 47.9 |
| OPERA | 59.1 | 53.0 | 34.1 | 48.7 |
| LURE | 57.2 | 51.9 | 27.6 | 45.6 |
| CapMAS | 66.3 | 63.4 | 33.1 | 54.3 |
关键发现¶
- 现有解码方法 (VCD, OPERA) 对详细描述无效甚至有害(VCD 降低了事实性)
- CapMAS 对 GPT-4V 描述也能提升事实性(77.1→82.1),即使使用比 GPT-4V 弱得多的模型做检查
- VQA 基准性能与详细描述能力不相关,质疑了以 VQA 为中心的评估范式
亮点与洞察¶
- Isolation 验证优于 Confidence/Consistency:确认了分解再检查策略的必要性
- 即插即用 + 无需训练:可用于任何描述模型,包括闭源 GPT-4V
- 事实性 × 覆盖度双维评估:首次系统分离评估这两个维度
- VQA 基准问题的揭示:MLLM 在 VQA 上好不代表描述能力强
局限性¶
- 事实性提升伴随轻微的覆盖度下降(保守纠正导致信息丢失)
- 依赖 MLLM 本身的视觉理解能力来检查幻觉
- LLM 分解器的质量影响最终效果
- 超参数 \(\pi\) 控制事实性-覆盖度权衡
相关工作¶
- 解码方法(VCD、OPERA)
- 训练方法(LRV)
- 纠正方法(LURE、Volcano)
- 评估方法(CLIPScore、CLAIR、ALOHa、FaithScore)
评分¶
⭐⭐⭐⭐ — 问题切入精准(长序列幻觉检测失效),评估框架设计周全。CapMAS 方法直觉清晰、实效性好。双维评估和 VQA benchmark 的局限性揭示有独立价值。