Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage¶

会议: ICML 2025
arXiv: 2412.15484
代码: github.com/adobe-research/CapMAS
领域: 多模态VLM
关键词: Hyper-Detailed Captioning, Hallucination, Multiagent System, Factuality, Coverage Evaluation

一句话总结¶

提出 CapMAS 多智能体系统，通过 LLM-MLLM 协作将详细图文描述分解为原子命题并逐一验证真实性来纠正幻觉，同时引入从事实性和覆盖度两个维度评估详细描述的框架，显著提升了包括 GPT-4V 在内的多种 MLLM 的描述质量。

研究背景与动机¶

MLLM 能生成长且详细的图片描述，但存在严重的幻觉问题：描述中包含图像中不存在的物体或错误的属性/关系。

关键发现：现有幻觉检测方法在长序列上失效。 - Confidence 方法和 Consistency 方法在第 192 个 token 之后无法检测幻觉 - 原因：随着 MLLM 输出变长，模型越来越依赖自身生成的文本而非输入图像（注意力权重从图像 token 转移到文本 token）

实验验证：将长描述中的物体"隔离"为独立查询（Isolation 方法），AUROC 从 Confidence 的 57.5 和 Consistency 的 73.5 提升到 81.4。

方法详解¶

CapMAS 多智能体系统¶

三步流程（无需训练）： 1. 分解器 LLM：将详细描述分解为原子命题（可判真假的最小单元） 2. 事实检查器 MLLM：将每个命题转为 True/False 问题，独立查询 MLLM

幻觉分数定义： $$H(u) = -\log(\min(p(\text{T}|x, Q(u)) - p(\text{F}|x, Q(u)), \epsilon))$$

根据阈值 $\pi$ 将命题分为 True 集合 $\mathcal{T}$ 和 False 集合 $\mathcal{F}$。

纠正器 LLM：基于 $\mathcal{T}$ 和 $\mathcal{F}$ 修正原始描述

评估框架¶

事实性评估： - GPT-4o 将描述分解为原子命题，同时参考图像和参考描述判断真假 - 事实性 = $T / (T + F)$

覆盖度评估： - 构建高细粒度 VQA 数据集（每张图平均 49.8 道选择题，共 19,899 题） - 假设：如果描述完整覆盖图像信息，仅用描述就能回答视觉问题 - 用 LLM 基于生成的描述回答问题，准确率作为覆盖度

评估指标验证（Meta-evaluation）¶

在 DOCCI 数据集上制造三类幻觉（Object/Attribution/Relation），测试各指标能否检测：

指标	Clean	Object	Attrib	Relation	能否检测?
CIDEr	6.4	4.8	6.2	6.7	✗
CLIP-S	81.3	81.0	80.9	81.4	✗
CLAIR	86.9	85.2	80.0	83.5	部分
Ours	62.8	52.3	60.9	51.9	✓

实验关键数据¶

CapMAS 对不同模型的提升¶

描述模型	CapMAS	CLAIR	事实性	覆盖度	平均
LLaVA-NeXT-7B	—	68.8	59.9	47.9	58.9
LLaVA-NeXT-7B	LLaMA-3 + 7B	74.1	72.2	46.9	64.4
GPT-4V	—	82.4	77.1	53.5	71.0
GPT-4V	LLaMA-3 + InternVL	84.6	82.1	53.5	73.4

与其他方法对比¶

方法	CLAIR	事实性	覆盖度	平均
Base (LLaVA-1.5-7B)	62.1	52.8	34.3	49.7
VCD	59.7	44.6	39.3	47.9
OPERA	59.1	53.0	34.1	48.7
LURE	57.2	51.9	27.6	45.6
CapMAS	66.3	63.4	33.1	54.3

关键发现¶

现有解码方法 (VCD, OPERA) 对详细描述无效甚至有害（VCD 降低了事实性）
CapMAS 对 GPT-4V 描述也能提升事实性（77.1→82.1），即使使用比 GPT-4V 弱得多的模型做检查
VQA 基准性能与详细描述能力不相关，质疑了以 VQA 为中心的评估范式

亮点与洞察¶

Isolation 验证优于 Confidence/Consistency：确认了分解再检查策略的必要性
即插即用 + 无需训练：可用于任何描述模型，包括闭源 GPT-4V
事实性 × 覆盖度双维评估：首次系统分离评估这两个维度
VQA 基准问题的揭示：MLLM 在 VQA 上好不代表描述能力强

局限性¶

事实性提升伴随轻微的覆盖度下降（保守纠正导致信息丢失）
依赖 MLLM 本身的视觉理解能力来检查幻觉
LLM 分解器的质量影响最终效果
超参数 $\pi$ 控制事实性-覆盖度权衡

评分¶

⭐⭐⭐⭐ — 问题切入精准（长序列幻觉检测失效），评估框架设计周全。CapMAS 方法直觉清晰、实效性好。双维评估和 VQA benchmark 的局限性揭示有独立价值。