Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Z091XLyVkJ
代码: https://github.com/ddlBoJack/Omni-Captioner
领域: 多模态VLM
关键词: 全模态感知, 详细描述, agentic 数据合成, 幻觉抑制, cloze 评测

一句话总结¶

针对全模态语言模型「描述越详细、幻觉越多」的共生难题，本文用一个会调用工具的「侦探式」agentic 数据管线（Omni-Detective）自动产出高细节、低幻觉的音视频描述数据，两阶段课程训练出 Audio-Captioner / Omni-Captioner，并设计 cloze 完形填空式评测基准 Omni-Cloze，在 VDC、MMAU、Omni-Cloze 等多个基准上刷到开源 SOTA、逼平 Gemini 2.5 Pro。

研究背景与动机¶

领域现状：全模态语言模型（Omni Language Models, OLMs）能并行处理音频和视频信号，输出对场景的丰富描述。一个朴素直觉是：在模型能力范围内，描述越长，捕捉的细粒度细节就越多，因此「详细描述（detailed captioning）」成为衡量多模态感知能力的重要任务。

现有痛点：作者在 Gemini 2.5 Pro 上做的实证研究揭示了一个「共生（co-growth）」现象——随着描述变长，正确细节的比例（detail ratio）确实在上升，但同时被编造的幻觉内容（hallucination ratio）也在同步上升。短描述安全但不完整，会漏掉细微事件、背景线索或跨模态交互；长描述信息丰富却容易注入未被输入支撑的内容，这对辅助 AI、科学报告、自动驾驶 agent 这类要求事实精确的应用是致命缺陷。

核心矛盾：细节增益（detail gain）与幻觉增长（hallucination growth）在现有 OLM 里是耦合的，无法只要细节不要幻觉。这个矛盾在全模态场景被进一步放大——模型要同时处理视觉与听觉两条信息密度极不对称的流。

本文目标：从数据管线、模型、基准三个层面系统性解决全模态详细感知问题，把「细节-幻觉前沿（detail–hallucination frontier）」整体向外推，即在不成比例增加幻觉的前提下产出更丰富的描述。

切入角度：与其让单个模型一次性「看一眼就写完」，不如模仿人类侦探——反复向独立的观察者提问、调用领域工具取证、交叉核验已有线索，逐轮增量地补充有据可查的细节。这样细节增益来自工具取证而非自由发挥，从源头上把幻觉和细节解耦。

核心 idea：用「agentic 多轮取证」生成低幻觉高细节数据，再用两阶段课程训练把这种能力蒸馏进 7B 模型，最后用「完形填空」式评测把开放生成的评分难题转化为可稳定打分的选择题。

方法详解¶

整体框架¶

本文是一套贯穿「数据—模型—评测」三段的完整方案。数据侧：Omni-Detective 是一个 agentic 数据合成管线，让一个 LLM 侦探 agent 反复调用 OCR/ASR/MLLM 等工具和模态专属观察者，多轮 Query-Observation 循环地为同一段音视频积累证据，最后整合成高细节、低幻觉的描述数据。模型侧：以 Qwen2.5-Omni-7B 为骨干，用两阶段课程在这批数据上训练——先冻结视觉编码器只对齐稀疏但关键的音频线索得到 Audio-Captioner，再全参数联合训练音视频得到 Omni-Captioner。评测侧：针对开放生成难评分的问题，设计 Omni-Cloze——把细粒度细节挖成完形填空选择题、加入「Not Given」选项，单次自动打分即可稳定区分「漏掉」与「编造」。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始音视频片段"] --> B["Omni-Detective<br/>侦探 agent 多轮调用<br/>工具+观察者取证"]
    B --> C["高细节低幻觉<br/>描述数据集"]
    C --> D["两阶段课程训练<br/>阶段1 冻视觉对齐音频<br/>阶段2 全参联合音视频"]
    D -->|音频专精| E["Audio-Captioner"]
    D -->|音视频| F["Omni-Captioner"]
    E --> G["Omni-Cloze<br/>完形填空式评测<br/>含 Not Given 选项"]
    F --> G

关键设计¶

1. Omni-Detective：把单次观察换成侦探式多轮取证，从源头解耦细节与幻觉

直接让一个 MLLM 一遍写完描述，是「共生」幻觉的根源——模型为了凑细节会编造未被输入支撑的内容。Omni-Detective 把这个一次性过程改造成迭代的 Query-Observation 循环，由三个组件协同：(1) Detective Agent——一个自主编排感知过程的 LLM agent，每一轮主动构造查询；(2) Tool Box——包含 MLLM、OCR、ASR 等专用工具，从多模态数据里抽取精确信息（如屏幕文字、语音转写）；(3) 独立 Observers——直接与原始音视频流交互、针对特定方面探查。每一步里 agent 提出查询并调用相关工具，observer 分析检索到的内容、把富化后的观察反馈给 agent，如此循环直到收集到足够的细粒度证据，最后 agent 把所有观察整合成最终描述。关键在于：每一轮在增量补充有据可查的细节的同时交叉核验已有声明（cross-check existing claims），让细节增益来自取证而非臆测，因此显式地把「细节增长」和「幻觉增长」拆开。论文 6.2 节的分析印证了这点：随着取证步数增加，detail rate 稳步上升，而 not-given rate 和 hallucination rate 双双下降（模型在更多取证机会下能自我纠正先前的错误推断）；但 hallucination rate 在第 5–6 步左右就收敛了，说明当前多模态工具在消除错误声明上存在固有天花板——有些细节被错误分类后，即便延长取证也难以修正。

2. 两阶段课程训练：先用冻结视觉强行对齐稀疏音频，再联合训练融合双模态

等时长的音视频片段里，视觉模态信息密度通常远高于音频，若一开始就联合训练，模型会忽略稀疏但语义关键的音频线索（音效、语音内容、音乐提示）。为缓解这种不对称，作者设计课程式两阶段训练。阶段 1（音频感知对齐）：冻结视觉编码器，只用纯音频详细描述数据优化音频编码器和 LLM，强制模型把感知锚定在音频流上，产出 Audio-Captioner。阶段 2（音视频感知对齐）：在音视频详细描述数据上联合训练，此时描述显著更长（短视频平均达 1125 词），解冻所有组件做全参数微调，让网络利用跨模态互补性产出丰富、连贯、模态完整的描述，得到 Omni-Captioner。一个值得注意的工程发现是：去掉输入里的文本提示词（text prompt）反而提升描述性能，因此两阶段训练都在无显式文本提示下进行。这种「先难后易」的安排——先逼模型啃下信息稀疏的音频，再放开融合——正是为了对冲视觉对音频的「注意力碾压」。

3. Omni-Cloze：用完形填空把开放生成的评分难题转成单次可打分的选择题

详细描述是开放式输出，传统 BLEU/METEOR/CIDEr 等指标无法忠实评估长且信息密集的描述；VDC 改用「每条描述派生 \(k\) 个短问答对」的方式，但对 1 条含 \(k\) 个 QA 的描述需要 \(2k\) 次 LLM 调用，既低效又会累积评测误差。Omni-Cloze 改成 cloze 完形填空范式：把细粒度细节设计成多选填空，每个空给若干干扰项，并额外加入一个「Not Given」选项。评测时模型先生成详细描述，再让 LLM 仅根据这段描述从选项中填空——LLM 只做信息抽取、不做主观推理，因此每条描述只需 1 次 LLM 调用（VDC 需 38 次）。「Not Given」是点睛之笔：它把模型错误显式拆解为 not-given rate（漏掉、该选却没覆盖）和 hallucination rate（选了错误项而非 Not Given），从而可解释地区分「遗漏」与「编造」。基准覆盖纯视觉、纯音频、音视频三种设定，跨 9 大领域 47 个子类、2k 视频片段、70k 个填空，并经人工校验。6.3 节的 arena-style Elo 人偏好对齐实验显示，Omni-Cloze 准确率与人类 Elo 评分的 Pearson 相关系数高达 \(r=0.91\)，超过 VDC（0.86）和 video-SALMONN 2（0.83）。

一个完整示例¶

以图 1 的篮球比赛视频为例走一遍：Omni-Detective 的侦探 agent 第 1 轮调 MLLM 拿到「这是一场篮球比赛」的粗描述；发现有多人说话后，第 2 轮调 ASR 转写出解说语音内容；又调 OCR 读出记分牌「PHI 83, JOR 86」「2:20 left」和场边广告牌「Smart / TOYOTA / YAMAHA」；observer 反复核验球员号码（#15 ABBAS）、慢动作回放、人群氛围等细节并反馈。多轮取证后，agent 整合出一段既包含「Brownlee 隔扣 Zaid Abbas、比分更新到 PHI 85–86」这类精确细节、又没有把比分写反（对照里 Qwen2.5-Omni 把 86–83 写成 JOR 领先即为幻觉）的高保真描述。这条数据再用于训练，模型就学会了「敢写细节但不编造」。

实验关键数据¶

主实验¶

详细描述基准（VDC 纯视觉 + video-SALMONN 2 测试集音视频）：

模型	模态	VDC Acc%↑	VDC Score↑	SALMONN2 Miss%↓	SALMONN2 Hall%↓
GPT-4o	V	46.3	2.5	17.0	14.2
Gemini 1.5 Pro	A+V	43.1	2.2	21.8	16.5
Qwen2.5-Omni-7B	A+V	39.7	2.2	26.3	21.7
video-SALMONN2-7B	A+V	46.1	2.5	10.0	12.9
Omni-Captioner-7B	A+V	55.0	2.7	17.8	10.9

Omni-Captioner 在 VDC 上以 55.0% 准确率、2.7 分刷新 SOTA，超过所有专有和开源基线；在 SALMONN2 测试集上以「次低漏检率 17.8% + 次低幻觉率 10.9%」拿到最佳的细节-幻觉权衡（且是零样本，未适配该测试集的事件分布）。

caption-to-QA 级联评测（音频 / 全模态，均用 GPT-4o 作 QA 后端）：

模型	MMAU	MMAR	Video-MME	Video-Holmes	WorldSense	Daily-Omni
Gemini 2.5 Flash	65.6	58.2	69.1	52.8	44.6	59.5
Gemini 2.5 Pro	70.0	64.1	75.0	59.9	53.6	73.6
Qwen2.5-Omni-7B	65.2	51.8	52.7	35.7	30.6	47.9
video-SALMONN 2-7B	–	–	65.9	42.9	44.1	59.7
Audio/Omni-Captioner-7B	70.0	59.8	67.1	48.8	48.2	67.9

Audio-Captioner 在 MMAU 上达 70.0，追平最强专有模型 Gemini 2.5 Pro 并大幅领先所有开源基线；Omni-Captioner 在四个音视频基准上均为开源最高分。

消融实验¶

Omni-Cloze 主结果（全模态模型）+ Omni-Detective 直接套到 Gemini 2.5 Pro 上的级联消融：

配置	关键指标	说明
Audio-Captioner-7B	Omni-Cloze 53.2%	音频开源最高，超 Gemini 2.5 Pro（48.0%）5.2 个点
Omni-Captioner-7B	Omni-Cloze 56.4%（V 57.0 / A 54.5 / AV 62.1）	全模态总分 SOTA，超 Gemini 2.5 Pro（43.6%）
Gemini 2.5 Pro（原始）	MMAR 64.1 / Video-MME 75.0	基线
Gemini 2.5 Pro + Omni-Detective	MMAR 68.3 / Video-MME 76.1	数据管线直接套到强专有模型上也能涨

关键发现¶

Omni-Detective 的取证步数越多、细节越全幻觉越少，但幻觉有天花板：detail rate 随步数稳步上升，not-given 与 hallucination 双降；但 hallucination 约在第 5–6 步收敛，说明现有多模态工具对错误声明的修正能力存在固有上限。
数据管线是「即插即用」的：把 Omni-Detective 直接套在 Gemini 2.5 Pro 上做 caption-to-QA，MMAR +4.2、Video-MME +1.1，说明增益来自数据生成范式本身而非特定骨干。
Omni-Cloze 与人类偏好对齐最好：cloze 准确率与人类 Elo 评分相关性 \(r=0.91\)，高于 VDC（0.86）和 SALMONN2（0.83），且每条描述只需 1 次 LLM 调用（VDC 需 38 次）。
去掉文本提示反而更好：训练时移除输入文本 prompt 提升了描述性能，是一个反直觉但实用的工程发现。

亮点与洞察¶

把「数据生成」做成 agentic 取证循环：用 LLM agent + 工具调用 + 独立观察者多轮交叉核验，让细节增益来自有据可查的取证而非自由发挥，这是从根上解耦「细节 vs 幻觉」的巧思，比单纯堆 prompt 或做 DPO 后处理更治本。
「Not Given」选项把误差拆成可解释两类：单这一个设计就让评测能把「漏掉」和「编造」分开度量，而不是混成一个模糊的错误率，对诊断模型很有价值，可迁移到任何要区分 omission/hallucination 的评测。
完形填空把开放评分降维成单次选择题：从 \(2k\) 次 LLM 调用降到 1 次、还更对齐人类偏好，这个「用 cloze 代替多轮 QA」的思路可直接迁移到其他长文本/详细描述类任务的评测。
课程式冻结-解冻对抗模态不对称：先冻视觉逼模型啃音频、再联合解冻，是处理「强模态碾压弱模态」的通用配方，可迁移到任何信息密度不对称的多模态训练。

局限与展望¶

幻觉天花板未突破：作者自己承认 hallucination rate 在第 5–6 步就收敛，现有多模态工具对某些被错误分类的细节无能为力，延长取证也修不动——管线把前沿外推了但没消灭幻觉。
数据生成成本：多轮 agentic 取证、反复调用 OCR/ASR/MLLM 的开销远高于单次 prompt，论文未详述大规模生成的算力/时间成本与扩展性边界。
级联推理的固有短板：caption-to-QA 级联对某些题型（如精确计数）天然弱于端到端 QA 模型，详细描述质量再高也补不齐这类能力。
与专有模型仍有绝对差距：Omni-Captioner 大幅缩小了与 Gemini 2.5 Pro 的差距，但在 Video-MME 等基准上绝对分仍落后，7B 规模的容量上限可能是瓶颈。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「侦探式 agentic 数据生成 + cloze 评测 + Not Given 拆解误差」三件套都很有原创性，且系统性覆盖数据/模型/基准。
实验充分度: ⭐⭐⭐⭐⭐ 跨 VDC/MMAU/MMAR/Video-MME/Omni-Cloze 等近十个基准、含步数趋势分析与人类 Elo 对齐，论证扎实。
写作质量: ⭐⭐⭐⭐ 「co-growth」与「侦探」类比讲得清晰生动，图表完整；部分附录细节（超参、数据统计）需翻 appendix。
价值: ⭐⭐⭐⭐⭐ 数据管线、模型、基准全开源，且管线可即插即用提升其他强模型，对全模态详细感知社区有直接推动价值。