跳转至

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Z091XLyVkJ
代码: https://github.com/ddlBoJack/Omni-Captioner
领域: 多模态VLM
关键词: 全模态感知, 详细描述, agentic 数据合成, 幻觉抑制, cloze 评测

一句话总结

针对全模态语言模型「描述越详细、幻觉越多」的共生难题,本文用一个会调用工具的「侦探式」agentic 数据管线(Omni-Detective)自动产出高细节、低幻觉的音视频描述数据,两阶段课程训练出 Audio-Captioner / Omni-Captioner,并设计 cloze 完形填空式评测基准 Omni-Cloze,在 VDC、MMAU、Omni-Cloze 等多个基准上刷到开源 SOTA、逼平 Gemini 2.5 Pro。

研究背景与动机

领域现状:全模态语言模型(Omni Language Models, OLMs)能并行处理音频和视频信号,输出对场景的丰富描述。一个朴素直觉是:在模型能力范围内,描述越长,捕捉的细粒度细节就越多,因此「详细描述(detailed captioning)」成为衡量多模态感知能力的重要任务。

现有痛点:作者在 Gemini 2.5 Pro 上做的实证研究揭示了一个「共生(co-growth)」现象——随着描述变长,正确细节的比例(detail ratio)确实在上升,但同时被编造的幻觉内容(hallucination ratio)也在同步上升。短描述安全但不完整,会漏掉细微事件、背景线索或跨模态交互;长描述信息丰富却容易注入未被输入支撑的内容,这对辅助 AI、科学报告、自动驾驶 agent 这类要求事实精确的应用是致命缺陷。

核心矛盾:细节增益(detail gain)与幻觉增长(hallucination growth)在现有 OLM 里是耦合的,无法只要细节不要幻觉。这个矛盾在全模态场景被进一步放大——模型要同时处理视觉与听觉两条信息密度极不对称的流。

本文目标:从数据管线、模型、基准三个层面系统性解决全模态详细感知问题,把「细节-幻觉前沿(detail–hallucination frontier)」整体向外推,即在不成比例增加幻觉的前提下产出更丰富的描述。

切入角度:与其让单个模型一次性「看一眼就写完」,不如模仿人类侦探——反复向独立的观察者提问、调用领域工具取证、交叉核验已有线索,逐轮增量地补充有据可查的细节。这样细节增益来自工具取证而非自由发挥,从源头上把幻觉和细节解耦。

核心 idea:用「agentic 多轮取证」生成低幻觉高细节数据,再用两阶段课程训练把这种能力蒸馏进 7B 模型,最后用「完形填空」式评测把开放生成的评分难题转化为可稳定打分的选择题。

方法详解

整体框架

本文是一套贯穿「数据—模型—评测」三段的完整方案。数据侧:Omni-Detective 是一个 agentic 数据合成管线,让一个 LLM 侦探 agent 反复调用 OCR/ASR/MLLM 等工具和模态专属观察者,多轮 Query-Observation 循环地为同一段音视频积累证据,最后整合成高细节、低幻觉的描述数据。模型侧:以 Qwen2.5-Omni-7B 为骨干,用两阶段课程在这批数据上训练——先冻结视觉编码器只对齐稀疏但关键的音频线索得到 Audio-Captioner,再全参数联合训练音视频得到 Omni-Captioner。评测侧:针对开放生成难评分的问题,设计 Omni-Cloze——把细粒度细节挖成完形填空选择题、加入「Not Given」选项,单次自动打分即可稳定区分「漏掉」与「编造」。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始音视频片段"] --> B["Omni-Detective<br/>侦探 agent 多轮调用<br/>工具+观察者取证"]
    B --> C["高细节低幻觉<br/>描述数据集"]
    C --> D["两阶段课程训练<br/>阶段1 冻视觉对齐音频<br/>阶段2 全参联合音视频"]
    D -->|音频专精| E["Audio-Captioner"]
    D -->|音视频| F["Omni-Captioner"]
    E --> G["Omni-Cloze<br/>完形填空式评测<br/>含 Not Given 选项"]
    F --> G

关键设计

1. Omni-Detective:把单次观察换成侦探式多轮取证,从源头解耦细节与幻觉

直接让一个 MLLM 一遍写完描述,是「共生」幻觉的根源——模型为了凑细节会编造未被输入支撑的内容。Omni-Detective 把这个一次性过程改造成迭代的 Query-Observation 循环,由三个组件协同:(1) Detective Agent——一个自主编排感知过程的 LLM agent,每一轮主动构造查询;(2) Tool Box——包含 MLLM、OCR、ASR 等专用工具,从多模态数据里抽取精确信息(如屏幕文字、语音转写);(3) 独立 Observers——直接与原始音视频流交互、针对特定方面探查。每一步里 agent 提出查询并调用相关工具,observer 分析检索到的内容、把富化后的观察反馈给 agent,如此循环直到收集到足够的细粒度证据,最后 agent 把所有观察整合成最终描述。关键在于:每一轮在增量补充有据可查的细节的同时交叉核验已有声明(cross-check existing claims),让细节增益来自取证而非臆测,因此显式地把「细节增长」和「幻觉增长」拆开。论文 6.2 节的分析印证了这点:随着取证步数增加,detail rate 稳步上升,而 not-given rate 和 hallucination rate 双双下降(模型在更多取证机会下能自我纠正先前的错误推断);但 hallucination rate 在第 5–6 步左右就收敛了,说明当前多模态工具在消除错误声明上存在固有天花板——有些细节被错误分类后,即便延长取证也难以修正。

2. 两阶段课程训练:先用冻结视觉强行对齐稀疏音频,再联合训练融合双模态

等时长的音视频片段里,视觉模态信息密度通常远高于音频,若一开始就联合训练,模型会忽略稀疏但语义关键的音频线索(音效、语音内容、音乐提示)。为缓解这种不对称,作者设计课程式两阶段训练。阶段 1(音频感知对齐):冻结视觉编码器,只用纯音频详细描述数据优化音频编码器和 LLM,强制模型把感知锚定在音频流上,产出 Audio-Captioner。阶段 2(音视频感知对齐):在音视频详细描述数据上联合训练,此时描述显著更长(短视频平均达 1125 词),解冻所有组件做全参数微调,让网络利用跨模态互补性产出丰富、连贯、模态完整的描述,得到 Omni-Captioner。一个值得注意的工程发现是:去掉输入里的文本提示词(text prompt)反而提升描述性能,因此两阶段训练都在无显式文本提示下进行。这种「先难后易」的安排——先逼模型啃下信息稀疏的音频,再放开融合——正是为了对冲视觉对音频的「注意力碾压」。

3. Omni-Cloze:用完形填空把开放生成的评分难题转成单次可打分的选择题

详细描述是开放式输出,传统 BLEU/METEOR/CIDEr 等指标无法忠实评估长且信息密集的描述;VDC 改用「每条描述派生 \(k\) 个短问答对」的方式,但对 1 条含 \(k\) 个 QA 的描述需要 \(2k\) 次 LLM 调用,既低效又会累积评测误差。Omni-Cloze 改成 cloze 完形填空范式:把细粒度细节设计成多选填空,每个空给若干干扰项,并额外加入一个「Not Given」选项。评测时模型先生成详细描述,再让 LLM 仅根据这段描述从选项中填空——LLM 只做信息抽取、不做主观推理,因此每条描述只需 1 次 LLM 调用(VDC 需 38 次)。「Not Given」是点睛之笔:它把模型错误显式拆解为 not-given rate(漏掉、该选却没覆盖)和 hallucination rate(选了错误项而非 Not Given),从而可解释地区分「遗漏」与「编造」。基准覆盖纯视觉、纯音频、音视频三种设定,跨 9 大领域 47 个子类、2k 视频片段、70k 个填空,并经人工校验。6.3 节的 arena-style Elo 人偏好对齐实验显示,Omni-Cloze 准确率与人类 Elo 评分的 Pearson 相关系数高达 \(r=0.91\),超过 VDC(0.86)和 video-SALMONN 2(0.83)。

一个完整示例

以图 1 的篮球比赛视频为例走一遍:Omni-Detective 的侦探 agent 第 1 轮调 MLLM 拿到「这是一场篮球比赛」的粗描述;发现有多人说话后,第 2 轮调 ASR 转写出解说语音内容;又调 OCR 读出记分牌「PHI 83, JOR 86」「2:20 left」和场边广告牌「Smart / TOYOTA / YAMAHA」;observer 反复核验球员号码(#15 ABBAS)、慢动作回放、人群氛围等细节并反馈。多轮取证后,agent 整合出一段既包含「Brownlee 隔扣 Zaid Abbas、比分更新到 PHI 85–86」这类精确细节、又没有把比分写反(对照里 Qwen2.5-Omni 把 86–83 写成 JOR 领先即为幻觉)的高保真描述。这条数据再用于训练,模型就学会了「敢写细节但不编造」。

实验关键数据

主实验

详细描述基准(VDC 纯视觉 + video-SALMONN 2 测试集音视频):

模型 模态 VDC Acc%↑ VDC Score↑ SALMONN2 Miss%↓ SALMONN2 Hall%↓
GPT-4o V 46.3 2.5 17.0 14.2
Gemini 1.5 Pro A+V 43.1 2.2 21.8 16.5
Qwen2.5-Omni-7B A+V 39.7 2.2 26.3 21.7
video-SALMONN2-7B A+V 46.1 2.5 10.0 12.9
Omni-Captioner-7B A+V 55.0 2.7 17.8 10.9

Omni-Captioner 在 VDC 上以 55.0% 准确率、2.7 分刷新 SOTA,超过所有专有和开源基线;在 SALMONN2 测试集上以「次低漏检率 17.8% + 次低幻觉率 10.9%」拿到最佳的细节-幻觉权衡(且是零样本,未适配该测试集的事件分布)。

caption-to-QA 级联评测(音频 / 全模态,均用 GPT-4o 作 QA 后端):

模型 MMAU MMAR Video-MME Video-Holmes WorldSense Daily-Omni
Gemini 2.5 Flash 65.6 58.2 69.1 52.8 44.6 59.5
Gemini 2.5 Pro 70.0 64.1 75.0 59.9 53.6 73.6
Qwen2.5-Omni-7B 65.2 51.8 52.7 35.7 30.6 47.9
video-SALMONN 2-7B 65.9 42.9 44.1 59.7
Audio/Omni-Captioner-7B 70.0 59.8 67.1 48.8 48.2 67.9

Audio-Captioner 在 MMAU 上达 70.0,追平最强专有模型 Gemini 2.5 Pro 并大幅领先所有开源基线;Omni-Captioner 在四个音视频基准上均为开源最高分。

消融实验

Omni-Cloze 主结果(全模态模型)+ Omni-Detective 直接套到 Gemini 2.5 Pro 上的级联消融:

配置 关键指标 说明
Audio-Captioner-7B Omni-Cloze 53.2% 音频开源最高,超 Gemini 2.5 Pro(48.0%)5.2 个点
Omni-Captioner-7B Omni-Cloze 56.4%(V 57.0 / A 54.5 / AV 62.1) 全模态总分 SOTA,超 Gemini 2.5 Pro(43.6%)
Gemini 2.5 Pro(原始) MMAR 64.1 / Video-MME 75.0 基线
Gemini 2.5 Pro + Omni-Detective MMAR 68.3 / Video-MME 76.1 数据管线直接套到强专有模型上也能涨

关键发现

  • Omni-Detective 的取证步数越多、细节越全幻觉越少,但幻觉有天花板:detail rate 随步数稳步上升,not-given 与 hallucination 双降;但 hallucination 约在第 5–6 步收敛,说明现有多模态工具对错误声明的修正能力存在固有上限。
  • 数据管线是「即插即用」的:把 Omni-Detective 直接套在 Gemini 2.5 Pro 上做 caption-to-QA,MMAR +4.2、Video-MME +1.1,说明增益来自数据生成范式本身而非特定骨干。
  • Omni-Cloze 与人类偏好对齐最好:cloze 准确率与人类 Elo 评分相关性 \(r=0.91\),高于 VDC(0.86)和 SALMONN2(0.83),且每条描述只需 1 次 LLM 调用(VDC 需 38 次)。
  • 去掉文本提示反而更好:训练时移除输入文本 prompt 提升了描述性能,是一个反直觉但实用的工程发现。

亮点与洞察

  • 把「数据生成」做成 agentic 取证循环:用 LLM agent + 工具调用 + 独立观察者多轮交叉核验,让细节增益来自有据可查的取证而非自由发挥,这是从根上解耦「细节 vs 幻觉」的巧思,比单纯堆 prompt 或做 DPO 后处理更治本。
  • 「Not Given」选项把误差拆成可解释两类:单这一个设计就让评测能把「漏掉」和「编造」分开度量,而不是混成一个模糊的错误率,对诊断模型很有价值,可迁移到任何要区分 omission/hallucination 的评测。
  • 完形填空把开放评分降维成单次选择题:从 \(2k\) 次 LLM 调用降到 1 次、还更对齐人类偏好,这个「用 cloze 代替多轮 QA」的思路可直接迁移到其他长文本/详细描述类任务的评测。
  • 课程式冻结-解冻对抗模态不对称:先冻视觉逼模型啃音频、再联合解冻,是处理「强模态碾压弱模态」的通用配方,可迁移到任何信息密度不对称的多模态训练。

局限与展望

  • 幻觉天花板未突破:作者自己承认 hallucination rate 在第 5–6 步就收敛,现有多模态工具对某些被错误分类的细节无能为力,延长取证也修不动——管线把前沿外推了但没消灭幻觉。
  • 数据生成成本:多轮 agentic 取证、反复调用 OCR/ASR/MLLM 的开销远高于单次 prompt,论文未详述大规模生成的算力/时间成本与扩展性边界。
  • 级联推理的固有短板:caption-to-QA 级联对某些题型(如精确计数)天然弱于端到端 QA 模型,详细描述质量再高也补不齐这类能力。
  • 与专有模型仍有绝对差距:Omni-Captioner 大幅缩小了与 Gemini 2.5 Pro 的差距,但在 Video-MME 等基准上绝对分仍落后,7B 规模的容量上限可能是瓶颈。

相关工作与启发

  • vs AuroraCap / VDC:AuroraCap 最早探索视频详细描述、VDC 提出基于多短问答的评测,但二者都偏视觉中心、且 VDC 评测需 \(2k\) 次 LLM 调用;本文把模态扩到音频+音视频,并用 cloze 把评测压到 1 次调用、相关性还更高。
  • vs video-SALMONN 2:SALMONN 2 用多轮 DPO 偏好优化来增强音视频详细描述/问答,是「后训练对齐」路线;本文走的是「前置数据生成」路线——用 agentic 取证从源头产出低幻觉数据,在 SALMONN2 自家测试集上拿到更好的细节-幻觉权衡。
  • vs 依赖人工 prompt 的数据收集:多数前作靠人工设计 prompt 采集训练数据,在描述精度与数据规模之间存在固有 trade-off;Omni-Detective 用自动化 agent 取证打破这个 trade-off,可在保持低幻觉的同时扩规模。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 「侦探式 agentic 数据生成 + cloze 评测 + Not Given 拆解误差」三件套都很有原创性,且系统性覆盖数据/模型/基准。
  • 实验充分度: ⭐⭐⭐⭐⭐ 跨 VDC/MMAU/MMAR/Video-MME/Omni-Cloze 等近十个基准、含步数趋势分析与人类 Elo 对齐,论证扎实。
  • 写作质量: ⭐⭐⭐⭐ 「co-growth」与「侦探」类比讲得清晰生动,图表完整;部分附录细节(超参、数据统计)需翻 appendix。
  • 价值: ⭐⭐⭐⭐⭐ 数据管线、模型、基准全开源,且管线可即插即用提升其他强模型,对全模态详细感知社区有直接推动价值。