跳转至

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://omni2sound.github.io
领域: 扩散模型 / 音频生成 / 多模态VLM
关键词: 统一音频生成、视频-文本-到-音频、扩散 Transformer、数据集构建、多任务训练

一句话总结

本文要训练一个单一模型同时干好 video-to-audio(V2A)、text-to-audio(T2A)和 video-text-to-audio(VT2A)三件事,但卡在"高质量 V-A-T 对齐字幕稀缺"和"任务间/任务内相互竞争"两道坎上;为此先用一条智能体标注流水线造出 47 万对紧对齐字幕数据集 SoundAtlas,再配一个解耦双分支 DiT + 三阶段渐进训练的 Omni2Sound 模型,最终用一个标准 DiT 骨干在三项任务上全部刷到 SOTA。

研究背景与动机

领域现状:音频生成正从单模态条件走向统一框架。T2A 语义保真强但缺乏密集时序控制;V2A 时序同步好但在复杂场景推理弱、容易生成不该有的音乐/人声;VT2A 同时吃视频和文本,语义和时序都好,但强依赖两路输入同时在场,缺一路(只有视频或只有文本)就急剧退化。把三者塞进一个原生支持 VT2A/V2A/T2A 的统一模型,是顺应 AIGC 趋势、省掉多套专用模型来回切换的自然选择。

现有痛点:作者指出统一 VT2A 框架有两个被忽视的根本难题。其一是高质量字幕稀缺——多数工作直接拿"只听音频生成的字幕"去配视频,造成训练数据里视觉内容和(纯音频)文本字幕语义打架(图 1:远处烟花 vs 网球击球、汽车引擎 vs 电钻,音频本身就有歧义,再叠加早期音频语言模型的幻觉,错配雪上加霜),实测会导致收敛不稳、音频保真度大幅下降。其二是任务竞争:跨任务上 V2A 与 T2A 存在零和权衡(偏向一个就拖累另一个);任务内 VT2A 自身存在模态偏置(偏文本→音视频不同步,偏视频→画外音文本保真差)。

核心矛盾:统一模型想"既要又要",但数据质量不够 + 任务间天然异质,使联合训练退化成此消彼长。

本文目标:(1) 造出 V-A-T 紧对齐的大规模字幕数据;(2) 设计一个能把竞争转成协作、并抑制模态偏置的统一模型与训练方案。

切入角度:作者的关键观察是——视觉应当被当成"上下文约束"而非"主输入",并且高质量的 VT2A 数据可以充当连接异质视频/文本特征空间的"语义桥",把零和竞争掰成协作。

核心 idea:用一条"先把视频压成文本约束、再由初/高级智能体接力生成、最后多重过滤"的流水线造高对齐字幕,配合"先 T2A 预训练→多任务交错→鲁棒性训练"的三阶段课程,让单个 DiT 统一三项任务。

方法详解

整体框架

方法由两大块串成:先是SoundAtlas 数据构建——给 VGGSound/AudioSet 的原始视频音频打上人类专家级、V-A-T 紧对齐的字幕(470k 对);再是 Omni2Sound 模型——一个标准 DiT 骨干,用解耦双分支注入多模态条件,并按三阶段渐进课程训练,最终支持灵活的 T2A / V2A / VT2A 生成。整条链路里,数据管线解决"字幕脏"的问题,解耦架构解决"如何同时管语义和时序、还能缺模态降级"的问题,三阶段训练解决"任务间/任务内竞争"的问题。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["原始视频 + 音频<br/>(VGGSound / AudioSet)"] --> SG
    subgraph SG["SoundAtlas 智能体数据管线"]
    direction TB
    B["A-V 一致性路由<br/>ImageBind 分流三路"] --> C["视觉转文本压缩<br/>Qwen2.5-VL 把视频压成文本约束"]
    C --> D["初级-高级智能体接力<br/>Flash 初稿 → Pro 精修, 省 5× 成本"]
    D --> E["事后过滤校验<br/>CLAP + A-V-T 验证"]
    end
    SG --> F["SoundAtlas 47 万对<br/>V-A-T 紧对齐字幕"]
    F --> G["解耦双分支 DiT<br/>语义分支 + 时序分支"]
    G --> H["三阶段渐进训练<br/>T2A 预训练 → 多任务交错 → 鲁棒性训练"]
    H --> I["统一 T2A / V2A / VT2A 生成"]

关键设计

1. SoundAtlas 智能体数据管线:把视频当约束而非主输入,造高对齐字幕还省成本

针对"纯音频字幕 V-T 打架、原生多模态模型又贵又有视觉偏置"的痛点,作者设计了一条四步流水线。第一步 A-V 一致性路由:用 ImageBind 对齐分数 \(s_{ib}\) 把样本分三路——\(s_{ib}>0.30\) 进"音视频增强路"(视觉可信,用来增强),\(0.20\le s_{ib}\le 0.30\) 进"纯音频路"(视觉是干扰,弃用视觉防幻觉),\(s_{ib}<0.20\) 直接丢弃。第二步 视觉转文本压缩(核心洞察):对增强路样本,用 Qwen2.5-VL 只看视频(不看音频)生成文本表示 \(c_v = \mathrm{Qwen}(V)\),把昂贵的原始视频输入换成廉价的"文本-音频"提示,既降成本又因为只给语义上下文(如"一男一女站着")而非原始视觉流,移除了直接的视觉偏置。第三步 初级-高级智能体接力:每个样本先交给初级智能体 \(G_{junior}\)(Gemini 2.5 Flash),它吃音频 \(A\) 和可选视觉上下文 \(c_v\) 产出字幕 \(c_a\);只有当字幕触发复杂度标准、含高频幻觉短语、或 \(\mathrm{CLAP}(c_a, A)<\tau_{clap}\)(一般音频 \(\tau_{clap}=0.35\)、音乐 \(0.15\))时才升级给高级智能体 \(G_{senior}\)(Gemini 2.5 Pro,推理输出限 128 token 控成本),整体省下约 成本。第四步 事后过滤校验:先用 CLAP(T-A) 滤掉文本-音频不忠实的字幕,再对增强路样本用 A-V-T 验证器检查字幕是否与视觉上下文 \(c_v\) 在声学上自洽。这条管线的语义/时序对齐质量甚至超过人类专家标注。

2. 解耦双分支 DiT:把"是什么"和"什么时候"拆开,天然支持缺模态降级

为了既保证语义又保证时序、还要能只给一路输入就生成,作者用标准 DiT 骨干(条件来自预训练音频 VAE 的隐特征),把多模态条件解耦成两条分支语义分支(What)负责全局语义:把 Flan-T5 的文本嵌入 \(F_t\) 和 CLIP 的视觉特征 \(F_v\)(8 fps 采样)沿时间维拼接,经 cross-attention 注入——这种拼接式注入的妙处在于,想做单模态生成(V2A 或 T2A)只需省掉缺席的那一路、无需任何 padding 约束,灵活性天然。时序分支(When)负责细粒度同步:用 Synchformer 抽取密集视觉时序特征 \(F_s\),经 AdaLN 全局注入。这套解耦设计同时拿到了"多条件框架的灵活可扩展"和"接近 MM-DiT 的精确时序对齐"两个好处。

3. 三阶段渐进训练:把跨任务竞争掰成协作,再单独治模态偏置

朴素联合训练会同时撞上跨任务和任务内两种竞争,作者拆成三阶段。阶段一·大规模 T2A 预训练:先在大规模文本-音频对上用标准 L2 去噪损失 \(L = \mathbb{E}_{t,z_t,\epsilon}\lVert \epsilon - \epsilon_\theta(z_t, t, H_c)\rVert^2\) 学一个稳健的生成先验,这样后续阶段只需极少量高质量 T2A 重放就能防遗忘。阶段二·多任务交错训练:每步只从分类分布 \(\mathrm{Cat}(\pi)\) 采样单一任务 \(s\in\{V2A, T2A, VT2A\}\) 并只用该任务数据做一次梯度更新(避免 batch 内损失混合),核心是让高对齐的 VT2A 数据当"语义桥",把 V2A↔T2A 的零和竞争转成协同优化,此时 T2A 采样率压到 \(\pi_{T2A}=0.1\) 也不灾难性遗忘。阶段三·鲁棒性训练(解耦在阶段二之后):用两个互补增强治模态偏置——Text Dropout 随机丢文本 token,逼模型多看视觉、增强音视频同步;Off-screen Synthesis 掺入画外音样本并在文本里描述它们,造出"音频内容不在画面里"的训练对,逼模型重视文本、提升画外音的文本保真。作者强调这一阶段必须放在阶段二收敛之后,提前引入会破坏多任务优化的稳定性。

实验关键数据

字幕质量(数据侧)

SoundAtlas 在语义保真(CLAP 分数)和质量胜率上全面领先已有自动管线乃至人类专家:

数据管线 AudioSet LA-CLAP↑ VGGSound LA-CLAP↑ MLLM 评判 MWR-S↑
AudioSetCaps 0.330 0.351
Auto-ACD 0.396 0.409 0.39
Human-Expert (AudioCaps) 0.36
SoundAtlas (本文) 0.447 0.461 0.75

SoundAtlas 的语义对齐胜率 0.75,远超最强基线 Auto-ACD(0.39)和人类专家标注(0.36)。

主实验

在自建 VGGSound-Omni 基准上,单个 Omni2Sound 在三项任务上全部 SOTA(FAD/FD 越低越好,IB/CLAP 越高越好;DS=去同步分越低越好):

任务 方法 FAD↓ FD↓ DS↓ IB↑ CLAP↑
T2A MMAudio 1.63 8.62 0.50
T2A Omni2Sound 1.01 4.61 0.53
V2A MMAudio 0.81 5.65 0.48 0.28 0.43
V2A Omni2Sound 0.51 3.41 0.47 0.35 0.44
VT2A MMAudio 0.91 5.28 0.49 0.29 0.49
VT2A Omni2Sound 0.53 2.95 0.49 0.34 0.52

对照基线既有统一模型(AudioX、MMAudio)也有专用模型(ThinkSound、HunyuanVideo-Foley)。即便换成第三方 Video-LLaMA 风格字幕,Omni2Sound 仍超过所有基线,说明对未见字幕风格鲁棒;在 Kling-Audio-Eval、AudioCaps 等第三方基准上也保持竞争力(在 AudioCaps 上 KL/FD/CLAP 取得最佳)。

消融实验

配置 关键结果 说明
TA+VA, \(\pi_{T2A}\) 0.20→0.40 T2A FAD 1.36→1.06,但 V2A FAD 0.56→0.62 朴素联合训练的 V2A-T2A 零和权衡
+ SoundAtlas VTA*(语义桥) T2A FAD 0.94 / V2A FD 3.61 / VT2A FD 2.83 高对齐 VTA 数据解竞争,三任务同时最佳
换成低质 TA/VTA 数据 T2A FAD 1.13(明显更差) 证明是"数据质量"而非"任务存在"在起作用
仅 S2 VT2A FAD 0.63 / FD 4.40 无预训练
S1→S2 VT2A FAD 0.53 / FD 2.83 加预训练大幅提升
S1→[S2+S3](提前融合) V2A FD 3.81,劣于完整版 鲁棒性增强不能提前引入
S1→S2→S3(完整) V2A FAD 0.51 / FD 3.41 / IB 0.35 三阶段最优

关键发现

  • 桥效应取决于数据质量:同样引入 VT2A 任务,用 SoundAtlas(高对齐)能把 V2A-T2A 竞争解掉、三任务齐升;换成纯音频字幕的低质 VTA 数据则照样退化,证明"是高保真对齐的桥数据、而非 VT2A 任务本身"在起作用。
  • 三阶段顺序不可乱:把鲁棒性增强(S3)提前和多任务训练(S2)混在一起(S1→[S2+S3])会扰乱优化、指标变差;必须等 S2 收敛后再单独做 S3。
  • 预训练带来数据效率:阶段一的 T2A 先验让后续 T2A 采样率可压到 0.1 仍不遗忘,缓解了资源争抢。

亮点与洞察

  • "视觉当约束而非主输入"是反直觉但很管用的洞察:把视频先用 VLM 压成文本上下文,既砍掉昂贵的原始视频推理成本,又顺手去掉了原生多模态模型的视觉偏置幻觉——一个动作解两个问题。
  • VT2A 数据作"语义桥"把零和竞争掰成协作:这是全文最漂亮的训练观点,且用消融(高质 vs 低质桥数据)干净地证明了"质量才是关键",比单纯堆数据量更有说服力。
  • 解耦双分支 + 拼接式条件注入实现"缺模态自动降级":单模态生成只需省掉缺席分支、无需 padding,这套设计可迁移到任何"想用一个模型支持多种输入组合"的多模态生成任务。

局限与展望

  • 依赖强闭源模型搭管线:数据构建重度依赖 Gemini 2.5 Flash/Pro 和 Qwen2.5-VL,复现成本与可得性受限;CLAP/路由阈值(0.20/0.30/0.35/0.15)多为经验设定。
  • 域差距下并非全面最优:在 Kling-Audio-Eval 上部分指标落后 HunyuanVideo-Foley,作者归因于后者 100k 小时 vs 本文 2k 小时的数据量优势,说明在专业视频域上仍有差距。
  • 画外音/非时间对齐场景仍是难点:模态偏置要靠专门的鲁棒性阶段才压得住,提示统一框架在强非对称输入下仍脆弱;⚠️ 部分阈值与流程细节以原文附录为准。
  • 改进方向:减少对闭源标注模型的依赖、把路由/过滤阈值学习化、进一步扩大训练数据规模以缩小与超大数据模型的差距。

相关工作与启发

  • vs MMAudio: MMAudio 首个整合 V2A+T2A 但本质 V2A 为中心、把 T-A 对仅当增强;本文把 T2A 当对等任务,并用三阶段训练正面化解跨任务竞争。
  • vs AudioX / AudioGenOmni: 它们扩展了模态组合但靠暴力堆数据(AudioX 超 900 万样本)、忽视任务竞争;本文用高对齐桥数据 + 课程训练,用更标准的 DiT 骨干拿到统一 SOTA。
  • vs UniFlow-Audio: UniFlow 首次系统分析任务竞争,但只粗分时间对齐/非时间对齐两类、未深入 V2A vs T2A 的细粒度竞争,也没碰 VT2A 联合生成;本文补上了这块空白。
  • vs Auto-ACD / Sound-VECaps(视觉增强字幕): 它们用"先单模态抽取再融合"的分离式设计,LLM 在有损文本上工作导致幻觉累积;本文用端到端音频 + 压缩视觉上下文,从源头减少幻觉。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "视觉当约束""VT2A 数据当语义桥"两个洞察新颖,数据管线与训练课程设计巧妙。
  • 实验充分度: ⭐⭐⭐⭐⭐ 自建基准 + 三方基准 + 主客观评测,消融干净地证明了数据质量与阶段顺序的因果。
  • 写作质量: ⭐⭐⭐⭐ 难题→数据→模型→训练逻辑清晰,但符号与流程细节较多、需对照附录。
  • 价值: ⭐⭐⭐⭐⭐ 单模型统一三任务 SOTA,数据集与基准对社区有持续价值。