Omni2Sound: Towards Unified Video-Text-to-Audio Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://omni2sound.github.io
领域: 扩散模型 / 音频生成 / 多模态VLM
关键词: 统一音频生成、视频-文本-到-音频、扩散 Transformer、数据集构建、多任务训练

一句话总结¶

本文要训练一个单一模型同时干好 video-to-audio（V2A）、text-to-audio（T2A）和 video-text-to-audio（VT2A）三件事，但卡在"高质量 V-A-T 对齐字幕稀缺"和"任务间/任务内相互竞争"两道坎上；为此先用一条智能体标注流水线造出 47 万对紧对齐字幕数据集 SoundAtlas，再配一个解耦双分支 DiT + 三阶段渐进训练的 Omni2Sound 模型，最终用一个标准 DiT 骨干在三项任务上全部刷到 SOTA。

研究背景与动机¶

领域现状：音频生成正从单模态条件走向统一框架。T2A 语义保真强但缺乏密集时序控制；V2A 时序同步好但在复杂场景推理弱、容易生成不该有的音乐/人声；VT2A 同时吃视频和文本，语义和时序都好，但强依赖两路输入同时在场，缺一路（只有视频或只有文本）就急剧退化。把三者塞进一个原生支持 VT2A/V2A/T2A 的统一模型，是顺应 AIGC 趋势、省掉多套专用模型来回切换的自然选择。

现有痛点：作者指出统一 VT2A 框架有两个被忽视的根本难题。其一是高质量字幕稀缺——多数工作直接拿"只听音频生成的字幕"去配视频，造成训练数据里视觉内容和（纯音频）文本字幕语义打架（图 1：远处烟花 vs 网球击球、汽车引擎 vs 电钻，音频本身就有歧义，再叠加早期音频语言模型的幻觉，错配雪上加霜），实测会导致收敛不稳、音频保真度大幅下降。其二是任务竞争：跨任务上 V2A 与 T2A 存在零和权衡（偏向一个就拖累另一个）；任务内 VT2A 自身存在模态偏置（偏文本→音视频不同步，偏视频→画外音文本保真差）。

核心矛盾：统一模型想"既要又要"，但数据质量不够 + 任务间天然异质，使联合训练退化成此消彼长。

本文目标：(1) 造出 V-A-T 紧对齐的大规模字幕数据；(2) 设计一个能把竞争转成协作、并抑制模态偏置的统一模型与训练方案。

切入角度：作者的关键观察是——视觉应当被当成"上下文约束"而非"主输入"，并且高质量的 VT2A 数据可以充当连接异质视频/文本特征空间的"语义桥"，把零和竞争掰成协作。

核心 idea：用一条"先把视频压成文本约束、再由初/高级智能体接力生成、最后多重过滤"的流水线造高对齐字幕，配合"先 T2A 预训练→多任务交错→鲁棒性训练"的三阶段课程，让单个 DiT 统一三项任务。

方法详解¶

整体框架¶

方法由两大块串成：先是SoundAtlas 数据构建——给 VGGSound/AudioSet 的原始视频音频打上人类专家级、V-A-T 紧对齐的字幕（470k 对）；再是 Omni2Sound 模型——一个标准 DiT 骨干，用解耦双分支注入多模态条件，并按三阶段渐进课程训练，最终支持灵活的 T2A / V2A / VT2A 生成。整条链路里，数据管线解决"字幕脏"的问题，解耦架构解决"如何同时管语义和时序、还能缺模态降级"的问题，三阶段训练解决"任务间/任务内竞争"的问题。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["原始视频 + 音频<br/>(VGGSound / AudioSet)"] --> SG
    subgraph SG["SoundAtlas 智能体数据管线"]
    direction TB
    B["A-V 一致性路由<br/>ImageBind 分流三路"] --> C["视觉转文本压缩<br/>Qwen2.5-VL 把视频压成文本约束"]
    C --> D["初级-高级智能体接力<br/>Flash 初稿 → Pro 精修, 省 5× 成本"]
    D --> E["事后过滤校验<br/>CLAP + A-V-T 验证"]
    end
    SG --> F["SoundAtlas 47 万对<br/>V-A-T 紧对齐字幕"]
    F --> G["解耦双分支 DiT<br/>语义分支 + 时序分支"]
    G --> H["三阶段渐进训练<br/>T2A 预训练 → 多任务交错 → 鲁棒性训练"]
    H --> I["统一 T2A / V2A / VT2A 生成"]

关键设计¶

1. SoundAtlas 智能体数据管线：把视频当约束而非主输入，造高对齐字幕还省成本

针对"纯音频字幕 V-T 打架、原生多模态模型又贵又有视觉偏置"的痛点，作者设计了一条四步流水线。第一步 A-V 一致性路由：用 ImageBind 对齐分数 \(s_{ib}\) 把样本分三路——\(s_{ib}>0.30\) 进"音视频增强路"（视觉可信，用来增强），\(0.20\le s_{ib}\le 0.30\) 进"纯音频路"（视觉是干扰，弃用视觉防幻觉），\(s_{ib}<0.20\) 直接丢弃。第二步 视觉转文本压缩（核心洞察）：对增强路样本，用 Qwen2.5-VL 只看视频（不看音频）生成文本表示 \(c_v = \mathrm{Qwen}(V)\)，把昂贵的原始视频输入换成廉价的"文本-音频"提示，既降成本又因为只给语义上下文（如"一男一女站着"）而非原始视觉流，移除了直接的视觉偏置。第三步 初级-高级智能体接力：每个样本先交给初级智能体 \(G_{junior}\)（Gemini 2.5 Flash），它吃音频 \(A\) 和可选视觉上下文 \(c_v\) 产出字幕 \(c_a\)；只有当字幕触发复杂度标准、含高频幻觉短语、或 \(\mathrm{CLAP}(c_a, A)<\tau_{clap}\)（一般音频 \(\tau_{clap}=0.35\)、音乐 \(0.15\)）时才升级给高级智能体 \(G_{senior}\)（Gemini 2.5 Pro，推理输出限 128 token 控成本），整体省下约 5× 成本。第四步 事后过滤校验：先用 CLAP(T-A) 滤掉文本-音频不忠实的字幕，再对增强路样本用 A-V-T 验证器检查字幕是否与视觉上下文 \(c_v\) 在声学上自洽。这条管线的语义/时序对齐质量甚至超过人类专家标注。

2. 解耦双分支 DiT：把"是什么"和"什么时候"拆开，天然支持缺模态降级

为了既保证语义又保证时序、还要能只给一路输入就生成，作者用标准 DiT 骨干（条件来自预训练音频 VAE 的隐特征），把多模态条件解耦成两条分支。语义分支（What）负责全局语义：把 Flan-T5 的文本嵌入 \(F_t\) 和 CLIP 的视觉特征 \(F_v\)（8 fps 采样）沿时间维拼接，经 cross-attention 注入——这种拼接式注入的妙处在于，想做单模态生成（V2A 或 T2A）只需省掉缺席的那一路、无需任何 padding 约束，灵活性天然。时序分支（When）负责细粒度同步：用 Synchformer 抽取密集视觉时序特征 \(F_s\)，经 AdaLN 全局注入。这套解耦设计同时拿到了"多条件框架的灵活可扩展"和"接近 MM-DiT 的精确时序对齐"两个好处。

3. 三阶段渐进训练：把跨任务竞争掰成协作，再单独治模态偏置

朴素联合训练会同时撞上跨任务和任务内两种竞争，作者拆成三阶段。阶段一·大规模 T2A 预训练：先在大规模文本-音频对上用标准 L2 去噪损失 \(L = \mathbb{E}_{t,z_t,\epsilon}\lVert \epsilon - \epsilon_\theta(z_t, t, H_c)\rVert^2\) 学一个稳健的生成先验，这样后续阶段只需极少量高质量 T2A 重放就能防遗忘。阶段二·多任务交错训练：每步只从分类分布 \(\mathrm{Cat}(\pi)\) 采样单一任务 \(s\in\{V2A, T2A, VT2A\}\) 并只用该任务数据做一次梯度更新（避免 batch 内损失混合），核心是让高对齐的 VT2A 数据当"语义桥"，把 V2A↔T2A 的零和竞争转成协同优化，此时 T2A 采样率压到 \(\pi_{T2A}=0.1\) 也不灾难性遗忘。阶段三·鲁棒性训练（解耦在阶段二之后）：用两个互补增强治模态偏置——Text Dropout 随机丢文本 token，逼模型多看视觉、增强音视频同步；Off-screen Synthesis 掺入画外音样本并在文本里描述它们，造出"音频内容不在画面里"的训练对，逼模型重视文本、提升画外音的文本保真。作者强调这一阶段必须放在阶段二收敛之后，提前引入会破坏多任务优化的稳定性。

实验关键数据¶

字幕质量（数据侧）¶

SoundAtlas 在语义保真（CLAP 分数）和质量胜率上全面领先已有自动管线乃至人类专家：

数据管线	AudioSet LA-CLAP↑	VGGSound LA-CLAP↑	MLLM 评判 MWR-S↑
AudioSetCaps	0.330	0.351	—
Auto-ACD	0.396	0.409	0.39
Human-Expert (AudioCaps)	—	—	0.36
SoundAtlas (本文)	0.447	0.461	0.75

SoundAtlas 的语义对齐胜率 0.75，远超最强基线 Auto-ACD（0.39）和人类专家标注（0.36）。

主实验¶

在自建 VGGSound-Omni 基准上，单个 Omni2Sound 在三项任务上全部 SOTA（FAD/FD 越低越好，IB/CLAP 越高越好；DS=去同步分越低越好）：

任务	方法	FAD↓	FD↓	DS↓	IB↑	CLAP↑
T2A	MMAudio	1.63	8.62	—	—	0.50
T2A	Omni2Sound	1.01	4.61	—	—	0.53
V2A	MMAudio	0.81	5.65	0.48	0.28	0.43
V2A	Omni2Sound	0.51	3.41	0.47	0.35	0.44
VT2A	MMAudio	0.91	5.28	0.49	0.29	0.49
VT2A	Omni2Sound	0.53	2.95	0.49	0.34	0.52

对照基线既有统一模型（AudioX、MMAudio）也有专用模型（ThinkSound、HunyuanVideo-Foley）。即便换成第三方 Video-LLaMA 风格字幕，Omni2Sound 仍超过所有基线，说明对未见字幕风格鲁棒；在 Kling-Audio-Eval、AudioCaps 等第三方基准上也保持竞争力（在 AudioCaps 上 KL/FD/CLAP 取得最佳）。

消融实验¶

配置	关键结果	说明
TA+VA, \(\pi_{T2A}\) 0.20→0.40	T2A FAD 1.36→1.06，但 V2A FAD 0.56→0.62	朴素联合训练的 V2A-T2A 零和权衡
*+ SoundAtlas VTA（语义桥）**	T2A FAD 0.94 / V2A FD 3.61 / VT2A FD 2.83	高对齐 VTA 数据解竞争，三任务同时最佳
换成低质 TA/VTA 数据	T2A FAD 1.13（明显更差）	证明是"数据质量"而非"任务存在"在起作用
仅 S2	VT2A FAD 0.63 / FD 4.40	无预训练
S1→S2	VT2A FAD 0.53 / FD 2.83	加预训练大幅提升
S1→[S2+S3]（提前融合）	V2A FD 3.81，劣于完整版	鲁棒性增强不能提前引入
S1→S2→S3（完整）	V2A FAD 0.51 / FD 3.41 / IB 0.35	三阶段最优

关键发现¶

桥效应取决于数据质量：同样引入 VT2A 任务，用 SoundAtlas（高对齐）能把 V2A-T2A 竞争解掉、三任务齐升；换成纯音频字幕的低质 VTA 数据则照样退化，证明"是高保真对齐的桥数据、而非 VT2A 任务本身"在起作用。
三阶段顺序不可乱：把鲁棒性增强（S3）提前和多任务训练（S2）混在一起（S1→[S2+S3]）会扰乱优化、指标变差；必须等 S2 收敛后再单独做 S3。
预训练带来数据效率：阶段一的 T2A 先验让后续 T2A 采样率可压到 0.1 仍不遗忘，缓解了资源争抢。

亮点与洞察¶

"视觉当约束而非主输入"是反直觉但很管用的洞察：把视频先用 VLM 压成文本上下文，既砍掉昂贵的原始视频推理成本，又顺手去掉了原生多模态模型的视觉偏置幻觉——一个动作解两个问题。
VT2A 数据作"语义桥"把零和竞争掰成协作：这是全文最漂亮的训练观点，且用消融（高质 vs 低质桥数据）干净地证明了"质量才是关键"，比单纯堆数据量更有说服力。
解耦双分支 + 拼接式条件注入实现"缺模态自动降级"：单模态生成只需省掉缺席分支、无需 padding，这套设计可迁移到任何"想用一个模型支持多种输入组合"的多模态生成任务。

局限与展望¶

依赖强闭源模型搭管线：数据构建重度依赖 Gemini 2.5 Flash/Pro 和 Qwen2.5-VL，复现成本与可得性受限；CLAP/路由阈值（0.20/0.30/0.35/0.15）多为经验设定。
域差距下并非全面最优：在 Kling-Audio-Eval 上部分指标落后 HunyuanVideo-Foley，作者归因于后者 100k 小时 vs 本文 2k 小时的数据量优势，说明在专业视频域上仍有差距。
画外音/非时间对齐场景仍是难点：模态偏置要靠专门的鲁棒性阶段才压得住，提示统一框架在强非对称输入下仍脆弱；⚠️ 部分阈值与流程细节以原文附录为准。
改进方向：减少对闭源标注模型的依赖、把路由/过滤阈值学习化、进一步扩大训练数据规模以缩小与超大数据模型的差距。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "视觉当约束""VT2A 数据当语义桥"两个洞察新颖，数据管线与训练课程设计巧妙。
实验充分度: ⭐⭐⭐⭐⭐ 自建基准 + 三方基准 + 主客观评测，消融干净地证明了数据质量与阶段顺序的因果。
写作质量: ⭐⭐⭐⭐ 难题→数据→模型→训练逻辑清晰，但符号与流程细节较多、需对照附录。
价值: ⭐⭐⭐⭐⭐ 单模型统一三任务 SOTA，数据集与基准对社区有持续价值。