AudioX: A Unified Framework for Anything-to-Audio Generation¶

会议: ICLR2026
OpenReview: qjJWxK3yWo
代码: https://zeyuet.github.io/AudioX/
领域: 音频生成 / 多模态扩散
关键词: 任意到音频生成, 多模态融合, 扩散 Transformer, 指令跟随, 数据构建

一句话总结¶

AudioX 用一个基于扩散 Transformer（DiT）的统一模型，配上一个轻量的「多模态自适应融合（MAF）」模块和 700 万条自建多模态数据 IF-caps，让单一权重就能从文本、视频、音频的任意组合生成高保真音效与音乐，并在细粒度指令跟随上大幅领先各路专才模型。

研究背景与动机¶

领域现状：音效与音乐生成近年随生成模型快速发展，已经在影视、游戏、社交媒体里有实用价值。但主流做法是「一任务一模型」——文本到音频、视频到音频各自为政，输出也往往锁定在音效或音乐其中一类。

现有痛点：少数尝试统一的工作虽然能吃多种输入，却普遍缺乏对「任意模态组合」的灵活支持，指令跟随能力也很弱（比如要求「先有脚步声、再有关门声」这种次序/计数控制时基本做不到）。

核心矛盾：作者把根因归到数据上——能训练统一模型的高质量多模态数据极度稀缺。现有数据集大多是任务专用、只对单一条件模态有监督（要么只有文本-音频对，要么只有视频-音乐对），既不「多模态」也不「可组合」，统一模型根本喂不饱。

本文目标：拆成两个子问题——(1) 设计一个能同时容纳文本/视频/音频条件、并把它们干净融合的统一建模框架；(2) 造出大规模、细粒度、可组合的多模态监督数据。

切入角度：作者观察到 Transformer 擅长跨模态对齐、而扩散模型（尤其 DiT）在音频保真度上压过自回归 next-token 预测，于是把两者结合：用 DiT 当生成骨干，再在条件侧加一个专门负责「挑出有用信号、压住跨模态噪声」的融合模块。

核心 idea：「统一骨干 + 自适应融合 + 高质量多模态数据」三件套——用一套 DiT 权重覆盖 anything-to-audio，用 MAF 模块解决多模态相互干扰，用两阶段标注管线批量造数据。

方法详解¶

整体框架¶

AudioX 的输入是视频 \(X_v\)、文本 \(X_t\)、音频 \(X_a\) 的任意子集（缺哪个模态就补零或补默认文本），输出是与条件对齐的高保真音频/音乐波形。整条链路是：三路条件各自过专用编码器并做时序建模，得到模态嵌入 \(H_v, H_t, H_a\)；这些嵌入送进 MAF 模块做自适应融合，拼成统一条件嵌入 \(H_c\)；\(H_c\) 连同扩散时间步 \(t\) 一起，通过交叉注意力去引导 DiT 骨干在隐空间里去噪生成。训练这套统一模型所需的多模态监督，全部来自自建的 IF-caps 数据集（700 万条），它由一条两阶段标注管线离线造好后喂给 DiT。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>视频 / 文本 / 音频<br/>任意组合"] --> C["多模态专用编码<br/>与时序建模"]
    B["IF-caps 两阶段<br/>数据构建管线"] -->|训练监督| E["DiT 扩散骨干<br/>统一条件生成"]
    C --> D["MAF 多模态<br/>自适应融合"]
    D -->|"统一条件嵌入 Hc"| E
    E --> F["音频 / 音乐输出"]

关键设计¶

1. IF-caps 两阶段数据构建：用强弱模型分工解决统一训练的数据稀缺

统一模型最大的瓶颈是数据——现有数据集要么标签粗（只有类别 label）、要么单模态，喂不出「能听懂复杂指令」的模型。作者设计了一条针对已有视频数据集的标注管线：先用强多模态 LLM（Gemini 2.5 Pro）处理每个 10 秒视频-音频片段，产出一个整体 caption 加一组结构化字段（通用音频标注「声音事件类别 + 计数」，音乐标注「曲风 + 乐器 + 节奏」等）。但全量都用 Gemini 太贵，于是第二阶段改用开源的 Qwen2-Audio：以「初始标注 + 原始音频」为条件批量扩写出更多样的 caption，在控制成本的同时把数据多样性拉上来。最终得到约 130 万条视频-音频片段和 570 万条视频-音乐片段的细粒度标注。这种「强模型打底、弱模型放量」的分工，本质是把质量和成本解耦，让 700 万级的细粒度监督在可承受预算内变得可行。

2. 多模态专用编码与时序建模：把异构条件对齐到同一表示空间

文本、视频、音频天然异构，直接拼进骨干会让模型学不动。AudioX 给每个模态配专用编码器：视频用 CLIP-ViT-B/32 抽帧级语义特征（5 fps）、再用 Synchformer 抽同步特征（25 fps），两者相加；文本用 T5-base 编码；音频用一个音频自编码器编解码。视频和音频特征还会过一个时序 Transformer 捕捉时间动态，最后经投影头映射成同维的模态嵌入 \(H_v, H_t, H_a\)。当某个模态缺失时，视频/音频用零填充、文本用自然语言模板替代（如视频到音乐任务里填「Generate music for the video.」），这套「缺啥补啥」的处理让同一模型能无缝吃任意模态组合，是统一框架能成立的工程基础。

3. MAF 多模态自适应融合：门控 + 专家 query + 自注意力压住跨模态干扰

这是全文的核心模块，专治「不同模态信号互相打架」。MAF 的流程是：先让每个模态的初始嵌入各过一个门控（gate），过滤并重加权、压低噪声只留最有信息量的线索；接着把门控后的嵌入拼接，由一组可学习 query 通过交叉注意力来「问询」——这些 query 被分成三套模态专属集合，像专家一样分别评估并聚合各数据流的证据；然后一层自注意力把聚合到的上下文做整合，再把精炼后的信息以残差方式回写到各模态路径，得到校准过的模态输出，最后拼成统一条件嵌入：

\[\tilde{H}_v, \tilde{H}_t, \tilde{H}_a = \mathrm{MAF}(H_v, H_t, H_a), \qquad H_c = \mathrm{Concat}\left(\tilde{H}_v, \tilde{H}_t, \tilde{H}_a\right).\]

关键是它很轻——在 2.4B 总参数（1.1B 可训练）里 MAF 只占 60M。消融显示去掉整个 MAF 掉点最狠，单独去掉门控或 query 都会下滑，说明「先门控降噪、再用专家 query 跨模态聚合、最后残差校准」这套设计对减少干扰、提升指令跟随确实是必要的，而不是堆参数。

4. DiT 扩散骨干的统一条件生成：一套权重覆盖任意到音频任务

拿到统一条件嵌入 \(H_c\) 后，生成交给 DiT 骨干（24 层，初始化自 Stable Audio Open 的预训练权重）。它在隐空间里做标准的去噪扩散：先把真值音频 \(A\) 用编码器投到隐表示 \(z = E(A)\)，前向过程按马尔可夫链逐步加噪 \(q(z_t|z_{t-1}) = \mathcal{N}(z_t; \sqrt{1-\beta_t}\,z_{t-1}, \beta_t I)\)；反向训练一个网络 \(\epsilon_\theta\) 在每个时间步预测噪声，条件是 \(z_t\)、时间步 \(t\) 和 \(H_c\)，目标就是最小化噪声估计误差：

\[\min_\theta \ \mathbb{E}_{t, z_t, \epsilon}\ \left\| \epsilon - \epsilon_\theta(z_t, t, H_c) \right\|_2^2.\]

正因为所有任务（T2A、V2A、TV2A、T2M、V2M、TV2M、音频补全、音乐续写）都被统一成「给定 \(H_c\) 的条件去噪」，同一套 DiT 权重才能覆盖任意到音频的全谱任务。音频补全时 \(X_a\) 是被遮挡的真值、模型去填空；音乐续写时 \(X_a\) 是前段、模型续后段——都靠改变条件而非换模型来实现。

损失函数 / 训练策略¶

训练目标即上面的噪声预测 MSE。优化用 AdamW，基础学习率 1e-5、权重衰减 0.001，配指数式 ramp-up/decay 调度，并维护权重 EMA 稳定推理。在 3 个集群的 NVIDIA H800（80GB）上训练，约 4k GPU 小时，batch size 48。推理用 250 步、classifier-free guidance 系数 7.0。

实验关键数据¶

主实验¶

单一 AudioX 在多任务多数据集上对比各专才 SOTA（节选 Table 1，IS 越高越好，FAD/FD/KL 越低越好）：

数据集	任务	方法	IS ↑	FAD ↓	FD ↓
VGGSound	T2A	MMAudio	17.83	2.50	11.52
VGGSound	T2A	AudioX	19.58	1.33	9.01
MusicCaps	T2M	TangoMusic	2.86	1.88	15.00
MusicCaps	T2M	AudioX	3.55	1.53	9.76
AudioCaps	T2A	Tango 2	10.37	3.20	12.22
AudioCaps	T2A	AudioX	12.48	1.59	11.51

文本到音频、文本到音乐上 AudioX 拿下 SOTA（VGGSound 上优势尤其明显）；视频到音频在 VGGSound 和域外的 AVVP 上与最强基线 MMAudio 相当，证明泛化能力不错。

指令跟随对比（Table 2，T2A-bench 的 Cat/Cnt/Ord/TS-acc 越高越好，AudioTime 的 Ordering 越低越好）：

方法	Cat-acc ↑	Cnt-acc ↑	Ord-acc ↑	TS-acc ↑	AudioTime Ordering ↓
Stable Audio Open	31.20	9.80	6.00	21.80	0.98
Make-An-Audio2	32.40	4.00	19.80	18.80	0.76
MMAudio	26.60	4.80	2.40	21.40	0.98
AudioX	34.20	12.40	23.60	28.20	0.34

在需要细粒度控制（类别/计数/次序/时间戳）的任务上，AudioX 全维度领先，Ordering 从基线的 ~0.9 砍到 0.34，是数量级的差距。

消融实验¶

数据构建策略（Table 3，文本监督质量逐级提升）：

Caption 来源	Cat-acc ↑	T2A IS ↑	V2A FAD ↓
Labels（原始类别标签）	17.35	7.59	1.81
AudioSetCaps（外部数据集）	27.85	10.08	1.33
QwenCap（仅 Qwen 直接生成）	24.60	9.74	1.67
GeminiCap（仅 Gemini 初标）	28.05	10.81	1.31
GeminiCap-aug（完整两阶段）	28.91	10.93	1.15

MAF 架构（Table 4）：

配置	IS ↑	FAD ↓	Ordering ↓	说明
w/o MAF	10.70	2.67	0.912	去掉整个模块，掉点最狠
w/o Gate	11.66	2.00	0.876	只去门控
w/o Query	11.72	2.08	0.912	只去专家 query
Full MAF	11.84	1.98	0.888	门控 + query 都在

关键发现¶

MAF 里门控和专家 query 都不可省，整体缺失时退化最严重，验证「先降噪再聚合再校准」三步缺一不可。
跨模态正则化效应：提升文本监督的质量与粒度，不只让 T2A 变好，连 V2A 都明显受益（GeminiCap-aug 把 V2A FAD 从 1.81 压到 1.15）。作者据此提出一个对未来有指导意义的结论——高质量文本数据不只是输入，更是构建鲁棒多模态模型的有效策略。
高保真不等于强指令跟随：Tango 2 合成质量很高，但在控制类指标上只是中等，说明保真度和可控性是两个相对独立的维度。

亮点与洞察¶

「数据 + 架构」双轮驱动讲得很干净：把统一模型做不好归因到数据稀缺和跨模态干扰两个具体病因，再分别用 IF-caps 和 MAF 对症下药，逻辑闭环、不空谈。
MAF 的「门控→专家 query→自注意力→残差回写」是可迁移的融合范式：任何需要把多路异构条件喂进同一生成骨干的场景（如多条件图像/视频生成），都能借这套「先过滤再专家聚合」的轻量模块思路。
跨模态正则化是真正的「啊哈」点：把文本监督质量当成提升非文本任务（V2A）的杠杆，颠覆了「视频任务就该堆视频数据」的直觉，对多模态数据投资策略有启发。
新基准 T2A-bench 补了控制力评测的坑：现有指标偏重保真度，作者专门造了类别/计数/次序/时间戳四维的指令跟随基准，且其 Ord-acc 与 AudioTime 的 Ordering 趋势一致，互相印证可信度。

局限与展望¶

强依赖外部大模型造数据：IF-caps 的质量被 Gemini 2.5 Pro 和 Qwen2-Audio 的标注能力封顶，标注里的系统性偏差/幻觉会被继承，论文未深入分析这部分噪声。
部分任务只是「持平」而非领先：V2A、TV2A 在多数指标上与 MMAudio 相当但并非全面超越，统一模型相对专才的优势主要体现在文本相关与指令跟随任务上。
成本仍偏高：2.4B 参数、250 步推理、CFG，实时或端侧部署有压力；MAF 虽轻（60M），但骨干和扩散采样开销是大头。
改进方向：可探索更省的采样（蒸馏/一致性模型）、把数据标注闭环到模型自身（用 AudioX 反过来辅助标注），以及在更细的时间对齐（精确时间戳级控制）上继续推进。

评分¶

新颖性: ⭐⭐⭐⭐ MAF 模块与跨模态正则化发现有新意，统一骨干思路本身是延续 DiT 路线。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 6 类任务、多数据集、双基准 + 用户研究 + 完整消融，证据扎实。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验闭环清晰，但部分模块细节（MAF 内部维度）需查附录。
价值: ⭐⭐⭐⭐⭐ 统一框架 + 700 万开源数据 + 新基准，对可控音频生成社区是实打实的基础设施。