Aurelius: Relation Aware Text-to-Audio Generation At Scale¶

会议: ICLR2026
OpenReview: LAYCYiIgZ1
代码: https://github.com/yuhanghe01/Aurelius
领域: 文本到音频生成 / 数据集与基准
关键词: 文本到音频, 关系感知生成, 音频事件语料库, 基准评测, 组合推理

一句话总结¶

Aurelius 构建了两个大规模解耦语料库（110 类音频事件的 AudioEventSet + 100 种关系的 AudioRelSet）和一套文本-音频配对生成策略，把"关系感知的文本到音频生成"从小规模探索推到可规模化研究的程度，并系统基准了 9 个主流 TTA 模型，揭示它们在多事件关系建模上几乎全线失效（关系准确率普遍 <10%）。

研究背景与动机¶

领域现状：文本到音频（Text-to-Audio, TTA）生成借助扩散、score-based、flow-matching 等生成式建模，再加上 AudioCaps、AudioSet 这类大规模 <text,audio> 配对数据，已经能生成保真度很高的单一音频事件。

现有痛点：人类听觉理解依赖两个基本要素——音频事件本身，以及事件之间的关系（时间先后、空间远近、计数、组合逻辑等）。但现有 TTA 模型只擅长"生成一个声音"，一旦提示词要求多个事件并满足某种关系（"先有掌声由远及近，再叠加另一段相同掌声"），就力不从心。此前 RiTTA、CompA 等已初步指出这个问题，但它们的关系/事件语料规模太小（RiTTA 只有 11 种关系），导致无法在规模化条件下深入研究。

核心矛盾：关系感知 TTA 同时需要"事件生成"和"关系建模"两种能力，而现有数据集（AudioSet 等）直接从网络视频/音频平台爬取，普遍存在标签缺失、噪声、多声部重叠（polyphonic）、语义歧义等问题，既不干净也没有按关系组织，根本无法支撑可控的关系研究。

本文目标：分解为三个子问题——(1) 造一个干净、独特、层级化的音频事件语料；(2) 造一个覆盖物理世界各类关系且可扩展的关系语料；(3) 把二者组合成近乎无限的 <text,audio> 配对，用来系统评测与训练。

切入角度：作者的关键观察是"事件"和"关系"本质上是两个正交维度，应该显式解耦——把它们当成独立语料分别精修，再用一套配对策略动态组合。这样既能保证各自质量，又能用组合爆炸出近乎无限、可定制的数据。

核心 idea：用"解耦的事件语料 × 关系语料 + 模板化配对"代替"直接爬取的混杂数据"，为关系感知 TTA 提供可规模化的基准与训练床。

方法详解¶

整体框架¶

Aurelius 不是一个新的生成模型，而是一套面向关系感知 TTA 的基准与数据生产框架。它的输入是"想研究什么关系/什么事件"，输出是海量带标注的 <text,audio> 配对，以及在这些配对上对现有模型的系统评测结论。整条管线分三块：先独立精修两个树状语料库 AudioEventSet（事件）和 AudioRelSet（关系）；再用"关系→文本模板 + 事件实例化"的配对生成策略把二者笛卡尔式组合成训练/测试数据；最后在这套数据上基准 9 个 TTA 模型，并用微调/从头训练两种策略探查规模化路径。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["研究需求<br/>(事件 + 关系)"] --> B["AudioEventSet<br/>110 事件·7 类·树状深 3"]
    A --> C["AudioRelSet<br/>100 关系·6 类·带 arity"]
    B --> D["text-audio 配对生成<br/>rel2text 模板 + 事件实例化"]
    C --> D
    D --> E["关系感知数据集<br/>训练 100h / 测试 28h"]
    E --> F["基准评测与规模化探查<br/>通用 + MSR 指标·微调/从头训"]

关键设计¶

1. AudioEventSet：用树状层级造一个干净、独特、可分辨的音频事件语料

它要解决的痛点是现有事件数据集"脏"——噪声、多声部、标签缺失、语义歧义，无法做可靠的关系研究。AudioEventSet 是一棵深度为 3 的树：从根到叶按"粗到细"组织，顶层是 7 个主类别（五个单源类 Animal / Human / Machinery / Music / Nature，加两个交互类 Human-Object / Object-Object Interaction），每个主类下接子类、再接细粒度叶节点事件，共 110 个叶事件（是 RiTTA 的 4 倍）。构建时严格保证每个事件"独特、可被人耳分辨"：凡是会和别的事件混淆的就剔除（例如 AudioSet 里的 engine idling 在不同引擎间差异巨大、还容易和风扇/吹风机混淆，直接全部排除）；同时显式考虑发声机制（Object-Object 类穷举 impact / friction / dropping / explosion 四种机制）。每个叶事件配约 75 条 1–5 秒真实录音，素材来自版权友好的 freesound.org 和 FSD50K，并经人工核验标签一致性。这种"先按 ontology 树建骨架、再用人耳筛独特性"的做法，让语料同时做到内部可区分（inter-class discriminative）和类内多样（intra-class diversity）。

2. AudioRelSet：把物理世界的关系形式化成 100 种带 arity 的可扩展关系

它针对的是"关系语料太小"——以前只有十来种关系，撑不起规模化研究。AudioRelSet 是一棵深度为 2 的树，根下挂 6 个主关系类，共 100 种关系，并且每种关系都被数学形式化：

Temporality（时序）：先于 \(E_1 \prec E_2\)、后于 \(E_1 \succ E_2\)、同时 \(E_1 \parallel E_2\)、重复 \(\sim E_1\)；
Spatiality（空间）：邻近 \(d(E_1,E_2)\le\tau\)、更近 \(d(E_1)<d(E_2)\)、更远、靠近 \(\frac{d}{dt}d_{E_1}(t)<0\)、远离 \(\frac{d}{dt}d_{E_1}(t)>0\)；
Count（计数）：\(|E|=N,\ N\in\mathbb{Z}^+\)；
Perceptuality（感知效果）：均衡、混合、混响、变速、放大、衰减等 6 种声学效果，如混合 \(R_{blend}(E_1,E_2,\theta)\)；
Compositionality（组合逻辑）：合取 \(E_1\wedge E_2\)、析取 \(E_1\vee E_2\)、否定 \(\neg E_1\)、异或 \((E_1\vee E_2)\wedge\neg(E_1\wedge E_2)\)、蕴含 \(E_1\Rightarrow E_2,\ \neg E_1\Rightarrow E_3\)；
Nested Combination（嵌套组合）：把多个基本关系按有向无环结构嵌套，\(R_{nested}(E)=R_n(R_{n-1}(\dots R_2(R_1(E))\dots))\)，作者由 5 个基本关系组合出了 79 种嵌套关系（本文约束最多 5 个事件即 Quinary）。

每种关系还带一个 "arity"（元数） 属性，表示表达它需要几个音频事件（unary 到 quinary），用来后续连接关系与事件。嵌套时还会跑内部逻辑正确性/可行性检查，剔除非法组合（如 Count 与 Conjunction 嵌套在内部等价于 Count）。把关系写成符号化定义而非自然语言模糊描述，是这个语料能"可扩展、可校验"的根本。

3. <text,audio> 配对生成：模板化关系 + 实例化事件，组合出近乎无限的数据

事件语料和关系语料解耦后，怎么把它们拼回成训练数据，就是这一步要解决的。流程是：先给 100 种关系每种手工/GPT-4o 编写 5 个文本模板（rel2text templatization），模板里留有音频事件名占位符，用来吸收自然语言表达的多样性；再用真实事件名实例化模板（event instantiation）得到文本提示，同时检索对应事件的波形按关系合成目标音频。为吸收事件名的同义变体，每个事件维护一份同义词表（如 "hammer nailing" 可替换为 hitting/slapping/smacking/punching），实例化时随机抽一个。文本描述统一采用 "Head-Modifier + 现在分词" 结构：以发声主体为 head、动作用进行时作 modifier（"food frying audio" 而非 "frying food"），强调事件正在持续、与音频时序对齐。由于事件和关系正交解耦，该策略能生成近乎无限、高度多样、可定制的配对，且能保证训练/测试文本完全不重叠。

4. 评测协议与规模化探查：通用 + 关系感知双视角，外加微调/从头训对照

光有数据还不够，得有能"测出关系对不对"的指标。Aurelius 用两套指标：通用指标 FAD / FD / KL（衡量生成音频与参考在嵌入空间的整体相似度，分别用 VGGish 和 PANNs 抽特征）；关系感知指标沿用 RiTTA 的 MSR（multi-stage relation aware）协议——先从生成音频里抽出事件与关系 \((E',R')\)，再和参考 \((E,R)\) 比对，给出 Presence（mAPre，事件是否出现）、Relation correctness（mARel，关系是否正确）、Parsimony（mAPar，有没有多生成）三个分数，并汇总为 mAMSR。为支撑 MSR，作者在 PANNs 上用百万样本微调出 mAP 0.91 的事件检测器和 95% 准确率的 7 类声学效果分类器。在这套评测之上，作者用微调和从头训练两种策略对 Tango / Tango2 / TangoFlux 做规模化探查，对比它们能否把通用 TTA 知识迁移到关系任务。

实验关键数据¶

主实验：现有 TTA 模型零样本基准¶

在 100 关系、训练 100h / 测试 28h（10 秒、16kHz）的数据上基准 9 个通用 TTA 模型 + 2 个 agentic 工作流。关系感知指标（×\(10^{-2}\)，越高越好）几乎全线 <10%：

模型	#Param	FAD↓	mAPre↑	mARel↑	mAPar↑	mAMSR↑
AudioLDM2 (l-full)	844M	4.54	0.35	0.04	0.31	0.03
Tango2	866M	9.59	9.68	2.48	5.49	1.29
AudioGen	1.5B	7.97	11.3	2.84	9.13	2.22
TangoFlux	576M	6.01	12.38	3.34	7.28	1.77
Qwen2.5-32B+TangoFlux (agentic)	-	9.70	3.79	0.96	2.41	0.60

AudioGen 拿到最好的 mAPar 和 mAMSR，TangoFlux 在 mAPre/mARel 上最好，但二者也都只是个位数百分比。agentic 工作流（用 Qwen 当 agent 拆解事件再交给 TTA）反而比直接生成更差，说明简单堆叠现有方法救不了关系建模。

规模化探查：微调 vs 从头训练（100h 数据集）¶

策略	模型	mAPre↑	mARel↑	mAPar↑	mAMSR↑
微调	TangoFlux	28.57	8.02	20.84	5.58
从头训练	TangoFlux	16.68	3.82	12.01	2.58
微调	Tango	14.58	4.18	10.16	2.73
从头训练	Tango	14.89	3.69	10.98	2.64

微调和从头训练都大幅提升关系感知能力，验证了基准可用。TangoFlux 从微调中获益最多（mAMSR 1.77→5.58），说明跨域 TTA 知识可迁移；而 Tango 两种策略差别很小，说明架构/归纳偏置会影响知识迁移程度。

关键发现¶

能力断崖：SOTA 通用模型 TangoFlux 在单事件提示上准确率 75%，但多事件正确率骤降到 12%，关系保真度仅 3%——关系建模几乎是个盲区。
数据规模行为分化：扩到 200h、300h 时，微调早期涨得快但接近 300h 就饱和；从头训练则随数据持续大幅提升——暗示规模化关系 TTA 终究需要海量数据，光靠微调不够。
难点集中在嵌套/高 arity：所有模型在 Nested Combination 和 arity>1 的关系上都很差，正是基准要逼出来的硬骨头。

亮点与洞察¶

事件与关系正交解耦：把"声音是什么"和"声音之间什么关系"拆成两个独立语料再笛卡尔组合，既保证各自质量又换来近乎无限的数据规模——这是整套方法可规模化的根。
关系全部符号化 + arity 属性：用 \(\prec,\parallel,\wedge,\Rightarrow\) 这类形式化定义而非自然语言，使关系可校验、可嵌套、可自动配对，arity 还把"需要几个事件"显式化，方便按复杂度分桶评测。
"对比指标自相矛盾"的诊断价值：通用指标（FAD 低）和关系指标（mAMSR 低）常常打架，恰好说明关系保真不是通用质量的副产品，而是一种独立能力——这个 insight 对后续做评测的人很有警示。
可迁移性：AudioEventSet 这种干净层级化的事件库能服务声学场景理解、声事件检测定位等任务；AudioRelSet 的关系本体也能迁移到 CV / NLP / 多模态的关系建模。

局限与展望¶

本质是基准而非新模型：作者提出的 AudioRelGen 只是"解耦事件建模与关系建模"的雏形，并未给出真正解决关系生成的强方法，关系准确率天花板仍很低。
嵌套复杂度受限：本文把嵌套组合约束在最多 5 个事件（Quinary），更复杂的高 arity 嵌套如何写出"简洁且精确"的文本描述仍是开放难题。
配对生成依赖模板与同义词表：rel2text 用 GPT-4o/人工写的 5 个模板，语言多样性仍受模板覆盖面限制；合成音频按关系拼接，可能与真实复杂声场存在差距。
评测器引入误差：MSR 依赖在 PANNs 上微调的事件检测器（mAP 0.91）和效果分类器（95%），评测分数会被这些上游模型的错误传导影响。

评分¶

新颖性: ⭐⭐⭐⭐ 解耦事件/关系 + arity 形式化 + 大规模配对生成，是关系感知 TTA 领域第一个真正可规模化的基准
实验充分度: ⭐⭐⭐⭐ 基准 9+2 个模型、双视角指标、微调/从头训对照、100→300h 规模曲线，诊断扎实
写作质量: ⭐⭐⭐⭐ 关系定义清晰、图表完整；但 AudioRelGen 框架本身着墨偏少
价值: ⭐⭐⭐⭐ 暴露现有 TTA 在关系建模上的系统性失效，并提供可复用的数据/评测床，对后续研究是好脚手架