USE: A Unified Model for Universal Sound Separation and Extraction¶

会议: AAAI2026
arXiv: 2512.21215
代码: https://hongyuwang414.github.io/USE-demo/
领域: 语音 / 声音分离
关键词: 通用声音分离, 目标声音提取, 多模态融合, EDA网络, 跨任务对齐

一句话总结¶

提出 USE 统一框架，通过 EDA 网络推断声源数量和声学线索实现声音分离 (SS)，多模态融合网络解释用户提供的文本/视频/标签线索实现目标声音提取 (TSE)，联合训练+跨任务对齐使两项任务互相增强，SS +1.4dB SDR，TSE 匹配准确率 86%。

领域现状：声音分离 (SS) 将混合音频分为独立源，目标声音提取 (TSE) 从混合中提取用户指定的目标。两者通常单独研究。

现有痛点：(1) SS 需要已知声源数量，未知数量时性能大降；(2) TSE 受限于单一模态线索（仅文本或仅视频），线索质量差时失败；(3) 两任务缺乏统一框架，无法利用声学分离知识辅助目标提取。

核心矛盾：SS 的吸引子（学到的源表示）和 TSE 的查询线索（用户提供的模态描述）语义上应该对应同一个目标，但两个任务独立训练无法建立这种桥接。

本文目标 统一 SS 和 TSE 到一个框架，共享语义空间，互相增强。

切入角度：用 EDA 网络的吸引子作为与用户线索语义对齐的桥梁。

核心 idea：EDA 吸引子和多模态线索在共享语义空间中对齐，统一分离和提取。

编码器-分离器-解码器骨干 + 两个辅助网络：(1) EDA 网络（用于 SS：推断声源数量+生成吸引子）；(2) 多模态线索网络（用于 TSE：融合文本/视频/标签）。两者通过跨任务对齐损失桥接。

EDA 网络（Encoder-Decoder Attractor）:
- 功能：自回归生成声源吸引子，同时推断声源数量
- 核心思路：LSTM 编码器处理帧级嵌入→LSTM 解码器逐步生成吸引子 \(\mathbf{a}_s\)。每个吸引子有存在概率 \(p_{\text{exi}} = \sigma(\mathbf{w}^\top \mathbf{a}_s + b)\)，阈值 0.5 判断声源是否存在
- 设计动机：解决未知声源数量问题——自回归生成直到存在概率低于阈值
多模态线索网络:
- 功能：融合文本（DistilBERT）、视频（Swin Transformer）、声音标签（one-hot 嵌入）
- 核心思路：各模态编码后沿时间维拼接，通过多头注意力（分离器特征做 Query）融合
- 设计动机：多模态冗余——即使某个线索缺失/质量差，其他模态可补偿
跨任务对齐损失:
- 功能：将 EDA 吸引子和用户线索映射到共享语义空间
- 核心思路：\(\mathcal{L}_{\text{align}} = \mathcal{L}_{\text{MSE}} + \mathcal{L}_{\text{InfoNCE}}\)，用 PIT 确定的最优排列对齐吸引子和线索
- 设计动机：使 SS 学到的声学表示与 TSE 的语义查询对齐，实现统一

两阶段训练：Stage 1 仅 SS+EDA（70 epochs, lr=1e-4）；Stage 2 联合 SS+TSE，以 30:70 比例随机选 EDA 或线索网络（30 epochs, lr=3e-5）。

联合训练（Stage 2）在 SS 上比单独训练（Stage 1）进一步提升（AudioSet unseen 3Mix: 5.2→6.3 dB），说明 TSE 的语义知识反哺了 SS
吸引子-线索匹配准确率 86%（2Mix），验证了共享语义空间的有效性
未知声源数量时 USE-B* 性能几乎无损（17.7 vs 17.8），EDA 声源计数准确率 >80%
多模态线索冗余——tag+text 与 tag+text+video 效果接近（8.6 vs 8.9），视频贡献有限