USE: A Unified Model for Universal Sound Separation and Extraction¶
会议: AAAI2026
arXiv: 2512.21215
代码: https://hongyuwang414.github.io/USE-demo/
领域: 语音 / 声音分离
关键词: 通用声音分离, 目标声音提取, 多模态融合, EDA网络, 跨任务对齐
一句话总结¶
提出 USE 统一框架,通过 EDA 网络推断声源数量和声学线索实现声音分离 (SS),多模态融合网络解释用户提供的文本/视频/标签线索实现目标声音提取 (TSE),联合训练+跨任务对齐使两项任务互相增强,SS +1.4dB SDR,TSE 匹配准确率 86%。
研究背景与动机¶
领域现状:声音分离 (SS) 将混合音频分为独立源,目标声音提取 (TSE) 从混合中提取用户指定的目标。两者通常单独研究。
现有痛点:(1) SS 需要已知声源数量,未知数量时性能大降;(2) TSE 受限于单一模态线索(仅文本或仅视频),线索质量差时失败;(3) 两任务缺乏统一框架,无法利用声学分离知识辅助目标提取。
核心矛盾:SS 的吸引子(学到的源表示)和 TSE 的查询线索(用户提供的模态描述)语义上应该对应同一个目标,但两个任务独立训练无法建立这种桥接。
本文目标 统一 SS 和 TSE 到一个框架,共享语义空间,互相增强。
切入角度:用 EDA 网络的吸引子作为与用户线索语义对齐的桥梁。
核心 idea:EDA 吸引子和多模态线索在共享语义空间中对齐,统一分离和提取。
方法详解¶
整体框架¶
编码器-分离器-解码器骨干 + 两个辅助网络:(1) EDA 网络(用于 SS:推断声源数量+生成吸引子);(2) 多模态线索网络(用于 TSE:融合文本/视频/标签)。两者通过跨任务对齐损失桥接。
关键设计¶
-
EDA 网络(Encoder-Decoder Attractor):
- 功能:自回归生成声源吸引子,同时推断声源数量
- 核心思路:LSTM 编码器处理帧级嵌入→LSTM 解码器逐步生成吸引子 \(\mathbf{a}_s\)。每个吸引子有存在概率 \(p_{\text{exi}} = \sigma(\mathbf{w}^\top \mathbf{a}_s + b)\),阈值 0.5 判断声源是否存在
- 设计动机:解决未知声源数量问题——自回归生成直到存在概率低于阈值
-
多模态线索网络:
- 功能:融合文本(DistilBERT)、视频(Swin Transformer)、声音标签(one-hot 嵌入)
- 核心思路:各模态编码后沿时间维拼接,通过多头注意力(分离器特征做 Query)融合
- 设计动机:多模态冗余——即使某个线索缺失/质量差,其他模态可补偿
-
跨任务对齐损失:
- 功能:将 EDA 吸引子和用户线索映射到共享语义空间
- 核心思路:\(\mathcal{L}_{\text{align}} = \mathcal{L}_{\text{MSE}} + \mathcal{L}_{\text{InfoNCE}}\),用 PIT 确定的最优排列对齐吸引子和线索
- 设计动机:使 SS 学到的声学表示与 TSE 的语义查询对齐,实现统一
损失函数 / 训练策略¶
两阶段训练:Stage 1 仅 SS+EDA(70 epochs, lr=1e-4);Stage 2 联合 SS+TSE,以 30:70 比例随机选 EDA 或线索网络(30 epochs, lr=3e-5)。
实验关键数据¶
主实验¶
| 任务 / 模型 | 2Mix SI-SNRi↑ | 3Mix SI-SNRi↑ |
|---|---|---|
| Libri2Mix: TDANet | 17.5 | - |
| Libri2/3Mix: USE-B | 17.8 | 15.0 |
| AudioSet SS: Sepformer | 7.4 | - |
| AudioSet SS: USE-S (stage2) | 8.8 | 7.2 |
| FUSS: TDCN++ | 11.2/11.6/7.4 | |
| FUSS: USE-B | 12.8/13.1/11.9 |
TSE 多模态对比¶
| 线索组合 | DCCRN SNRi | USE-B SNRi |
|---|---|---|
| tag+text+video | 6.9 | 8.9 (+29%) |
| text only | 6.3 | 8.0 (+27%) |
| video only | 5.8 | 6.2 (+7%) |
关键发现¶
- 联合训练(Stage 2)在 SS 上比单独训练(Stage 1)进一步提升(AudioSet unseen 3Mix: 5.2→6.3 dB),说明 TSE 的语义知识反哺了 SS
- 吸引子-线索匹配准确率 86%(2Mix),验证了共享语义空间的有效性
- 未知声源数量时 USE-B* 性能几乎无损(17.7 vs 17.8),EDA 声源计数准确率 >80%
- 多模态线索冗余——tag+text 与 tag+text+video 效果接近(8.6 vs 8.9),视频贡献有限
亮点与洞察¶
- 吸引子-线索对齐是核心创新——在两个看似不同的任务之间建立了语义桥梁。这个思路可迁移到任何"自动发现"与"用户指定"共存的场景
- 联合训练的双向增强:SS 帮 TSE 学更好的分离,TSE 帮 SS 学语义感知——正向循环
局限与展望¶
- 3Mix 及以上场景下 EDA 声源计数准确率下降(65.3%),限制了复杂场景应用
- 视频线索贡献有限——可能需要更好的视频编码器或视频-音频时序对齐
- 仅在 AudioSet 类的通用声音上测试,音乐分离未验证
相关工作与启发¶
- vs DCCRN: 传统 TSE 方法,USE-B 在全部线索组合上超越 29%
- vs TDANet: 仅做 SS,USE-B 在 2Mix 上持平(17.8 vs 17.5)但额外支持 3Mix 和 TSE
评分¶
- 新颖性: ⭐⭐⭐⭐ SS+TSE 的统一框架+吸引子-线索语义对齐是有效新设计
- 实验充分度: ⭐⭐⭐⭐⭐ 多个数据集+SS/TSE/多模态+声源计数+匹配准确率
- 写作质量: ⭐⭐⭐⭐ 架构清晰,训练策略描述详细
- 价值: ⭐⭐⭐⭐ 实用的统一声音处理框架