跳转至

🎵 音频/语音

🧪 ICML2025 · 15 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (22) · 🔬 ICLR2026 (79) · 💬 ACL2026 (70) · 🧪 ICML2026 (36) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (47)

🔥 高频主题: 语音 ×11 · 对话系统 ×2

Aligning Spoken Dialogue Models from User Interactions

首次为全双工语音对话模型(Moshi)设计完整的偏好对齐框架,从15万+条真实用户语音对话中自动构建内容+时序两类偏好对,通过仅在文本token上做DPO-LN对齐,QA平均提升3.1%、安全性提升6.9%,并通过人类评估确认多轮对话质量的改善。

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

提出 BinauralFlow,一个基于条件 Flow Matching 的流式双耳语音合成框架,通过因果 U-Net 架构和连续推理管线实现高保真、可流式生成的双耳音频,感知测试中 42% 的混淆率表明生成结果几乎无法与真实录音区分。

Bridging the Language Gap: Synthetic Voice Diversity via Latent Mixup for Equitable Speech Recognition

本文提出 LatentVoiceMix,在语音转换模型 Diff-HierVC 的说话人风格编码器潜在空间中进行 mixup 插值,生成具有新颖声音特征的合成语音数据用于增强 ASR 训练,在低资源语言 Wolof 上取得了优于波形增强、频谱增强和标准语音转换的 WER 改善效果。

Do Not Mimic My Voice: Speaker Identity Unlearning for Zero-Shot Text-to-Speech

首次提出零样本TTS中的说话人身份遗忘任务,设计了Teacher-Guided Unlearning (TGU) 框架,通过引入随机性使模型"忘记"目标说话人的声纹特征,同时保持对其他说话人的高质量语音合成能力,并提出 spk-ZRF 指标量化遗忘效果。

ETTA: Elucidating the Design Space of Text-to-Audio Models

ETTA 通过大规模系统性实验阐明了文本到音频(TTA)模型的设计空间(数据、架构、训练目标、采样策略),并基于分析结论构建了当前公开数据下最优的 TTA 模型。

FLAM: Frame-Wise Language-Audio Modeling

提出 FLAM,一个帧级音频-语言对比模型,通过文本依赖的 logit 偏置校正和百万级合成 SED 数据集,实现开放词汇声音事件的精确时间定位,同时保持全局检索和零样本分类性能。

IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling

提出 IMPACT 框架,将迭代掩码并行解码(MGM)与潜在扩散模型(LDM)结合,在连续潜在空间中进行文本到音频生成,以轻量 MLP 扩散头替代重型注意力层,同时引入无条件预训练阶段,在 AudioCaps 上取得 FD/FAD 指标 SOTA 且推理速度与最快的 MAGNET-S 相当。

Long-Form Speech Generation with Spoken Language Models

提出 SpeechSSM,首个能在单次解码会话中学习和生成长达 16 分钟语音的 textless 语音语言模型,利用 Griffin 混合 SSM 架构实现常量内存解码和无限上下文,并引入 LibriSpeech-Long 评估基准和新的嵌入/LLM 评判指标。

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

提出 MuseControlLite,通过在解耦交叉注意力层中引入旋转位置编码(RoPE),以仅 85M 可训练参数(比 ControlNet 少 6.75 倍)实现对文本到音乐生成的精确时变条件控制,同时首次统一支持音乐属性控制与音频修复/续写。

NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction

提出 Next-Token-Pair Prediction (NTPP) 范式,首次用 decoder-only 架构对双通道语音对话进行 speaker-independent 联合分布建模,实现更自然的轮次转换、更低的推理延迟和更强的说话人无关性。

OmniAudio: Generating Spatial Audio from 360-Degree Video

提出 OmniAudio 框架,首次实现从 360 度全景视频生成 First-order Ambisonics (FOA) 空间音频,通过 coarse-to-fine 自监督预训练和双分支视频编码架构,在自建的 Sphere360 数据集上取得 SOTA 性能。

One Wave To Explain Them All: A Unifying Perspective On Feature Attribution

提出 Wavelet Attribution Method (WAM),将特征归因从像素域迁移到小波域,利用小波系数的空间-尺度局部性为音频、图像、体数据提供统一且更具结构信息的模型解释。

Sortformer: A Novel Approach for Permutation-Resolved Speaker Supervision in Speech-to-Text Systems

提出 Sortformer——一个基于编码器的说话人日志模型,通过 Sort Loss 按说话人到达时间排序来解决排列问题,替代或辅助传统的排列不变损失(PIL),并设计正弦核函数将说话人标签注入 ASR 编码器,使多说话人 ASR 训练可直接使用标准交叉熵损失,在 LibriSpeechMix 上实现 2-mix/3-mix 相对误差降低 30%/25%。

Sounding that Object: Interactive Object-Aware Image to Audio Generation

提出一种交互式对象感知音频生成模型,通过多模态点积注意力在训练时学习图像区域与声音的关联,在测试时用 SAM 分割掩码替代注意力权重,允许用户通过点击选择图像中的视觉对象来生成对应的声音。

Teaching Physical Awareness to LLMs through Sounds

提出 ACORN 框架,通过基于物理的声学通道仿真器生成大规模训练数据,配合同时捕获幅度和相位信息的音频编码器,教会 LLM 从声音中理解物理世界现象。