🎵 音频/语音¶
🧠 NeurIPS2025 · 47 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (22) · 🔬 ICLR2026 (79) · 💬 ACL2026 (70) · 🧪 ICML2026 (36) · 🤖 AAAI2026 (31) · 📹 ICCV2025 (11)
🔥 高频主题: 语音 ×19 · 对齐/RLHF ×5 · 多模态 ×3 · 推理 ×2 · 推荐系统 ×2
- A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings
-
提出 TiALD(Tigrinya Abusive Language Detection),首个面向 Tigrinya 低资源语言的大规模多任务基准数据集,包含 13,717 条 YouTube 评论的辱骂/情感/主题三任务联合标注,同时发现小型微调模型(TiRoBERTa, 125M)在所有任务上全面超越 GPT-4o 和 Claude Sonnet 3.7 等前沿 LLM。
- A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity
-
TRIANGLE提出用高维空间中三模态嵌入向量构成的三角形面积作为相似度度量,替代传统的成对余弦相似度,实现了视频-音频-文本三模态的联合对齐,在视频文本检索等任务上超越SOTA最多9个Recall@1点。
- Accelerate Creation of Product Claims Using Generative AI
-
开发 Claim Advisor 平台,利用 LLM 的 in-context learning 和 LoRA 微调加速消费品产品宣称的搜索、生成、优化和排序,通过模仿 MaxDiff 研究方法论让微调的 Phi-3 14B 模型在宣称排序上超越 GPT-4o(仅用 1 个示例 vs GPT 的 100 个示例),三轮迭代后 100% 的生成宣称达到"高吸引力"级别。
- Adapting Speech Language Model to Singing Voice Synthesis
-
将 1.7B 参数的 TTS 预训练 Speech Language Model 适配到歌声合成(SVS)任务,通过乐谱 tokenization + multi-stream LM 预测 + conditional flow matching 精修 + vocoder,仅用 135 小时合成歌声数据达到与专用 SVS 系统可比的性能。
- Associative Syntax and Maximal Repetitions Reveal Context-Dependent Complexity in Fruit Bat Communication
-
本文提出一种无监督方法来推断果蝠发声的离散单元、语法类型和时序结构,并首次将最大重复子序列(Maximal Repetitions)引入动物通信领域,发现冲突行为中的通信复杂度显著高于合作行为。
- AudSemThinker: Enhancing Audio-Language Models through Reasoning over Semantics of Sound
-
AudSemThinker 为音频语言模型引入结构化语义推理框架——定义 9 类声音语义描述符(谁/什么/如何/何时/何地等),在 Qwen2.5-Omni-7B 上通过 SFT + GRPO(含可验证奖励和长度约束)训练产生 \<think>\<semantic_elements>\<answer> 三阶段输出,MMAU 基准达 66.70%(超越 Audio-Reasoner 61.71% 和 Qwen2.5-Omni 65.60%)。
- BNMusic: Blending Environmental Noises into Personalized Music
-
提出 BNMusic,一个两阶段框架将环境噪声融合到个性化生成音乐中:第一阶段通过 mel-spectrogram 的 outpainting + inpainting 生成与噪声节奏对齐的音乐,第二阶段利用听觉掩蔽理论自适应放大音乐信号以降低噪声感知,无需额外训练,在 EPIC-SOUNDS 和 ESC-50 上显著优于 baseline。
- Brain-tuning Improves Generalizability and Efficiency of Brain Alignment in Speech Models
-
提出 Multi-brain-tuning 方法,通过联合多个被试的 fMRI 数据微调预训练语音模型,将脑对齐所需数据量降低 5 倍,同时脑对齐度提升最高 50%,并可泛化到全新被试和数据集。
- Can LLMs Outshine Conventional Recommenders? A Comparative Evaluation
-
提出 RecBench 综合评估框架,在5个领域数据集上系统对比17个LLM与10个传统DLRM,发现LLM推荐器在CTR任务上AUC提升最高5%、在序列推荐上NDCG@10提升最高170%,但推理速度慢10-1000倍,而传统DLRM结合LLM语义嵌入(LLM-for-RS)可以20倍更快的速度达到LLM约95%的性能,是当前最具工业可行性的方案。
- Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models
-
Data-Juicer 2.0 是面向基础模型的云规模多模态数据处理系统,150+ 跨文本/图像/视频/音频算子,支持自适应分布式执行(Ray/MaxCompute),在 10000+ CPU 核心上高效处理 TB 级数据,已广泛应用于阿里云 PAI 等产品。
- DeepASA: An Object-Oriented Multi-Purpose Network for Auditory Scene Analysis
-
提出 DeepASA,一个面向对象的多任务统一架构,通过 object-oriented processing 和 chain-of-inference 机制在单一模型中同时完成多通道声源分离(MIMO)、去混响、声事件检测(SED)、音频分类和到达方向估计(DoAE),在多个空间音频基准上达到 SOTA。
- E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models
-
提出首个面向语音基础模型的无反向传播测试时自适应框架 E-BATS,通过轻量级 prompt 自适应、多尺度损失函数和测试时 EMA 机制,在保持高精度的同时实现 2.0×–6.4× 的 GPU 显存节省。
- E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis
-
针对基于 LLM 的端到端语音合成中的声音克隆威胁,提出 E2E-VGuard 主动防御框架,通过编码器集成扰动音色、对抗样本干扰 ASR 发音识别、以及心理声学模型保证不可感知性,在 19 个 TTS 模型和 7 个 ASR 系统上验证了有效性。
- Echoes of Humanity: Exploring the Perceived Humanness of AI Music
-
通过随机对照交叉试验(RCCT)和混合方法内容分析,系统研究听众区分AI生成音乐(AIM)与人类创作音乐的能力,发现随机配对时听众无法区分(准确率≈随机猜测),但相似配对时显著提升至66%,且声音/技术/人声线索是成功区分的关键因素。
- Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space
-
提出 SLED,将语音波形编码为连续潜在表示序列,在连续空间中通过 energy distance 目标进行自回归建模,避免了离散化信息损失和 RVQ 所需的复杂层级架构,同时实现高效的零样本与流式语音合成。
- Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping
-
首次为端到端ASR建立FL+DP的实用基准,通过逐层裁剪(per-layer clipping)结合LAMB优化器的层级梯度归一化,在强隐私保证下实现仅1.3%~4.6%的WER绝对退化。
- Ethics Statements in AI Music Papers: The Effective and the Ineffective
-
对 AI 音乐领域论文中伦理声明(ethics statements)的使用现状进行系统审查,发现绝大多数伦理声明未被有效利用,并提出面向会议与研究者的改进建议。
- EuroSpeech: A Multilingual Speech Corpus
-
提出可扩展的开源 pipeline,从 22 个欧洲议会录音中自动构建 EuroSpeech 数据集——61K 小时、覆盖 22 种语言的高质量语音-文本对齐数据,其中 19 种语言超 1K 小时,微调 Whisper 后平均 WER 降低 41.8%。
- From Black Box to Biomarker: Sparse Autoencoders for Interpreting Speech Models of Parkinson's Disease
-
将大语言模型可解释性研究中的稀疏自编码器(SAE)技术适配到语音帕金森病检测系统中,提出 Mask-based SAE 解决小数据集限制,发现模型预测主要基于低能量区域的频谱通量和频谱平坦度,并进一步揭示这些特征与 MRI 壳核体积显著相关,建立了从模型内部表征到临床生物标志物的桥梁。
- From Generation to Attribution: Music AI Agent Architectures for the Post-Streaming Era
-
提出一种基于内容的 Music AI Agent 架构,通过 Block 级检索和代理编排将版权归因直接嵌入音乐创作工作流,构建面向后流媒体时代的公平 AI 媒体平台。
- Inductive Transfer Learning for Graph-Based Recommenders
-
提出 NBF-Rec,一个基于神经 Bellman-Ford 网络的图推荐模型,支持在用户和物品完全不相交的数据集之间进行归纳式迁移学习,实现零样本跨域推荐和轻量微调适配。
- Instance-Specific Test-Time Training for Speech Editing in the Wild
-
提出面向野外语音编辑的实例特定测试时训练方法:在推理前利用未编辑区域的真实声学特征做直接监督、编辑区域通过时长约束和音素预测辅助损失做间接监督,对模型进行实例级自适应微调,有效缓解编辑边界的带宽不连续问题,并支持通过 mask 长度调整精确控制语速,在野外 benchmark 上主客观评估均超越现有系统。
- Latent Space Factorization in LoRA
-
提出 FVAE-LoRA,在 LoRA 框架中引入具有双潜空间的 VAE,通过新型 ELBO 目标将任务相关特征 (\(\mathbf{z}_1\)) 与残差信息 (\(\mathbf{z}_2\)) 显式分解,在文本、图像、音频任务上一致优于标准 LoRA。
- LeVo: High-Quality Song Generation with Multi-Preference Alignment
-
提出 LeVo 歌曲生成框架,通过语言模型并行建模混合 token 和双轨 token 以兼顾人声-伴奏和谐性和音质,并创新性地引入基于 DPO 的多偏好对齐方法提升音乐性和指令跟随能力。
- LeVo: High-Quality Song Generation with Multi-Preference Alignment
-
LeVo 提出一种基于语言模型的歌曲生成框架,通过并行预测混合 token 和双轨 token 来同时优化人声-伴奏和谐度与音质,并引入基于 DPO 的多偏好对齐方法提升音乐性和指令跟随能力,在学术方法中全面领先且接近工业系统水平。
- MEGADance: Mixture-of-Experts Architecture for Genre-Aware 3D Dance Generation
-
提出 MEGADance,首个基于混合专家 (MoE) 架构的音乐驱动 3D 舞蹈生成方法,通过将编舞一致性解耦为"舞蹈通用性"(Universal Expert)和"风格特异性"(Specialized Expert),配合 FSQ 量化和 Mamba-Transformer 混合骨干网络,实现了 SOTA 的舞蹈质量和强风格可控性。
- MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction
-
提出 MGE-LDM,首个在统一的潜在扩散框架中同时实现音乐混合生成、部分生成(源补全)和文本驱动任意源提取的模型,通过联合建模混合-子混合-源三元组并利用扩散修复(inpainting)实现各任务。
- MGAudio: Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation
-
提出MGAudio,首个采用模型引导(MG)训练替代无分类器引导(CFG)的视频到音频生成框架,结合双角色音视频编码器(同时用于条件注入和特征对齐),以131M参数在VGGSound上实现SOTA(FAD=0.40),且仅用10%数据即可超越多数方法。
- MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
-
MoME将稀疏MoE集成到Matryoshka表示学习框架中,用于LLM-based音视频语音识别,通过共享路由器实现跨粒度知识迁移,在单一模型权重下支持多种压缩率的弹性推理,同时达到AVSR/ASR/VSR的SOTA性能。
- Multi-head Temporal Latent Attention
-
MTLA 在 MLA 低秩潜在维度压缩基础上,用超网络动态融合时序相邻的 KV 向量,实现 KV 缓存在特征维度和时序维度的双重压缩,配合 stride-aware 因果 mask 保证训练-推理一致性,在语音翻译等任务上达到 4.29× 加速和 6.58× 内存降低,质量持平甚至略优于标准 MHA。
- Node-Based Editing for Multimodal Generation of Text, Audio, Image, and Video
-
提出一个节点图式故事编辑系统,允许创作者通过自然语言和节点级操作迭代地生成、编辑和比较多模态内容(文本、音频、图像、视频),支持线性和分支叙事结构。
- Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders
-
证明在自编码器训练中对潜变量加噪(noise-augmented latent training)配合感知损失,能使编码空间形成"感知层次结构"——感知最显著的音乐特征(如音高)编码在最粗粒度的潜在结构中,而次要特征(如音色细节)编码在细粒度结构中。这种对齐改善了潜在扩散解码下的音乐惊奇感估计和 EEG 脑响应预测。
- Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers
-
通过受控合成预训练任务系统性比较语言模型架构,发现 Canon 层——一种轻量级的邻近token加权求和组件——能显著提升推理深度(2-4倍)、推理广度、知识容量等核心能力,让 NoPE 匹配 RoPE,让 GLA 匹敌 Mamba2/GDN。
- Resounding Acoustic Fields with Reciprocity
-
利用声波传播的互易性原理,提出Versa方法(ELE数据增强+SSL自监督学习),通过交换发射器和接收器角色来生成物理有效的虚拟训练样本,在稀疏发射器配置下大幅提升声场估计性能。
- Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI Models in Sound Localization
-
通过6种受控视听条件和人类心理物理实验,系统揭示现有AI声源定位模型存在严重视觉偏见(视听冲突时降至随机水平),并提出神经科学启发的EchoPin模型——HRTF滤波+ERB耳蜗图+立体声,在自建AudioCOCO数据集上大幅超越现有方法,且无需人类行为监督即涌现出类人的水平>垂直定位精度不对称性。
- Segment-Factorized Full-Song Generation on Symbolic Piano Music
-
提出Segmented Full-Song模型(SFS),将歌曲分解为片段,通过选择性注意结构相关上下文自回归生成各片段,实现比现有方法更快速、更结构化的钢琴全曲生成,并支持交互式人机共创。
- Sensorium Arc: AI Agent System for Oceanic Data Exploration and Interactive Eco-Art
-
本文构建了一个名为 Sensorium Arc 的多模态交互式 AI 智能体系统,通过将海洋拟人化为一个诗意的"讲述者"角色,利用多智能体 RAG 架构将 NASA 海洋科学数据与生态美学文本相结合,使用户能够以自然对话的方式探索复杂的海洋环境数据,同时在视听层面生成动态的科学可视化和艺术化反馈,实现从"被动数据观察"到"主动生态对话"的范式转变。
- Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis
-
提出 Shallow Flow Matching(SFM),在粗到细 TTS 框架中利用弱生成器输出构建 flow matching 中间状态,使推理从中间状态而非纯噪声出发,同时提升合成质量和加速推理。
- SHAP Meets Tensor Networks: Provably Tractable Explanations with Parallelism
-
本文首次为张量网络(Tensor Networks)提供可证明精确的 SHAP 解释计算框架,证明张量列车(Tensor Train)结构下 SHAP 可在多对数时间内并行计算(NC² 复杂度),并通过归约揭示二值化神经网络中宽度而非深度才是 SHAP 计算的核心瓶颈。
- SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation
-
提出SimulMEGA框架,结合前缀训练与混合专家(MoE)精炼模块,实现无监督的读/写策略学习,使500M参数模型在6种语言的同时语音翻译中以1.5秒延迟仅损失<7% BLEU,并扩展到流式TTS。
- Slimmable NAM: Neural Amp Models with Adjustable Runtime Computational Cost
-
将 Slimmable Networks 思想应用到 Neural Amp Modeler (NAM) 中,通过训练期间随机裁剪 WaveNet 层宽度,实现模型在推理时可以无额外训练代价地动态调整网络大小,使音乐家能实时平衡音质精度与计算成本。
- Target Speaker Extraction Through Comparing Noisy Positive and Negative Audio Enrollments
-
提出一种利用噪声正样本(目标说话人在说话的段落)和负样本(目标说话人沉默的段落)对比来编码目标说话人特征的新型注册策略,在单声道噪声注册目标说话人提取任务上取得 SOTA 性能,SI-SNRi 比此前最优方法高出 2.1 dB 以上。
- AVRobustBench: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time
-
提出 AVRobustBench,首个系统评估音视频模型在 双模态共现关联腐蚀 下测试时鲁棒性的基准,包含 4 个数据集 × 75 种腐蚀,并提出基于低熵样本筛选的 TTA 方法 AV2C。
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing
-
提出三阶段交互式视频转音频框架 ThinkSound,通过 MLLM 生成结构化 CoT 推理来指导统一的音频生成基础模型,在 VGGSound 和 MovieGen Audio 基准上达到 SOTA,同时支持对象级精细化和自然语言指令编辑。
- Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization
-
提出一个统一的符号音乐编排框架,通过段级自监督重建目标(解耦内容和乐器风格)和新的多轨token化方案REMI-z,使单个预训练模型能够处理乐队编排、钢琴缩编和鼓编排等多种编排任务,并在三个典型任务上超越了任务特定的SOTA。
- VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
-
VITA-1.5 提出了一套精心设计的三阶段渐进式训练策略,将视觉和语音能力逐步整合进 LLM 中,实现了无需独立 ASR/TTS 模块的端到端视觉-语音实时交互,在图像、视频和语音基准上均达到开源模型领先水平。
- WhAM: Towards A Translative Model of Sperm Whale Vocalization
-
提出 WhAM(Whale Acoustics Model),首个基于 Transformer 的抹香鲸 coda 生成模型,通过微调 VampNet 实现声学翻译、合成生成与下游分类的三合一能力。