🎵 音频/语音¶
💬 ACL2026 · 29 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (17) · 🔬 ICLR2026 (32) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (50) · 📹 ICCV2025 (13) · 🧪 ICML2025 (7)
🔥 高频主题: 语音 ×18 · 问答 ×3 · 多模态 ×3 · 对抗鲁棒 ×3 · LLM ×2
- Affectron: Emotional Speech Synthesis with Affective and Contextually Aligned Nonverbal Vocalizations
-
本文提出 Affectron 框架,通过情感驱动的 Top-K NV 匹配和情感感知的 Top-K 路由两个训练时增强策略,在小规模开源解耦语料上实现了多样且情感对齐的非语言发声(如笑声、叹息)合成,显著超越了基于纯语言预训练的 VoiceCraft 基线。
- Alexandria: A Multi-Domain Dialectal Arabic Machine Translation Dataset for Culturally Inclusive and Linguistically Diverse LLMs
-
Alexandria 构建了覆盖 13 个阿拉伯国家、11 个社会影响领域、107K 轮次的多轮对话方言阿拉伯语-英语平行数据集,通过社区驱动的人工翻译与修订流程,为方言阿拉伯语机器翻译提供了前所未有的细粒度训练和评测资源,并在 24 个 LLM 上进行了系统性基准评估。
- An Exploration of Mamba for Speech Self-Supervised Models
-
首次全面探索Mamba架构作为语音自监督学习(SSL)基础模型的潜力,发现Mamba-based HuBERT在长上下文ASR、流式ASR和因果设置的probing任务中优于Transformer,同时保持线性时间复杂度。
- Anchored Cyclic Generation: A Novel Paradigm for Long-Sequence Symbolic Music Generation
-
本文提出锚定循环生成(ACG)范式,通过在自回归过程中用已确认的音乐内容作为锚点来校准生成方向,有效缓解长序列符号音乐生成中的误差累积问题,并构建了层次化框架Hi-ACG实现从全局到局部的音乐生成。
- Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs
-
揭示当前 AudioLLM 的感知弱点源于 ASR 中心的训练范式(系统性抑制副语言和非语言信息),提出 Unified Audio Schema(UAS)将音频信息结构化为转录、副语言和非语言事件三个维度的 JSON 格式,在 MMSU 基准上感知精度提升 10.9% 同时保持推理能力。
- Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models
-
提出 AHD(Anchor-based History-stable Decoding),一种无需训练的即插即用动态解码策略,通过动态锚点回溯历史轨迹判定扩散LLM中跨块稳定token,实现早期解锁,在BBH上减少80%解码步数的同时提升3.67%性能。
- Computational Narrative Understanding for Expressive Text-to-Speech
-
本文从有声书虚构作品中提取角色直接引语,构建了大规模表达性语音数据集 LibriQuote(5.3K 小时引语 + 12.7K 小时叙述),并用语音动词和副词伪标签标注说话风格,实验表明在 flow-matching 模型上微调可同时提升表达性和可懂度,且 LibriQuote-test 构成了一个具有挑战性的表达性 TTS 基准。
- DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects
-
本文构建 DIA-HARM,首个跨 50 种英语方言评估虚假信息检测鲁棒性的基准,揭示人类撰写的方言内容导致检测性能下降 1.4-3.6% F1,微调 Transformer 大幅优于零样本 LLM(96.6% vs 78.3%),且部分模型在混合内容上出现超过 33% 的灾难性退化。
- Do We Need Distinct Representations for Every Speech Token? Unveiling and Exploiting Redundancy in Large Speech Language Models
-
本文通过逐层oracle干预实验揭示了大语音语言模型(LSLM)中语音token表示的结构化冗余层次——浅层编码必要声学细节而深层极度冗余——并提出Affinity Pooling这一免训练的基于相似度的token合并机制,在减少27.48% FLOPs的同时保持竞争力的准确率。
- SEPT: Semantically Expanded Prompt Tuning for Audio-Language Models
-
SEPT 通过利用 LLM 生成语义邻居并设计带边距约束的语义扩展损失来正则化提示嵌入空间,显著缓解了音频语言模型(ALM)提示调优中的 Base-New Tradeoff 问题,建立了 ALM 提示泛化的首个系统性评估基准。
- HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models
-
本文提出 HalluAudio,首个大规模跨领域(语音/环境声/音乐)的音频幻觉检测基准,包含 5000+ 人工验证的 QA 对和系统化的对抗性提示设计,通过多维指标(准确率/幻觉率/Yes-No偏差/拒绝率/错误类型)评估主流 LALM,揭示了当前模型在声学锚定、时间推理和音乐属性理解方面的显著缺陷。
- Hard to Be Heard: Phoneme-Level ASR Analysis of Phonologically Complex, Low-Resource Endangered Languages
-
本文对两种音系极端复杂的低资源濒危东高加索语言(Archi和Rutul)进行音素级ASR分析,发现音素识别准确率与训练频率呈S型学习曲线关系,许多归因于音系复杂性的错误实际上更多源于数据稀缺。
- How Hypocritical Is Your LLM Judge? Listener–Speaker Asymmetries in the Pragmatic Competence of Large Language Models
-
本文通过三个语用任务(虚假预设、反预设、演绎推理)系统对比 14 个 LLM 作为"语用听者"(判断语用适当性)和"语用说者"(生成语用适当的语言)的表现,发现普遍存在的听者-说者不对称:多数模型作为判断者远优于生成者,且项目级分析表明正确判断不能可靠预测成功生成。
- Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering
-
构建 Jamendo-MT-QA,一个包含 36,519 个比较问答对(覆盖 12,173 个音轨对)的多音轨比较音乐问答基准,首次系统评估音频-语言模型在跨音轨比较推理上的能力,揭示现有模型在句子级比较生成上的显著不足。
- Learning Invariant Modality Representation for Robust Multimodal Learning from a Causal Inference Perspective
-
本文提出 CmIR(因果模态不变表示学习),基于因果推理理论将每种模态显式解纠缠为因果不变表示和环境特定虚假表示,通过不变性约束+互信息约束+重建约束的优雅目标函数确保不变表示具有跨环境的稳定预测关系,在多模态情感/幽默/讽刺检测上取得 SOTA,尤其在 OOD 和噪声场景下表现突出。
- MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus
-
本文构建了首个面向中国古典文学的大规模(119小时、22000条样本)全版权音频语料库 MCGA,涵盖赋、诗、文、词、曲五大文体和六项语音任务(ASR/S2TT/SEC/SQA/SU/SR),并通过评测 10 个多模态大模型揭示了当前模型在古典文学语音理解上的显著不足。
- Multimodal In-Context Learning for ASR of Low-Resource Languages
-
系统研究多模态上下文学习(MICL)能否使语音 LLM 学习未见过的濒危语言,并提出基于 MICL 的假设选择系统,结合声学模型与语音 LLM 的互补优势,在三种濒危语言上显著提升 ASR 性能。
- Music Audio-Visual Question Answering Requires Specialized Multimodal Designs
-
本文作为音乐视听问答(Music AVQA)领域首篇综合综述,系统分析了数据集演进和方法设计,论证了专门的输入处理、时空架构设计和音乐领域知识对该任务至关重要,通用多模态模型不足以应对音乐表演的独特挑战。
- MSU-Bench: Musical Score Understanding Benchmark
-
MSU-Bench 是首个针对完整乐谱理解的人工标注基准,包含 150 首作品的 1800 个生成式 QA 对,覆盖四级难度,评估揭示了 LLM/VLM 在乐谱定位和幻觉方面的严重不足,而 ABC 记谱法的文本输入显著缓解了这些问题。
- Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
-
本文提出 Pseudo2Real,一种参数空间校正方法,通过在源域中计算真实标签模型与伪标签模型的权重差得到"校正向量",将其应用于目标域伪标签微调模型以纠正系统性伪标签偏差,在 AfriSpeech-200 的十种非洲口音上最高实现 35% 相对 WER 降低。
- Retrieving to Recover: Towards Incomplete Audio-Visual Question Answering via Semantic-consistent Purification
-
本文提出R2ScP框架,将AVQA中缺失模态处理范式从传统的生成式补全转变为基于检索的恢复,通过跨模态检索和上下文感知自适应净化机制消除检索噪声,在模态不完整场景下显著提升了问答性能。
- Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction
-
本文提出一种基于指令引用的提示注入防御方法,不压制 LLM 的指令遵循能力,而是让模型在响应中引用正在执行的指令,然后通过标签过滤移除与原始指令不相关的响应,在部分场景下将攻击成功率降至接近 0%。
- Splits! Flexible Sociocultural Linguistic Investigation at Scale
-
提出构建社会语言学"沙盒"的方法,从 Reddit 构建了按人口统计群体和讨论话题双重切分的 970 万帖子数据集 Splits!,并设计了基于 lift 和 triviality 的两阶段过滤流程,从 2.3 万条 LLM 生成的候选假设中高效筛选出值得深入研究的社会文化语言现象。
- Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions
-
针对语音助手无法区分第三方打断(TPI)与主用户发言的问题,提出包含88K训练实例的TPI-Train数据集和TPI-Bench评测框架,通过说话人感知的困难负样本挖掘策略消除语义捷径学习,使模型真正依赖声学线索进行打断检测。
- StressTest: Can YOUR Speech LM Handle the Stress?
-
提出 StressTest 基准评估语音语言模型(SLMs)对句子重音含义的理解能力,发现现有模型几乎无法基于重音模式推理说话者意图,并通过合成数据管线 Stress-17k 训练的 StresSLM 在重音检测和推理任务上大幅超越前沿模型。
- TellWhisper: Tell Whisper Who Speaks When
-
本文提出TellWhisper,通过设计时间-说话人感知的旋转位置编码(TS-RoPE)将说话人身份和时间信息统一编码到语音编码器的自注意力中,配合双曲空间说话人日志模型(Hyper-SD),实现了对"谁在何时说了什么"的联合建模,在多说话人ASR任务上取得最优性能。
- Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models
-
提出 TCD,一种无训练的推理时解码方法:通过对比原始音频和时间模糊慢速路径的 logits 差异,配合稳定性引导的模糊窗口和不确定性门控,使统一音频语言模型更好地利用瞬态声学线索,在 MMAU 和 AIR-Bench 上一致提升。
- Towards Fine-Grained and Multi-Granular Contrastive Language-Speech Pre-training
-
本文提出FCaps大规模数据集(47k小时语音、19M细粒度标注)和CLSP对比学习模型,通过端到端标注管线和细粒度多粒度对比监督,实现了首个能统一表征全局和细粒度语音风格的语音-文本对齐模型。
- When Misinformation Speaks and Converses: Rethinking Fact-Checking in Audio Platforms
-
本文为Position Paper,论证音频平台上的虚假信息在本质上不同于文本虚假信息——它同时具有口语性(prosody、pacing、emotion)和对话性(多轮、多说话人、跨集节),现有以文本为中心的事实核查流水线无法有效处理,需要围绕音频特有属性重新设计验证框架。