跳转至

🎵 音频/语音

💬 ACL2026 · 70 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (22) · 🔬 ICLR2026 (79) · 🧪 ICML2026 (36) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (47) · 📹 ICCV2025 (11)

🔥 高频主题: 语音 ×50 · 对话系统 ×9 · LLM ×5 · 多模态 ×4 · 推理 ×3

Affectron: Emotional Speech Synthesis with Affective and Contextually Aligned Nonverbal Vocalizations

本文提出 Affectron 框架,通过情感驱动的 Top-K NV 匹配和情感感知的 Top-K 路由两个训练时增强策略,在小规模开源解耦语料上实现了多样且情感对齐的非语言发声(如笑声、叹息)合成,显著超越了基于纯语言预训练的 VoiceCraft 基线。

An Exploration of Mamba for Speech Self-Supervised Models

首次全面探索Mamba架构作为语音自监督学习(SSL)基础模型的潜力,发现Mamba-based HuBERT在长上下文ASR、流式ASR和因果设置的probing任务中优于Transformer,同时保持线性时间复杂度。

Analyzing Reasoning Shifts in Audio Deepfake Detection under Adversarial Attacks: The Reasoning Tax versus Shield Bifurcation

本文为带推理链的音频语言模型(ALM)做深度伪造检测设计了"三维取证审计"框架(声学感知 / 认知一致性 / 认知失调),发现 CoT 推理并非普适增强——对声学感知强的模型(Qwen2-Audio)是"防护盾",对感知弱的模型(Gemma-3n、Phi-4)反而是"推理税";且当模型被攻破时,高认知失调可作为"无声警报"提醒人类审计员。

Anchored Cyclic Generation: A Novel Paradigm for Long-Sequence Symbolic Music Generation

本文提出锚定循环生成(ACG)范式,通过在自回归过程中用已确认的音乐内容作为锚点来校准生成方向,有效缓解长序列符号音乐生成中的误差累积问题,并构建了层次化框架Hi-ACG实现从全局到局部的音乐生成。

[b] = [d] − [t] + [p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

系统性地证明自监督语音模型(S3M)的表示空间中存在线性的音韵特征向量,这些向量满足类似 word2vec 的向量算术关系,且其缩放比例与声学测量呈连续相关性。

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

揭示当前 AudioLLM 的感知弱点源于 ASR 中心的训练范式(系统性抑制副语言和非语言信息),提出 Unified Audio Schema(UAS)将音频信息结构化为转录、副语言和非语言事件三个维度的 JSON 格式,在 MMSU 基准上感知精度提升 10.9% 同时保持推理能力。

Beyond Transcripts: A Renewed Perspective on Audio Chaptering

这篇论文系统重构长音频章节分段任务:把评测从依赖 transcript 的文本空间推进到 transcript-invariant 的时间空间,并证明直接用音频表示的 AudioSeg 在 YTSeg 上明显优于文本分段和现有 MLLM 方案。

Closing the Modality Reasoning Gap for Speech Large Language Models

本文提出 TARS(Trajectory Alignment for Reasoning in Speech),一个基于强化学习的框架,通过表示对齐和行为对齐两种密集奖励信号,将语音条件下的推理轨迹与文本条件下的推理轨迹对齐,在 7B 规模模型中达到 SOTA,MRR(模态恢复率)接近甚至超过 100%。

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

本文提出 SwanBench-Speech,用 1,101 个样本、17 类真实下游场景和 7 个自动评测维度系统衡量长文本语音生成,结论是当前模型在内容准确性上已接近可用,但在混响一致性、长程韵律和表达层次上仍明显落后于真实录音。

Computational Narrative Understanding for Expressive Text-to-Speech

本文从有声书虚构作品中提取角色直接引语,构建了大规模表达性语音数据集 LibriQuote(5.3K 小时引语 + 12.7K 小时叙述),并用语音动词和副词伪标签标注说话风格,实验表明在 flow-matching 模型上微调可同时提升表达性和可懂度,且 LibriQuote-test 构成了一个具有挑战性的表达性 TTS 基准。

ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling

本文提出 ControlAudio,一个统一的渐进式扩散建模框架,通过三阶段渐进训练(TTA 预训练→时序控制微调→时序+可懂语音联合训练)和渐进引导采样,在单个扩散模型中实现文本引导、时序精确控制和可懂语音生成三种能力,在时序精度和语音清晰度上显著超越现有方法。

Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech

针对 LLM-based TTS 中模糊发音(如日语「辛い」既可读 karai 也可读 tsurai)的对齐难题,作者提出 TKTO:先用两个标签对调训练的对比 KTO 模型估计每个 token 的重要度权重 \(w_t\),再把 KTO 的 utterance 级 value function 拆到 token 级并加权聚合,实现「无需配对数据 + 自动定位目标 token」的双重升级,把日语发音准确率从 0.668 抬到 0.958(+39%),CER 降 54%。

Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking

HEALTHDIAL 构建了一个包含 4 种 WHO 官方语言、6,000 个多平行健康信息寻求对话和 163 小时真实用户语音的数据集,并基于 ASR、TTS、检索、知识过滤和用户研究建立了多语言 spoken RAG benchmark。

Do We Need Distinct Representations for Every Speech Token? Unveiling and Exploiting Redundancy in Large Speech Language Models

本文通过逐层oracle干预实验揭示了大语音语言模型(LSLM)中语音token表示的结构化冗余层次——浅层编码必要声学细节而深层极度冗余——并提出Affinity Pooling这一免训练的基于相似度的token合并机制,在减少27.48% FLOPs的同时保持竞争力的准确率。

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation

DRInQ 用固定问题表面形式、系统变化上下文的方式构建会话含义评测集,发现 LLM 能生成看似合理的语用场景,却常在推理时过度解读上下文、低于人类判断一致性。

DuIVRS-2: An LLM-based Interactive Voice Response System for Large-scale POI Attribute Acquisition

DuIVRS-2 将百度地图大规模 POI 属性采集的模块化电话 IVR 系统改造成 LLM 驱动的端到端对话系统,通过 FSM 数据增强、选择式生成和双评估器迭代学习,在生产中达到 83.9% TSR、130ms 平均响应和每天 0.4M 通话能力。

Exploration of Perceptual Speech Features for Clinical Decision-Support in Mental Health Care

这篇论文提出一个面向心理健康临床辅助的可解释语音分析框架,用感知可理解的声学与语言特征结合 XGBoost、统计检验、SHAP 和 LIME,在压力、抑郁、焦虑、ADHD 等多个数据集上寻找稳定的语音行为线索,而不是追求黑盒端到端诊断。

FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations

FC-TTS 用 FACodec 的解耦语音表示作为条件来源,再通过两阶段谱图生成、VQ-VAE 风格编码和条件一致性损失,把零样本 TTS 中原本纠缠在同一 reference 里的音色和说话风格拆成两个可独立控制的输入。

FIGMA: Towards Fine-Grained Music Retrieval

针对 CLAP 类音乐检索模型"只用得上 caption 前 40–50 个 token、长描述坍缩成词袋"的毛病,FIGMA 在标准全局对比损失之外加了一条帧-token 级别的细粒度对比损失(多视图对比),并配套构建了 38 万对带乐理标注的 FGMCaps 数据集,让模型能按 tempo、调性、和弦、节拍这类精确属性检索音乐,相对提升最高达 73.3%。

From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation

本文提出 S2ST-Omni 2,把多语言语音翻译中的扁平 language label 改成结构化类型学先验,并在表示、声学调制和 LLM 解码三层注入这些先验,从而在 CVSS-C 上提升 BLEU、ASR-BLEU、COMET 和 BLASER 2.0,尤其改善低资源和类型差异较大的语言。

Full-Duplex-Bench-v2: A Multi-Turn Evaluation Framework for Duplex Dialogue Systems with an Automated Examiner

作者提出 Full-Duplex-Bench-v2,让一个 GPT-Realtime 扮演的 Examiner 通过 WebRTC 与被测全双工模型实时对话,按 Daily/Correction/Entity/Safety 四类任务、Fast/Slow 两种节奏对其打 turn-taking、instruction-following、task-specific 三类分,发现 GPT-Realtime、Moshi、Freeze-Omni 都会随对话推进性能持续下滑,且开源模型在 correction 和 entity tracking 上尤其拉胯。

SEPT: Semantically Expanded Prompt Tuning for Audio-Language Models

SEPT 通过利用 LLM 生成语义邻居并设计带边距约束的语义扩展损失来正则化提示嵌入空间,显著缓解了音频语言模型(ALM)提示调优中的 Base-New Tradeoff 问题,建立了 ALM 提示泛化的首个系统性评估基准。

Hard to Be Heard: Phoneme-Level ASR Analysis of Phonologically Complex, Low-Resource Endangered Languages

本文对两种音系极端复杂的低资源濒危东高加索语言(Archi和Rutul)进行音素级ASR分析,发现音素识别准确率与训练频率呈S型学习曲线关系,许多归因于音系复杂性的错误实际上更多源于数据稀缺。

HCFD: A Benchmark for Audio Deepfake Detection in Healthcare

本文提出医疗场景下的编解码器伪造语音检测任务 HCFD,构建了首个包含多种临床病理条件(抑郁、阿尔茨海默、构音障碍)的编解码器伪造语音数据集 HCFK,并提出 PHOENIX-Mamba 框架——通过在双曲空间中建模多模式伪造证据原型,在英文抑郁检测上达到 97.04% 准确率。

How Tokenization Limits Phonological Knowledge Representation in Language Models and How to Improve Them

本文用三个音韵 probing 任务(rhyme / G2P / 音节数)证明 BPE 类 subword tokenization 既"粒度太粗"难以捕捉局部音韵,又"边界错位"难以捕捉韵律结构,并提出 STAD 度量 + IPA-augmented 轻量微调,让 Llama3.1-8B 在三个音韵任务全面提升而 GSM8K / MMLU 只掉 1.1% / 0.9%。

ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment

ImmersiveTTS 用双流 MM-DiT 同时建模转写内容和环境描述,并用 WavLM 与 ATST-Frame 的双教师表征对齐稳定训练,从而在带背景声的 TTS 中提升语音自然度、可懂度和 speech-environment 融合质量。

Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages

本文构建了首个多印度语言的 CodecFake 检测基准 ICF,并提出 SATYAM——一个双曲音频大语言模型,通过在双曲空间中用 Bhattacharyya 距离对齐语义和副语言表示再与提示对齐,仅训练 3.75M 参数即达到 98.32% 的检测准确率。

Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering

构建 Jamendo-MT-QA,一个包含 36,519 个比较问答对(覆盖 12,173 个音轨对)的多音轨比较音乐问答基准,首次系统评估音频-语言模型在跨音轨比较推理上的能力,揭示现有模型在句子级比较生成上的显著不足。

LLM-MC-Affect: LLM-Based Monte Carlo Modeling of Affective Trajectories and Latent Ambiguity for Interpersonal Dynamic Insight

这篇论文提出 LLM-MC-Affect,把对话中的情感从单点标签改写成由随机 LLM 解码近似的潜在分布,再用均值、方差、互相关和斜率指标分析师生对话里的情感同步与主导关系。

MARQUIS: A Three-Stage Pipeline for Video Retrieval-Augmented Generation

MARQUIS 将多视频检索增强文章生成拆成“查询分解与重排检索-校准式结构化证据抽取-带引用文章生成”三阶段,并可用 RLM 控制器做迭代证据管理,在 MAGMaR2026 上把检索 nDCG@10 从 0.195 提升到 0.759,生成侧 Iter-QA-Base 人类评分达到 3.83。

MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus

本文构建了首个面向中国古典文学的大规模(119小时、22000条样本)全版权音频语料库 MCGA,涵盖赋、诗、文、词、曲五大文体和六项语音任务(ASR/S2TT/SEC/SQA/SU/SR),并通过评测 10 个多模态大模型揭示了当前模型在古典文学语音理解上的显著不足。

Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs

作者提出一个多语言 disfluency 修正流水线:先用 MuRIL 在 token 级标注 fluent/disfluent 标签,再把"原始转录 + token 标签"一起喂给 Llama-3.2-3B / Qwen2.5-3B 做 instruction fine-tuning,关键创新是引入一个对比损失项,对生成 disfluent token 的概率显式惩罚(penalize \(-\log(1-\sum_v w_v P_\theta(v))\)),在 Hindi/Bengali/Marathi 三语种实ASR数据上比无对比 baseline +1.97 BLEU、比 mBART +8.54 BLEU,且 3B 模型在多数 setting 上能匹配甚至超越 GPT-4o。

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

提出 MTR-DuplexBench,一个针对全双工语音语言模型(FD-SLM)的多轮综合评估基准,通过创新的轮次分割方法解决了全双工对话中轮次边界模糊和上下文不一致的挑战,涵盖对话特性、对话质量、指令遵循和安全性四个维度,实验揭示了现有 FD-SLM 在多轮交互中性能持续衰退的问题。

Multimodal In-Context Learning for ASR of Low-Resource Languages

系统研究多模态上下文学习(MICL)能否使语音 LLM 学习未见过的濒危语言,并提出基于 MICL 的假设选择系统,结合声学模型与语音 LLM 的互补优势,在三种濒危语言上显著提升 ASR 性能。

Music Audio-Visual Question Answering Requires Specialized Multimodal Designs

本文作为音乐视听问答(Music AVQA)领域首篇综合综述,系统分析了数据集演进和方法设计,论证了专门的输入处理、时空架构设计和音乐领域知识对该任务至关重要,通用多模态模型不足以应对音乐表演的独特挑战。

MSU-Bench: Musical Score Understanding Benchmark

MSU-Bench 是首个针对完整乐谱理解的人工标注基准,包含 150 首作品的 1800 个生成式 QA 对,覆盖四级难度,评估揭示了 LLM/VLM 在乐谱定位和幻觉方面的严重不足,而 ABC 记谱法的文本输入显著缓解了这些问题。

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

本文提出 OEA(Omni-Embed-Audio),利用多模态 LLM 作为统一编码器构建检索导向的音频-文本嵌入空间,并引入 User-Intent Queries(UIQ)基准和硬负例区分指标(HNSR/TFR),发现 LLM 主干在 T2T 检索(+22%)和硬负例区分(+4.3%p HNSR@10)上显著优于 CLAP 系列方法。

PlanRAG-Audio: Planning and Retrieval Augmented Generation for Long-form Audio Understanding

PlanRAG-Audio 将长音频理解改写为“先规划要查哪些模态和时间片,再从结构化音频数据库检索证据”的问题,从而把 60 分钟音频的 LLM 输入从约 115k tokens 降到约 1k tokens,并显著提升说话人计数、事件排序和 speaker-constrained QA。

Privacy-preserving Prosody Representation Learning

这篇论文提出一个以 glottal source 为输入的自监督 prosody encoder,通过 F0 说话人归一化和 adversarial speaker loss 减少身份泄露,在 phrase boundary、syllable prominence 和 pitch reconstruction 上优于 raw prosody/HuBERT baseline,同时把 VoxCeleb1 speaker identification accuracy 从 HuBERT 的 0.64 降到 0.14。

Protecting Bystander Privacy via Selective Hearing in Audio LLMs

提出首个旁观者隐私基准 SH-Bench 和旁观者隐私微调(BPFT)方法,评估和提升音频 LLM 在多说话人环境中仅关注主说话人、拒绝泄漏旁观者信息的能力,BPFT 后 SE 指标比 Gemini 2.5 Pro 高 16%。

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

本文提出 Pseudo2Real,一种参数空间校正方法,通过在源域中计算真实标签模型与伪标签模型的权重差得到"校正向量",将其应用于目标域伪标签微调模型以纠正系统性伪标签偏差,在 AfriSpeech-200 的十种非洲口音上最高实现 35% 相对 WER 降低。

Reference Games as a Testbed for the Alignment of Model Uncertainty and Clarification Requests

这篇论文用颜色网格 reference games 检验 VLM 能否把内部不确定性转化为恰当澄清请求,发现即便任务很受控,Qwen2.5-VL 和 GPT-5-mini 也仍存在过度自信、澄清行为不稳定和澄清问题低质量等交互能力缺口。

RespiraMFM: 用对比式音频-语言对齐做呼吸疾病识别的多模态基础模型

RespiraMFM 针对"咳嗽/喘鸣等非语言声学生物标记很难和症状文本对齐"这一痛点,提出两阶段解耦架构:先用对比学习把音频嵌入显式锚到 LLM 文本语义空间、再冻结这个对齐器去做指令微调分类,在五种呼吸疾病、九个任务上把有监督 AUROC 提升 9.15%、零样本提升 20.98%。

ReStyle-TTS: Relative and Continuous Style Control for Zero-Shot Speech Synthesis

ReStyle-TTS 通过解耦文本/参考音频 guidance、可连续缩放的风格 LoRA、正交 LoRA 融合和音色一致性优化,让零样本 TTS 不再被参考音频风格锁死,可以相对地调高/调低音高、能量和情绪,同时保持文本可懂度与说话人音色。

Retrieving to Recover: Towards Incomplete Audio-Visual Question Answering via Semantic-consistent Purification

本文提出R2ScP框架,将AVQA中缺失模态处理范式从传统的生成式补全转变为基于检索的恢复,通过跨模态检索和上下文感知自适应净化机制消除检索噪声,在模态不完整场景下显著提升了问答性能。

RTCFake: Speech Deepfake Detection in Real-Time Communication

RTCFake 构建了约 600 小时面向真实实时通信平台的语音伪造检测数据集,并提出音素引导一致性学习 PCL,使 XLSR+AASIST 在离线、在线、跨平台和未见噪声场景下的平均 EER 从混合训练的 7.33% 降到 5.81%。

S2S-Arena: Evaluating Paralinguistic Instruction Following in Speech-to-Speech Models

S2S-Arena 提出一个直接在语音模态评测 S2S 模型的 benchmark,用四级副语言交互协议、1,243 条语音样本和 1,001 次 pairwise comparison 揭示当前系统在复杂语气、情绪、说话风格和表达控制上的明显差距。

SDiaReward: Modeling and Benchmarking Spoken Dialogue Rewards with Modality and Colloquialness

SDiaReward 构建了面向多轮语音对话的成对偏好数据集与 ESDR-Bench,并训练端到端语音 reward model,让评测不再只看文本语义,而能同时判断韵律/情感等 modality gap 与自然口语风格的 colloquialness gap。

SegTune: Structured and Fine-Grained Control for Song Generation

提出 SegTune,一种基于 Diffusion Transformer 的歌曲生成框架,通过层次化文本条件(全局 + 分段级提示)和 LLM 时长预测器实现对歌曲结构和音乐属性的细粒度时序控制。

Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling

本文提出一种纯音频的半监督学习框架,通过在会话级、片段级和帧级三个层次联合建模临床对话中的病理语音特征,利用 EMA 教师-学生网络动态生成高质量伪标签,在抑郁症和阿尔茨海默症检测中仅用 11 个标注样本即可达到全监督 90% 的性能。

SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation

提出 Script-Normalized WER (SN-WER),一种无需训练的评估方法,通过将参考文本和假设文本音译到统一规范文字后再计算 WER,分离多文字 ASR 评估中的文字不匹配误差与真实识别误差。

SpeakerSleuth: Can Large Audio-Language Models Judge Speaker Consistency across Multi-turn Dialogues?

SpeakerSleuth 构建了首个评估 LALM 多轮对话说话人一致性判断能力的基准(1,818 实例),系统评测 12 个 LALM 和 6 种嵌入方法后发现:模型在检测和定位声学不一致时表现挣扎,存在严重的文本优先于声学的模态偏差,但在比较/排序声学变体时表现较好。

Speculative End-Turn Detector for Efficient Speech Chatbot Assistant

论文构建首个公开 end-turn detection 数据集 OpenETD,并提出 SpeculativeETD,让端侧 GRU 持续检测 speaking/non-speaking,只有遇到 200 ms 静音时才调用服务端 Wav2Vec2 区分 Gap 与 Pause,从而在真实语音上以 38 倍更低 FLOPs 和亚毫秒端侧延迟换取接近大模型的实时 turn-taking 效果。

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

提出 Speech-Hands,一个可学习的语音代理框架,通过在推理时生成显式动作 token(//)来决定信任自身感知还是外部 ASR 假设,在 OpenASR 排行榜 7 个基准上平均 WER 降低 12.1%,在音频 QA 上达到 77.37% 准确率。

SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation

这篇论文把语音质量评估从“给一个分数”扩展为“可解释的语音评审”,构建了含 32,207 条多语音频和 128,754 条标注的 SpeechEval 数据集,并用 CoT 指令微调与 GRPO 训练出 SQ-LLM,在质量评分、成对比较、改进建议和深伪检测四类任务上整体优于现有语音大模型与专家模型。

Standard-to-Dialect Transfer Trends Differ across Text and Speech: A Case Study on Intent and Topic Classification in German Dialects

这篇论文用德语-巴伐利亚语意图分类和德语-瑞士德语主题分类系统比较文本、语音、ASR级联三种迁移路径,发现标准语上的最佳方案不一定适合方言:文本模型最适合标准德语,而语音模型在方言输入上通常更稳。

Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions

针对语音助手无法区分第三方打断(TPI)与主用户发言的问题,提出包含88K训练实例的TPI-Train数据集和TPI-Bench评测框架,通过说话人感知的困难负样本挖掘策略消除语义捷径学习,使模型真正依赖声学线索进行打断检测。

StressTest: Can YOUR Speech LM Handle the Stress?

提出 StressTest 基准评估语音语言模型(SLMs)对句子重音含义的理解能力,发现现有模型几乎无法基于重音模式推理说话者意图,并通过合成数据管线 Stress-17k 训练的 StresSLM 在重音检测和推理任务上大幅超越前沿模型。

Style Amnesia: Investigating Speaking Style Degradation and Mitigation in Multi-Turn Spoken Language Models

发现口语语言模型(SLMs)在多轮对话中无法维持初始指定的说话风格(情感、口音、音量、语速),称之为"风格遗忘"现象,并通过注意力分析揭示其成因(注意力衰减),提出显式回忆过程作为缓解手段。

TellWhisper: Tell Whisper Who Speaks When

本文提出TellWhisper,通过设计时间-说话人感知的旋转位置编码(TS-RoPE)将说话人身份和时间信息统一编码到语音编码器的自注意力中,配合双曲空间说话人日志模型(Hyper-SD),实现了对"谁在何时说了什么"的联合建模,在多说话人ASR任务上取得最优性能。

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

提出 TCD,一种无训练的推理时解码方法:通过对比原始音频和时间模糊慢速路径的 logits 差异,配合稳定性引导的模糊窗口和不确定性门控,使统一音频语言模型更好地利用瞬态声学线索,在 MMAU 和 AIR-Bench 上一致提升。

Towards Fine-Grained and Multi-Granular Contrastive Language-Speech Pre-training

本文提出FCaps大规模数据集(47k小时语音、19M细粒度标注)和CLSP对比学习模型,通过端到端标注管线和细粒度多粒度对比监督,实现了首个能统一表征全局和细粒度语音风格的语音-文本对齐模型。

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

UniSonate 用统一的 Instruction-Content 表示、动态 SFX token 注入和多阶段课程学习,把文本转语音、文本转音乐和文本转音效放进同一个 flow-matching MM-DiT 中,在 TTS 与 TTM 上达到或超过专用模型,同时在 TTA 上保持可用的音效生成能力。

UniSRM:用于细粒度语音评估的统一语音奖励模型

本文提出 UniSRM,一个统一的语音奖励模型,通过两阶段训练(SFT+GRPO)和推理一致性奖励(RCR)机制,支持从话语级质量到对话级连贯性的多维度、可解释的语音评估,在多个评估任务上显著优于现有方法。

UniVocal:统一的语音-歌唱代码混用合成

UniVocal 通过精细音高令牌和两阶段课程学习,训练模型从纯文本语义自动推断语音/歌唱切换点,无需显式标签,在新构建的 SCSBench 基准上达到 SOTA 性能。

VAPO: End-to-end Slide-Enhanced Speech Recognition with Omni-modal Large Language Models

本文发现端到端全模态大模型做 SlideASR 时会把幻灯片文字误抄成语音内容,并提出 VAPO 用“先看后听”的结构化推理链和多目标强化学习,把幻灯片文字变成语音识别的语义锚点而不是干扰源。

VoxMind: An End-to-End Agentic Spoken Dialogue System

提出 VoxMind,一个赋予端到端语音对话模型智能体能力的统一框架:通过"Think-before-Speak"机制实现显式推理,结合多智能体动态工具管理架构解耦推理延迟与工具规模,任务完成率从基线 34.88% 提升至 74.57%,超越 Gemini-2.5-Pro。

When Misinformation Speaks and Converses: Rethinking Fact-Checking in Audio Platforms

本文为Position Paper,论证音频平台上的虚假信息在本质上不同于文本虚假信息——它同时具有口语性(prosody、pacing、emotion)和对话性(多轮、多说话人、跨集节),现有以文本为中心的事实核查流水线无法有效处理,需要围绕音频特有属性重新设计验证框架。

XLSR-MamBo: Scaling the Hybrid Mamba-Attention Backbone for Audio Deepfake Detection

提出 XLSR-MamBo 框架,系统探索 Mamba-Attention 混合架构在音频深度伪造检测中的四种拓扑设计和多种 SSM 变体(Mamba2、Hydra、GDN),其中 MamBo-3-Hydra 利用 Hydra 的原生双向建模达到多个基准上的竞争性能,且增加骨干深度可有效缓解浅层模型的性能不稳定。

ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching

提出 ZipVoice-Dialog,首个基于流匹配的非自回归零样本对话语音生成模型,通过课程学习策略和说话人轮次嵌入两个简单设计,解决了流匹配直接用于对话场景时的语音不可懂和轮次混乱问题,同时发布了首个大规模开源对话语音数据集 OpenDialog(6.8k 小时)。