🎵 音频/语音¶
🔬 ICLR2026 · 79 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (22) · 💬 ACL2026 (70) · 🧪 ICML2026 (36) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (47) · 📹 ICCV2025 (11)
🔥 高频主题: 语音 ×57 · 推理 ×10 · 对抗鲁棒 ×5 · 扩散模型 ×5 · 对齐/RLHF ×4
- AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer
-
提出 AC-Foley,一种参考音频引导的视频到音频合成框架,通过两阶段训练(声学特征学习+时序适应)和多模态条件流匹配实现了细粒度音色控制、音色迁移和零样本音效生成,在音频质量和声学保真度上显著优于现有方法。
- AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching
-
AlignSep 把"视频查询声音分离(VQSS)"从主流的时频掩码判别范式换成基于 flow matching 的生成范式,靠一个用"时间拼接 + 无交叉注意力 Transformer"实现的时间对齐向量场估计器,强制音频与视频帧逐帧同步,从而在同类干扰、声轨重叠的难场景里干净地抠出在屏目标声音,并在自建的 VGGSound-Hard 基准上把时间对齐分数 \(T_{A\text{-}V}\) 做到了 95.76%。
- AudioX: A Unified Framework for Anything-to-Audio Generation
-
AudioX 用一个基于扩散 Transformer(DiT)的统一模型,配上一个轻量的「多模态自适应融合(MAF)」模块和 700 万条自建多模态数据 IF-caps,让单一权重就能从文本、视频、音频的任意组合生成高保真音效与音乐,并在细粒度指令跟随上大幅领先各路专才模型。
- Aurelius: Relation Aware Text-to-Audio Generation At Scale
-
Aurelius 构建了两个大规模解耦语料库(110 类音频事件的 AudioEventSet + 100 种关系的 AudioRelSet)和一套文本-音频配对生成策略,把"关系感知的文本到音频生成"从小规模探索推到可规模化研究的程度,并系统基准了 9 个主流 TTA 模型,揭示它们在多事件关系建模上几乎全线失效(关系准确率普遍 <10%)。
- Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?
-
这篇论文把"自动舞台灯光控制(ASLC)"从沿用多年的"音乐分类 → 查表配灯"范式重新定义为一个生成任务,提出端到端模型 Skip-BART:以音乐音频为输入、逐帧自回归生成灯光的色相(Hue)与亮度(Value),靠一个新颖的跳跃连接显式对齐音乐帧与灯光帧,并配套自建数据集、预训练与迁移学习,最终在量化指标和 38 人主观评测上全面超过规则方法,且与真人灯光师无显著差异(p=0.72)。
- AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization
-
针对多模态大语言模型在情感推理中的虚假关联和幻觉问题,提出 EmoReAlM 评测基准和 AVEm-DPO 偏好优化方法,通过构建针对性偏好对和文本先验正则化,在 DFEW/RAVDESS/EMER 上实现 6-19% 的零样本相对性能提升。
- AVEX: What Matters for Animal Vocalization Encoding
-
这是一篇大规模实证研究:作者系统性地拆解了"训练一个能泛化的生物声学编码器到底什么最重要",结论是在「多样化生物声学+通用音频」混合数据上先自监督预训练、再监督后训练这一两阶段配方在分布内外都最强,并在 26 个数据集、四类任务上刷新了 SOTA。
- Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval
-
DART 在传统"实例级"音频-文本对齐之外,再加一层"特征级"对齐——把每个嵌入通道当成一个分布,用不平衡 Wasserstein 距离去配对音频通道和文本通道,并用基于方差/峰度/跨模态相关性的"可靠性边际"引导传输只往稳定语义通道倾斜,从而在小批量、稀缺标签、噪声标签下都拿到 SOTA 检索效果。
- Bridging Piano Transcription and Rendering via Disentangled Score Content and Style
-
本文把"乐谱→表演"的表情渲染(EPR)与"表演→乐谱"的钢琴转录(APT)这对互逆任务统一进一个 Transformer Seq2Seq 框架,通过解耦"音符级乐谱内容"和"全局表演风格"实现双向建模,并额外训练一个扩散模型从乐谱直接推荐合适风格,让渲染既可控又能自动化。
- Can Speech LLMs Think while Listening?
-
本文在多流语音 LLM(Moshi)的文本独白流里塞入文本思维链,让推理在文本空间进行使准确率平均提升 2.4 倍;又提出基于 KL 散度的「问题完整度」指标,让模型在用户还没说完时就「边听边想」提前开始推理,再配合 DPO 偏好微调,把额外推理延迟降低约 70% 而不损准确率。
- Closing the Gap Between Text and Speech Understanding in LLMs
-
本文把"语音适配 LLM 在语言理解任务上不如文本原版"这个现象拆解为遗忘和跨模态错位两个可量化病因,并据此提出 SALAD——先用跨模态蒸馏在自然语音上对齐、再用错位信号驱动的主动选择补一小撮合成语音,只用比同行少一个数量级的语音数据,就让 3B/7B 模型在六个广域知识与推理基准上逼近最强开源模型。
- Confident and Adaptive Generative Speech Recognition via Risk Control
-
针对"用 LLM 对 ASR 的 N-best 假设做生成式纠错(GER)"中固定 N 既浪费算力又可能引入噪声的问题,本文用 ASR 置信度分数自适应地为每条语音决定假设个数,并用 Learn then Test(LTT)风险控制框架给出"相对最优性能退化"的高概率上界,在三个数据集上把平均假设数最多砍掉 52% 的同时保持甚至提升纠错效果。
- Continuous Audio Language Models
-
作者提出 CALM(Continuous Audio Language Models),让自回归 Transformer 直接在 VAE 的连续潜空间里逐帧预测音频,用"一致性模型采样头"替代扩散头实现单步生成,从而绕开离散 RVQ token 在音质与算力之间的硬权衡,在语音和音乐上同时拿到更高保真度和更快推理,并据此放出可在笔记本 CPU 上超实时运行的 100M 参数 TTS 模型 Pocket TTS。
- CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition
-
针对多语言语音识别中各语言性能差异巨大的问题,本文指出 group DRO 在 CTC 损失上失效(CTC 损失随音频长度和语言声学特性变化、组间不可比),提出 CTC-DRO——用「时长匹配批采样」抹平长度带来的损失差异、用「平滑加权更新」防止权重被某个高损失组垄断,在 ML-SUPERB 2.0 五个语言集上把最差语言错误率最多降低 47.1%、平均错误率最多降低 32.9%。
- Data-Centric Lessons To Improve Speech-Language Pretraining
-
这篇论文把语言/视觉领域成熟的「数据为中心」方法论系统地搬到语音-语言预训练上,通过受控消融回答「怎么切原始音频、怎么造合成数据、怎么交错采样」三个问题,并把这些结论蒸馏进一个 3.8B 的 SpeechLM(SpeLangy),用更小的体量在口语问答(SQA)上反超 3 倍大的模型 10.2%。
- Discovering and Steering Interpretable Concepts in Large Generative Music Models
-
首次将 Sparse Autoencoder (SAE) 应用于音频/音乐领域,从自回归音乐生成模型 MusicGen 的残差流中提取可解释的音乐概念特征,并利用这些特征实现可控生成(steering)。
- DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations
-
DrVoice 把进入 LLM 的语音帧率从主流的 12.5Hz 压到 5Hz——靠"分组压缩做理解、专门的精炼头按原始帧率做生成"这套双分辨率方案,既省掉近 50% 训练 GPU 时、又缓解了语音 token 和文本 token 的帧率失配,让 7B 规模的开源语音模型在 OpenAudioBench、VoiceBench、UltraEval-Audio、Big Bench Audio 四个榜单上同时刷到 SOTA。
- EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models
-
提出 EchoMind,首个面向共情对话的多层级关联基准,通过理解→推理→对话的认知流程,系统评估 Speech Language Models 感知非语言声学线索并生成共情回复的能力。
- Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
-
提出 Dolphin 模型,通过双路径轻量视频编码器 DP-LipCoder 将唇部运动映射为离散语义 token,并设计全局-局部注意力(GLA)分离器,在三个基准上超越 SOTA 同时参数减少 50%+、MACs 降低 2.4×、GPU 推理加速 6×。
- EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning
-
首次将语音情感识别(SER)重构为深度推理问题,通过韵律增强基座模型 + GRPO-PTR(渐进式可信推理奖励)强化学习,生成带有声学依据的可解释情感推理。
- FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates
-
提出 FlexiCodec,通过 ASR 特征引导的动态帧率合并策略,在 3–12.5Hz 超低帧率下实现高质量语音编解码,同时保持优异的语义信息保留能力。
- FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions
-
FlexiVoice 用一个 LLM 内核同时接收文本、风格指令和音色参考语音,通过"DPO→解耦 GRPO→指令 GRPO"三阶段渐进式后训练,专门破解风格-音色-内容三者纠缠的难题,让零样本 TTS 既能精准跟随自然语言风格指令、又能稳定克隆参考音色。
- Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation
-
提出两阶段训练框架Flow2GAN,先用改进的Flow Matching学习生成能力,再用GAN微调实现少步(1/2/4步)高保真音频生成,结合多分辨率网络架构处理不同时频分辨率的傅里叶系数。
- From Natural Alignment to Conditional Controllability in Multimodal Dialogue
-
本文提出从影视剧自动构建的大规模表现力多模态对话数据集 MM-DIA(360 小时、5.47 万段对话)及基准 MM-DIA-BENCH,并把"可控多模态对话生成(MDG)"形式化为一个统一的条件生成问题,覆盖显式提示控制与隐式跨模态控制三大任务。
- From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training
-
针对端到端语音对话模型「用同一套自回归目标同时生成文本和音频」的根本错配,TtT 在单个 Transformer 里把文本的自回归(AR)生成与音频的非自回归(NAR)离散扩散统一起来,借助吸收态扩散的「任意顺序 AR」性质给出统一训练目标,并配三条训练策略消除训练-推理鸿沟,让 3B 小模型在 Audio-QA/ASR/AAC/S2S 上超过同尺度甚至部分 7B 基线。
- Gogo: Group-wise Granularity-ordered Codec for Stable and Efficient Speech Generation
-
本文提出 Gogo——一种把连续若干帧打成「组」、并在组内把 token 按「从粗到细」排序的语音编解码器:粗 token 编码高层语义、细 token 逐步补回声学细节;在此之上构建两阶段语音语言模型 GogoSpeech(先用极低 token 率搭骨架、再补细节)和一个 GRPO 训练的 token 分配器(按各组复杂度动态分配预算),在 47 Hz 的极低 token 率下取得 SOTA 重建质量,并在长语音零样本 TTS 上做到更稳更省。
- Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis
-
VoxCPM 用一个可微的 FSQ 半离散瓶颈把"语义-韵律规划"和"细粒度声学渲染"在单一端到端模型内自然解耦——TSLM 出稳定语义骨架、RALM 补声学残差、LocDiT 局部扩散出高保真语音 latent,0.5B 模型在 100 万小时数据上训练即拿下开源 zero-shot TTS 的 SOTA,且完全不依赖外部离散语音 tokenizer。
- Human Behavior Atlas: Benchmarking Unified Psychological and Social Behavior Understanding
-
构建 Human Behavior Atlas——首个覆盖情感、认知、病理和社会过程四大维度的大规模多模态行为理解统一基准(101K+ 样本),并训练三种 OmniSapiens-7B 模型变体验证其在多任务训练和迁移学习中的有效性。
- Improving Black-Box Generative Attacks via Generator Semantic Consistency
-
通过分析生成器中间层特征的语义退化现象,提出基于 Mean Teacher 的语义结构感知框架,在生成器早期层进行自特征蒸馏以保持语义一致性,从而增强对抗样本在跨模型、跨域、跨任务场景中的可迁移性。
- Incentive-Aligned Multi-Source LLM Summaries
-
将博弈论中的多任务 peer prediction 机制引入 LLM 多源摘要管线,提出 Truthful Text Summarization (TTS) 框架:通过 leave-one-out 交叉构造评价声明集、提取每个来源对声明的立场、用 informative agreement 评分来源可靠性并过滤不可靠来源后重新摘要,理论上证明"如实报告是效用最大策略",实验中有效抵御 prompt injection、虚假信息源和协同攻击。
- Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards
-
针对音频 LLM「让它思考反而越想越差」(test-time inverse scaling)的怪象,本文用 GRPO 在线强化学习配上一套奖励推理过程本身(一致性 / 结构化模式 / 因果逻辑 / 领域知识 / 过度思考惩罚)的多面奖励,把推理从负担变成增益,在 MMAU、MMSU 上刷到 SOTA 并超过 GPT-4o Audio 与 Gemini 2.5 Pro。
- JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models
-
JALMBench 构建了首个大规模、统一的大型音频语言模型(LALM)越狱评测基准——含 24.5 万条音频样本、1000+ 小时、12 个模型、8 种攻击、5 种防御——系统揭示了 LALM 在音频模态下的安全脆弱性及其与编码架构的关联。
- Knowing When to Quit: Probabilistic Early Exits for Speech Separation Networks
-
本文提出 PRESS:用一个"信号 + 误差方差"的概率模型为语音分离网络的每个早退出点估计出可解释的预测 SNR 分布,从而在推理时按"达到目标信噪比的置信度"决定何时停止计算,在不损失重建质量的前提下实现动态算力伸缩。
- Latent Speech-Text Transformer
-
提出 Latent Speech-Text Transformer (LST),将离散语音 token 聚合为更高层级的"潜在语音 patch"作为自回归单元(类似 BLT 对 bytes 的处理),对齐语音和文本的序列建模粒度(从 20× 缩小到 ~1:1),在 speech HellaSwag 上获得 +6.5% 绝对提升且增益从 420M→7B 持续增长,同时降低 ASR/TTS 推理计算成本。
- Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition
-
把经典"超分辨小波"(superlet)改造成完全可微、端到端可学的时频前端 LFST,让频率网格、每频带循环数、分数阶混合权重都由数据学出来,再配一个轻量的 STEE 编码器,用极小参数量在三个语音情感数据集上刷出 SOTA。
- MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control
-
MVC 把扩散 TTS 的整条条件路径(文本/节奏/韵律)在推理时做成纯 SSM(Mamba),去掉所有注意力与显式循环,仅靠训练期一个用完即弃的轻量对齐器,在固定 StyleTTS2 解码器/声码器下取得对 StyleTTS2、VITS、Mamba-注意力混合体的小幅但统计显著的质量提升,同时把编码器压到 21M 参数、吞吐提升 1.6×。
- MAPSS: Manifold-Based Assessment of Perceptual Source Separation
-
提出 Perceptual Separation(PS)和 Perceptual Match(PM)两个互补度量,利用扩散映射将自监督编码表示嵌入低维流形,首次在功能上解耦音源分离中的泄漏和自失真,与 18 种主流指标对比在与主观评分的相关性上几乎始终排名第一或第二。
- Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models
-
本文揭示音频语言模型(LALM)普遍存在"零音频贡献"现象——把音频换成静音也能答对题,进而提出按"音频贡献度"切分数据的过滤方法与 Weak-to-Strong / Mixed-to-Strong 两段式后训练范式,配合 57 万条 AudioMCQ 数据集,在四大音频理解基准上刷到 SOTA。
- MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark
-
提出 MMSU(5000 条音频 QA、47 个任务),首个系统融合语言学理论的语音理解与推理基准,评测 22 个 SpeechLLM,发现现有模型在音韵感知和复杂推理上仍存在显著差距。
- Music Flamingo: Scaling Music Understanding in Audio Language Models
-
通过构建 500 万级别的多文化、全曲长、分层标注音乐数据集(MF-Skills + MF-Think),并在增强版 Audio Flamingo 3 骨干上叠加「SFT → CoT 冷启动 → GRPO 强化学习」的训练配方,Music Flamingo 让音频语言模型从"识别表层属性"跃升到"像训练有素的音乐家一样进行分层、理论感知的音乐推理",在 12+ 音乐理解与推理基准上刷新 SOTA。
- OWL: Geometry-Aware Spatial Reasoning for Audio Large Language Models
-
本文提出几何感知的双耳音频编码器 SAGE 和空间音频大模型 OWL:训练时借助房间脉冲响应(RIR)和全景深度图把声学特征对齐到 3D 几何,推理时只用音频,再配合"空间锚定的思维链 + 课程学习"实现钟点级方位估计与可解释的多步空间推理,在 DoA 误差和空间问答上大幅超过 BAT。
- PACE: Pretrained Audio Continual Learning
-
首次系统性构建音频持续学习基准,揭示预训练音频模型因底层频谱特征主导导致的上游-下游不匹配问题,提出 PACE 方法(改进首会话适应 + 自适应子空间正交 PEFT + 边界感知扰动),在 6 个音频 CL 基准上大幅超越 SOTA。
- ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-Aware Speech-to-Speech Interaction
-
提出 ParaS2S 框架——包含一个评估副语言感知(emotion/sarcasm/age/gender)的语音到语音基准 ParaS2SBench,以及一个基于 GRPO 的 RL 对齐框架 ParaS2SAlign,使 S2S 模型能够在极少标注数据下习得根据说话风格调整回复的能力。
- Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition
-
提出 USR 2.0,用 CTC 驱动的教师强制替代自回归伪标签生成,注意力伪标签在单次前向传播中完成,训练速度提升近 2×,通过 CTC-注意力联合预测增强分布外鲁棒性,在 LRS3/LRS2/WildVSR 上实现 ASR/VSR/AVSR 三任务统一模型 SOTA。
- Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization
-
本文提出 AGG-RL,把"音频-几何表示"和"网格表示"投影到共享隐空间、用内积相似度生成空间谱,再配上两个物理先验组件(可学习非均匀 DFT 与相对麦克风位置编码),实现了跨任意阵列几何、任意 DOA 网格都不用重训的通用声源定位,在未见过的阵列上显著超过现有方法。
- PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation
-
PrismAudio 把视频配音(V2A)拆成语义、时序、美学、空间四条专门的思维链(CoT),每条 CoT 配一个对应的奖励函数,再用高效的 Fast-GRPO 做多维强化学习对齐,在 VGGSound 和自建的 AudioCanvas 上四个感知维度同时刷到 SOTA,且参数更少、推理更快。
- Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering
-
提出 QSTar 框架,通过在整个处理流程中嵌入问题引导(Query Guidance),并引入空间-时序-频域三维度交互模块(特别是利用频谱特征区分音色),显著提升了音乐场景下的音频-视觉问答(Music AVQA)性能。
- RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments
-
构建首个混合 Web-OS 环境的 CUA 红队测试框架 RedTeamCUA 和 864 个测试用例的 RTC-Bench,系统评估 9+ 前沿 CUA 对间接 prompt injection 的脆弱性,发现所有 CUA 均可被攻击(最高 ASR 83%),且能力越强的模型越危险——攻击尝试率(AR)远高于成功率(ASR)意味着模型能力提升将直接转化为更高的攻击成功率。
- Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion
-
提出 Speech-guided Machine Translation(SMT)框架,用 TTS 将源文本合成语音后与文本联合输入 MLLM 做翻译,通过自我进化机制自动筛选有益的合成语音样本进行持续训练。在 Multi30K 超越所有 MMT 方法取得 SOTA,在 FLORES-200 的 108 个翻译方向上以仅 9B 参数达到平均 SOTA。
- Scaling Speech Tokenizers with Diffusion Autoencoders
-
提出 SiTok(Speech Diffusion Tokenizer),采用扩散自编码器联合训练编码器-量化器-解码器(非两阶段),加入 CTC 语义正则化确保离散 token 保留语言信息,规模化到 1.6B 参数和 2200 万小时语音数据,在极端低 token 率(12.5Hz / 200bps)下同时实现 3.34% WER(重建)和 4.95 WER(LLM ASR)的强性能。
- SiNGER: A Clearer Voice Distills Vision Transformers Further
-
提出 SiNGER(Singular Nullspace-Guided Energy Reallocation)框架,通过在教师特征的零空间方向施加扰动来抑制 ViT 中的高范数伪影,同时保留信息信号,结合轻量 LoRA 适配器实现高效蒸馏,在多个下游任务上取得 SOTA 性能并生成更清晰可解释的表征。
- SmartDJ: Declarative Audio Editing with Audio Language Model
-
SmartDJ 提出"声明式音频编辑"范式——用户只说想要的结果(如"把这段录音变成晴朗森林"),由音频语言模型(ALM)当规划器把高层指令拆成一串原子编辑步骤,再交给立体声潜在扩散模型(LDM)逐步执行,在感知质量、空间真实感和语义对齐上全面超过此前的音频编辑方法。
- Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
-
本文针对"把口头念出来的数学公式/句子转写成 LaTeX"这一被忽视的任务,构建了首个大规模开源数据集(英俄双语、6.6 万条人工标注 + 57.1 万条合成音频),并系统比较了"ASR 后纠错"和"端到端音频大模型"两条路线,其中 SALMONN 在自建 S2L-equations 上把字符错误率(CER)从 MathSpeech 的 64% 压到 17.5%。
- Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech
-
本文提出 Speech World Model(SWM),把语音理解拆成「世界模型激活 / 心智理论 / 言语行为 / 语用意图」四个模块,让它们通过一张因果有向无环图相互推断状态,再把这张图推出的结构化状态作为显式提示喂给指令微调的(语音)大模型,从而以仅 20 GPU 时的极低成本逼近 Gemini 2.5 Pro 的语音推理能力。
- SpeechJudge: Towards Human-Level Judgment for Speech Naturalness
-
为了给语音合成补上"大规模自然度人类偏好语料"这块缺失的拼图,本文一次性放出数据集(99K 偏好对)、评测基准(1000 条高一致性样本)和奖励模型三件套,并用"SFT 冷启动 + GRPO 强化"两阶段把 Qwen2.5-Omni-7B 训成生成式奖励模型 SpeechJudge-GRM,在判别语音哪个更自然这个任务上达到 77.2%(推理时投票后 79.4%)准确率,显著超过经典 Bradley-Terry 奖励模型(72.7%)。
- SpeechOp: Inference-Time Task Composition for Generative Speech Processing
-
SpeechOp 把一个预训练好的 TTS 扩散模型改造成"万能语音处理器",用一份多任务潜空间扩散模型同时做合成、增强、分离等任务;更关键的是提出 TC-CFG 引导策略,让这些独立学到的能力在推理时自由组合(如用 ASR 转写的文本去引导增强),在语音增强的内容保真上达到 SOTA(WER 相对 HiFi-GAN-2 降低 46%)。
- StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
-
针对语义语音 tokenizer「对人耳听不出来的微小噪声极其脆弱、token 序列会剧烈跳变」这一痛点,StableToken 用「多分支量化 + 可微比特级多数投票」的 Voting-LFQ 架构加上「噪声感知共识训练」,把噪声下的 Unit Edit Distance 从 26.17% 降到 10.17%(相对降 60%+),并直接带动下游 SpeechLLM 在 ASR/SER/TTS 上的鲁棒性大涨。
- STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence
-
本文提出"音频 4D 智能"(在时间 1D + 三维空间 3D 上对声源动态做物理化推理)的概念,并构建 STAR-Bench 基准——用程序合成 + 四阶段人工标注两条管线造出 2353 道题,专门考那些"难以用文字描述"的细粒度听觉线索;评测 19 个音频大模型发现,连最强的 Gemini 2.5 Pro 也只有 49.6% 平均准确率,远低于人类的 ~79%。
- Steering Autoregressive Music Generation with Recursive Feature Machines
-
本文提出 MusicRFM,用递归特征机(RFM)在 MusicGen 的隐藏激活里抽出对应音符、和弦、调式等乐理概念的「概念方向」,推理时把这些方向直接注入残差流来实时引导生成——无需重训也无需逐步优化,就能把目标音符的命中率从 0.23 拉到 0.82,而文本对齐(CLAP)几乎不掉(与基线相差约 0.02)。
- Stitch: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
-
提出 Stitch,在口语语言模型中实现"边想边说"——将无声推理 token 与语音 token 交替分块生成,利用音频播放期间的空闲算力完成推理。Stitch-S 首帧延迟与无推理基线一致,数学推理准确率提升约 15 个百分点。
- SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization
-
本文把对比学习的梯度拆成"拉力"和"推力",发现负样本推力中垂直于拉力的分量虽含丰富信息但不受控、会导致优化轨迹漂移,于是提出支持向量正则化(SVR):构造一个朝正样本偏移的文本支持向量,用语义半径 \(R\) 自适应压制这个垂直分量,在不加任何推理开销的前提下让 InfoNCE / SigLIP 在音频-文本检索和零样本分类上都涨点。
- SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation
-
提出 SyncTrack,通过轨道共享模块(双跨轨注意力确保节奏同步)和轨道特定模块(可学习乐器先验保留音色差异)的统一架构,以及三个新的节奏一致性评估指标(IRS/CBS/CBD),显著提升多轨音乐生成质量(FAD 从 6.55→1.26,主观 MOS 3.42 vs 1.57)。
- TangoFlux: 用流匹配与 CLAP 排序偏好优化实现超快且忠实的文本到音频生成
-
TangoFlux 用一个 515M 参数的整流流匹配(rectified flow matching)模型,在 A40 上 3.7 秒就能生成 30 秒 44.1kHz 音频;并提出 CRPO——用 CLAP 作代理奖励、每轮在线生成自己的偏好对来做对齐,让小模型在客观与主观指标上都拿到文本到音频生成的 SOTA。
- TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
-
提出 TASTE(Text-Aligned Speech Tokenization and Embedding),通过跨注意力机制将语音 token 与文本转录对齐,实现极低比特率(~150 bps)下的高质量语音重建,并使文本-语音联合建模变得直接高效,1.3B 参数的 TASLM 超越 7B 预训练 SLM。
- The Devil behind the Mask: An Emergent Safety Vulnerability of Diffusion LLMs
-
本文首次系统揭示扩散语言模型(dLLM)中由双向建模和并行解码机制引发的固有安全漏洞,并提出 DiJA 越狱攻击框架,通过交错掩码-文本提示在多个对齐后的 dLLM 上实现接近100%的攻击成功率。
- Token-based Audio Inpainting via Discrete Diffusion
-
本文提出 AIDD,把音频先用预训练 tokenizer(WavTokenizer)压成离散 token 序列,再在这个离散 token 空间上做吸收态扩散(discrete diffusion)来填补缺失片段,配合跨度掩码与导数平滑正则两项训练改进,在 MusicNet / MAESTRO 上对 150–750 ms 的中长 gap 比强扩散基线(CQT-Diff+ 等)更稳、失真更低,且模型更小、推理更快。
- Toward Complex-Valued Neural Networks for Waveform Generation
-
提出 ComVo,首个在生成器和判别器中均使用复值神经网络(CVNN)的 iSTFT 声码器,通过相位量化层稳定训练,并引入块矩阵计算方案将训练时间减少 25%,在 LibriTTS 上合成质量超过 Vocos 等实值基线。
- Towards True Speech-to-Speech Models Without Text Guidance
-
本文提出一个真正的语音到语音大模型:它从预训练文本 LLM(Qwen3-8B)出发,靠"模态分层(modality-based layer split)+ 冻结预训练(frozen pre-training)"两招,在不依赖任何中间文本的情况下直接听懂并说出语音,语音问答上达到 SOTA,同时把扩展新模态时常见的文本能力退化几乎补回来。
- TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
-
提出 TripleSumm,通过多尺度时序块(层级滑动窗口注意力)和跨模态融合块(融合 token 自适应加权视觉/文本/音频),实现帧级模态重要性动态调整,并发布首个大规模三模态视频摘要数据集 MoSu(52678 视频),在 4 个 benchmark 上达到 SOTA。
- TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems
-
针对现代 TTS 已逼近真人、传统 MOS/客观指标失效的问题,本文提出 TTSDS2——一个把语音切成四个感知因子、用 2-Wasserstein 距离衡量「合成分布离真实有多近、离噪声有多远」的无监督客观指标;它是 16 个对比指标里唯一在所有域、所有主观分上 Spearman 相关都 >0.5(平均 0.67)的指标,并配套发布了 1.1 万条主观评分、可防数据泄漏的多语言重建管线和覆盖 14 种语言的 benchmark。
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning
-
UALM 用单个自回归语言模型同时打通音频理解、文本到音频生成和多模态推理三件事——先证明纯 LM 直接预测音频 token 就能追平扩散模型的生成质量(UALM-Gen),再靠数据混合 + 模态对齐把三种能力塞进一个模型(UALM),最后让模型用「文字+音频交错」的思维链在生成前规划、生成后自听自评再重做(UALM-Reason)。
- UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice
-
UniSS 把语音离散成「说话人 / 语言内容 / 语义」三类 token 直接塞进预训练文本 LLM(Qwen2.5-1.5B),用一个单阶段自回归模型、加上「听-译-说」跨模态思维链提示,把 LLM 现成的文本翻译能力迁移到语音上,做到既翻得准、又保住原说话人的音色、情感和时长——并顺手放出了 44.8k 小时的中英表现力 S2ST 数据集 UniST。
- Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification
-
作者指出音频自监督模型在 AudioSet 上不得不靠昂贵 fine-tuning 拿 SOTA、而轻量 linear probe 表现差,根因不是 embedding 不行而是「全局池化瓶颈」——
[cls]-token 把分散、局部的声音事件压成一个向量丢了信息;他们提出二值化原型探针(protobin),用一组即时二值化的类无关原型对完整 token map 做按类、多向量聚合,简单到只加一个原型层却显著超过 linear 与 attentive 探针,把探针重新确立为评估音频 SSL 的高效、可信范式。 - VibeVoice: Expressive Podcast Generation with Next-Token Diffusion
-
VibeVoice 用一个超低帧率(7.5 Hz)的连续语音 tokenizer 把长音频压成极短序列,再让 LLM 以「next-token diffusion」方式逐段预测声学隐变量,从而零样本合成最长 90 分钟、最多 4 个说话人、带自然轮流和呼吸/咂嘴等非词汇细节的播客级对话语音。
- VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation
-
提出 VowelPrompt,基于语音学证据提取元音级韵律描述符(音高/能量/时长),转为自然语言增强 LLM 的情感识别 prompt,配合 SFT+GRPO 两阶段训练,在零样本/微调/跨域/跨语言条件下一致超越 SOTA,同时生成可解释的情感推理。
- WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables
-
WearVox 用 AI 眼镜采集了 3842 段第一人称、多通道的真实佩戴场景音频,覆盖搜索问答、闭卷问答、侧语拒绝、工具调用、语音翻译五类任务,系统评测了主流语音大模型(SLLM),发现实时模型准确率只有 29%–59% 且在户外噪声下严重退化,并通过一个多通道 SLLM 案例研究证明空间音频线索能显著提升抗噪与设备定向语音判别能力。
- When and Where to Reset Matters for Long-Term Test-Time Adaptation
-
ASR提出自适应选择性重置方案,通过预测集中度 \(\mathcal{C}_t\) 动态判断何时重置(避免固定周期的次优性),通过从output层向input层渐进的层选择策略判断重置哪些层(保留有价值的适应知识),配合importance-aware正则化恢复被重置的关键知识和on-the-fly适应调整,在CCC-Hard上比SOTA提升44.12%。
- When Style Breaks Safety: Defending LLMs Against Superficial Style Alignment
-
发现 LLM 越狱 benchmark 中的 ASR 被语义无关的风格模式(如"创建列表")人为膨胀,36 个 LLM 中几乎都存在此现象;表面风格对齐微调进一步加剧此风险;提出 SafeStyle——用风格增强的安全训练数据缓解风险。
- YuE: Scaling Open Foundation Models for Long-Form Music Generation
-
YuE 把 LLaMA2 架构扩到万亿 token、训练出首个开源「歌词→整首歌」基础模型,靠双 token 轨道解耦(人声/伴奏分开预测)、结构化渐进式条件(歌词与音频按段落交错)和为音乐重设计的上下文学习三招,生成长达 5 分钟、歌词对齐且人声生动的歌曲,音乐性上追平甚至超过部分商用系统(如 Udio、Tiangong)。