ICML2026 音频/语音论文解读论文笔记语音多模态少样本学习推理布局/合成 LLM

🎵 音频/语音¶

🧪 ICML2026 · 36 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (22) · 🔬 ICLR2026 (79) · 💬 ACL2026 (70) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (47) · 📹 ICCV2025 (11)

🔥 高频主题： 语音 ×15 · 多模态 ×4 · 少样本学习 ×3 · 推理 ×3 · 布局/合成 ×2

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation: 这篇论文提出 Hive，一个通过单事件净化和语义一致混合构造的通用声音分离数据集，用约 2.4k 小时高纯度源音频让 AudioSep、FlowSep 在多项分离指标上接近甚至超过百万小时级训练的系统。
Alethia: A Foundational Encoder for Voice Deepfakes: Alethia 提出一种"瓶颈式掩码嵌入预测 + Flow-Matching 频谱生成"的双分支预训练范式，训出首个面向语音 deepfake 检测/定位/溯源的基础编码器，在 5 类任务 56 个数据集上显著超过 Wav2vec2/HuBERT/WavLM 等通用 SFM，并对未见过的歌声 deepfake 和真实扰动表现出强零样本鲁棒性。
Algorithmic Recourse of In-Context Learning for Tabular Data: 这篇论文首次系统研究表格数据 in-context learning 场景下的算法追索问题，证明 ICL 诱导的动态决策规则仍可定义可界定的 recourse，并提出 ASR-ICL 用自适应子空间零阶优化在黑盒 ICL 模型上生成低成本、稀疏且可行动的反事实修改。
An Exterior Method for Nonnegative Matrix Factorization: 这篇论文提出 eNMF，把 NMF 从“始终待在非负正交锥内部优化”改成“先从无约束 SVD 最优解的旋转等价类外部逼近非负锥，再可行化并下降”，在合成、文本、音频、图像和推荐数据上比 9 类 NMF baseline 更快达到更低重构误差。
Attend to Anything: Foundation Model for Unified Human Attention Modeling: AAM把图像、视频和音视频显著性预测统一为一个带文本条件、双曲层级约束和Fokker-Planck时间动力学的注意力基础模型，在16个基准上整体优于专用模型，并把视频推理速度提升到约111 FPS。
Beyond Classification: A Cough Regression Benchmark for Respiratory Acoustic Foundation Models: 现有呼吸声学基础模型（FM）几乎只在咳嗽分类上被评过，本文首次系统地把它们放到连续值回归任务上（从咳嗽音频被动估计年龄、BMI、疾病概率），用统一的冻结编码器 + 三种回归头、5 个 FM × 6 个目标 × 3 个数据集的协议做了一个多模型多目标基准，揭示了"数据规模 × 头部容量"权衡、生成式预训练优势、以及强烈不对称的跨数据集迁移等一系列被分类评测掩盖的结论。
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction: 针对现代音乐生成模型已能同时吃「文本 + 歌词 + 参考音频」却没有统一评估手段的窘境，本文造了一套生态——110k 伪标注的 CMI-Pref-Pseudo、4,027 条人工标注的 CMI-Pref、统一基准 CMI-RewardBench，以及一个仅约 30M 参数、能在单一架构里处理所有模态组合的奖励模型族 CMI-RM，并证明它和人类判断高度相关、还能通过 top-k 过滤实现音乐生成的「推理时缩放」。
Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox: 作者构造了一个让"文字说的"和"声音听的"故意打架的 2000 题 MCQ 基准 VoxParadox，证明当前 Audio LLM 在副语言任务上几乎只"读不听"；再用一个按 prompt 自适应混合音频编码器中间层特征的轻量模块 PCLM 加上 DPO 偏好优化，把 Audio Flamingo 3 在 VoxParadox 上从 17.40% 拉到 65.20%。
Evaluating and Rewarding LALMs for Expressive Role-Play TTS via Mean Continuation Log-Probability: 本文把"预训练大音频语言模型对真值语音 token 的续写概率"包装成一个名为 MCLP 的客观风格一致性度量，再用 MCLP+CER 的门控混合奖励，通过 GRPO 在新构建的 WenetSpeech-RP-TTS 数据集上把角色扮演 TTS 的主观 MOS 从 1.86 推到 3.58。
Few-Shot Synthetic Accented Speech for ASR Fine-Tuning: What Helps and When?: 用 few-shot TTS 合成带口音语音来微调 ASR，作者拆开"为什么有用"这个问题，发现真正起作用的多半是音素空间的扰动增强——随机替换音素就能拿到大部分增益，而 LLM 生成的"目标口音音素编辑"乃至 oracle 真值音素/韵律，相比随机基线只多出很小一截；同时合成数据在真实数据极少时能大幅降低训练方差，但固定配额的合成数据后期会稀释真实数据，真实-合成比例本身才是关键。
Focus Then Listen: An Empirical Study of Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models: 本文提出 Focus-Then-Listen（FTL）——一个不动 LALM 参数的即插即用音频增强器：先把输入波形分成语音/非语音两轨，再用一个 LLM 路由器根据用户指令判断该"听哪一类"，最后用模态感知融合块生成任务自适应的增强音频喂给大音频语言模型，从而在各种噪声条件下提升感知与推理性能。
Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration: 针对集中式多模态融合带来的"模态主导"和"虚假模态耦合"两个痼疾，GCL 把多模态学习重写为两阶段四 agent 的协议化协作：第一阶段由 Routing/Auditing agent 用边际预测增益逐样本决定哪些跨模态交流被允许，第二阶段由 Public-Factor/Aggregation agent 把共享语义与私有特化解耦后再聚合，在 MOSI/MOSEI/MIntRec 上拿到 SOTA。
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments: JAEGER 在 Qwen2.5-Omni 基础上用 LoRA 适配出一个端到端的 3D 音视频大模型，通过 RGB-D 深度位置编码 + 一阶 Ambisonics (FOA) 双路音频 + 新提出的 Neural Intensity Vector，将传统 AV-LLM 从「2D RGB + 单声道」扩展到「3D 几何 + 多通道空间音频」，并配套发布了 61k 样本的 SpatialSceneQA 仿真基准。
MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks: MECAT 用「多专家模型 + CoT 大模型推理」构造了 20k 条多视角细粒度音频字幕与 10 万条开放式 QA，并提出 DATE 指标（语义相似度 × 跨样本可区分度的调和平均），首次能稳定区分泛泛而谈与细节准确的音频模型输出。
MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models: MoshiRAG 在 Moshi 这一全双工语音模型里加入一个特殊的 ⟨ret⟩ 触发 token，让模型边说边异步调用 LLM/搜索后端去取参考文档，利用"开口到关键词出现"的自然 keyword delay 把 2 秒以内的检索延迟完全藏起来，从而在 LlamaQ/WebQ/TriviaQA/HaluEval 上把语音模型的事实性拉到 GPT-4o Audio 量级，同时保留全双工实时性。
MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety: MultiBreak 用"主动学习 + 不确定性引导改写"的迭代框架把多轮越狱数据集扩到 10,389 条对话、2,665 个独立有害意图，多样性 0.942 全面碾压前作，并在 DeepSeek-R1-7B / GPT-4.1-mini 上把 ASR 相比次优数据集分别提升 54% / 34.6%。
Multimodal Fact-Level Attribution for Verifiable Reasoning: MURGAT 是首个评测 MLLM 在多模态推理输出中"按事实粒度精确引用模态+时间段"能力的基准，搭配一个三步评估协议（可验证句识别 → 原子事实分解 → 归因质量）和高度与人工对齐的自动评测器 MURGAT-SCORE（Pearson 0.84），揭示了强模型即使答案对也常常胡乱引用，且强推理常以牺牲可验证引用为代价。
Multimodal Fusion via Self-Consistent Task-Gradient Fields: SCFAE 把多模态融合块改写成一个"任务损失 + 重建损失"组成的自洽场（Self-Consistent Field），通过把每个模态特征拆成"共享/特有"子空间并在模态间循环替换共享分量，让任务梯度干净地反传给各个编码器，从而在不等长输入、模态冲突、模态缺失三种场景下都比强耦合或重正则化的融合方法更稳健。
Multiple Choice Learning of Low-Rank Adapters for Language Modeling: 本文提出 LoRA-MCL，把 Multiple Choice Learning 的"赢者通吃"训练范式搬进 LoRA 微调：把 \(K\) 组低秩 adapter 当作 \(K\) 个相互竞争的假设，让每条训练样本只更新最合适的那组 adapter，从而让单一基座模型在一次前向里就能产生多条覆盖条件分布不同模态的多样合理文本，在音频/图像描述与机器翻译上同时刷新质量–多样性帕累托前沿。
MusicDET: Zero-Shot AI-Generated Music Detection: MusicDET 把"AI 生成音乐检测"重新定义为只用真实音乐训练的零样本问题，用频带分解 + 频带内归一化流 + 全局归一化流学习真实音乐能量谱的概率分布，把似然值当作"真伪分"，在 FakeMusicCaps / SONICS 的跨生成器评测下把平均 EER 从 ~17% 干到 4.51%（零样本）/ 0.89%（带类别条件先验）。
NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating: 用一套受皮层振荡启发的二维波动场（OWM）做实时显著性检测，给 Audio Language Model 在长音频上当一个"训练无关的注意力门"，只把真正显著的窗口送进 ALM，从而在 XD-Violence 上把 AP 从 53.5% 拉到 70.6%，同时减少约 40% 的 ALM 调用。
PhaLar: Phasors for Learned Musical Audio Representations: PhaLar 通过把音频特征投影到复平面并利用相位等变性——核心是用 FFT 把时间对齐编码为相位旋转——在音乐茎检索任务上相对 SOTA 提升 70%、参数仅为对手 44%、训练 7× 加速；从"相位不变"到"相位等变"是建筑哲学的根本转变。
Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration: Polyphonia 把 zero-shot 音色转换从单轨扩展到密集多轨混音：用盲源分离得到的 Ideal Ratio Mask（IRM）当外部声学先验，先在 pre-softmax 注意力 logit 里做"源插值 + 声学调制"，让目标声部（如人声）的频谱被新音色（如小提琴）替换的同时把背景伴奏严格保住，相比 SOTA 在 target alignment 上提升 15.5%。
Position: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning: 本文是一篇 position paper：作者论证当前文本嵌入研究过度聚焦"表层语义"（词形 / 句法 / 主题相似），系统性忽略了语用、立场、社会语境等"隐式语义"，并通过 7 个隐式语义数据集的实证显示——即便是 SOTA 嵌入相比 Bag-of-Tokens 也只有边际提升，呼吁把隐式语义作为嵌入研究的一等建模目标。
Position: Towards Responsible Evaluation for Text-to-Speech: 这是一篇立场论文，提出 TTS 评测应从"只看技术指标"升级为三层递进的 Responsible Evaluation——保真度与准确性、可比性与标准化、治理-公平-安全——并系统性诊断了当前 WER/SIM/MOS/RTF 等指标的失效模式，给出 13 条可执行建议。
Probing Cross-modal Information Hubs in Audio-Visual LLMs: 作者用因果追踪 + 单模态主导框架揭示了音视频 LLM 中存在一类被称为"跨模态 sink token"的隐藏枢纽,绝大多数跨模态信息都凝聚在这些 token 上,据此提出训练免费的注意力放大策略显著缓解物体幻觉。
Probing Token Spaces under Generator Shift in AI-Generated Music Detection: 这篇论文把 AI 音乐检测里被当成"预处理细节"的 token 空间（用哪种 tokenizer）提升为一个主实验变量：通过固定下游分类器 CoMoE、只替换输入 token，并在新构造的 MoM-open 上做"训练时只见一种伪造生成器、测试时换生成器"的 source-restricted 评测，证明在生成器迁移场景下不同 token 空间的鲁棒性差距巨大（Fake-Udio 上 X-Codec token 89.0% AUC vs EnCodec token 58.6%）。
SafeSearch: Automated Red-Teaming of LLM-Based Search Agents: 本文提出 SafeSearch——一个全自动、沙箱化、可扩展的红队框架，通过在真实搜索结果中注入单个 LLM 生成的不可靠网页来评测搜索 Agent 的安全性，并用 300 个测试用例对 17 个 LLM × 3 种 Agent 脚手架进行系统评测，发现最高 ASR 高达 90.5%、且常用的 reminder 防御几乎无效。
Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment: 在 VQ-VAE 语音编解码器训练时，让解码器同时吃「量化后 token」和「量化前连续 latent」两条路，用一个轻量特征对齐损失逼着前者的解码器内部特征去对齐后者，从而在零推理开销下显著提升重建保真度，并能把码本缩小 4 倍而不掉点。
Sparse Autoencoders for Interpretable Emotion Control in Text-to-Speech: 作者在 LLM-based TTS（IndexTTS2）的语义骨干残差流上训练 Top-k 稀疏自编码器（SAE），用"句级激活率差"挑出少量与目标情感强相关的稀疏潜在特征，推理时只对这几个特征做加/减干预，就能在不动主干参数的前提下实现可解释的双向情感诱导与抑制，效果优于全局均值差引导和现有 TTS 基线。
Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization: 本文发现音频语言模型 (ALM) 越狱优化中的波形梯度高度集中在少数 token 上，提出 TAGO 在每步只更新 top-\(\zeta\) 高能量 token 对应的波形区段，在 Qwen3-Omni 上仅保留 25% token 就能维持 86% 的 LLM-judge 越狱成功率 (vs 全量 token 的 87%)。
The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning: 本文提出 FLAIR：让全双工口语对话模型（SDLM）在"听用户说话"的同时，把通常用来填 <SIL> 的步骤改成连续的隐式推理——通过一个 ELBO 训练目标 + 非因果"全局专家"提供后验，让因果 LLM 学会用一串嵌入向量"边听边想"，从而显著提升问答质量却不引入任何推理延迟。
Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer: SwanSphere 提出"因果 AR 语言模型 + 局部 DiT（LocDiT）"的两阶段流式架构，从全景视频或文本生成一阶 Ambisonics（FOA）四通道空间音频，配合 SVAC 物理感知对比学习与三目标 ODPO，把首块延迟压到 0.21s 的同时在 FD/KL/角度误差上全面超越级联与端到端基线。
Towards Understanding Modality Interaction in Multimodal Language Models via Partial Information Decomposition: 本文把多模态大模型的决策看成一次输入到输出的信息分解，借 Partial Information Decomposition (PID) 把 VL/全模态模型的预测互信息拆成"视觉独有 / 文本独有 / 冗余 / 协同"四项，发现协同项是预测视觉敏感性的最佳指标、全模态模型存在"视觉霸权"型协同瓶颈，并用 PID 得到的样本级分数指导 LoRA 重加权微调，在 MMStar/MMBench/POPE 上稳定提升 1–2 个百分点。
Two-Dimensional Quantization for Geometry-Aware Audio Coding: 作者把神经音频 codec 中的标量量化器换成"成对通道 + 结构化二维网格"的几何量化器 Q2D2，用固定的六边形 / 矩形 / 菱形格点替代可学习码本，在单一 quantizer + 极低 token rate 下追平甚至超越 RVQ / VQ / FSQ 的语音重建质量。
VocSim：单源音频零样本内容身份识别的无训练基准: VocSim 是涵盖 125k 单源音频的无训练基准，通过冻结特征加标签无关的 PCA 白化诊断音频基础模型的内在几何结构——揭示当前模型在低资源跨语言语音上的严重泛化缺陷。