🎵 音频/语音¶
🤖 AAAI2026 · 31 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (22) · 🔬 ICLR2026 (79) · 💬 ACL2026 (70) · 🧪 ICML2026 (36) · 🧠 NeurIPS2025 (47) · 📹 ICCV2025 (11)
🔥 高频主题: 语音 ×13 · 情感分析 ×7 · 多模态 ×4 · 对话系统 ×2 · 扩散模型 ×2
- A Mind Cannot Be Smeared Across Time
-
本文从形式化角度证明,机器是否具有意识不仅取决于计算什么,还取决于何时计算——严格顺序执行的系统不满足意识统一性所需的时间共现(co-instantiation)条件,因此纯软件意识在严格顺序硬件上是不可能的。
- DeepDebater: A Superpersuasive Autonomous Policy Debating System
-
提出DeepDebater,首个能参与并赢得完整美式策略辩论赛(八轮发言+交叉质询)的自主多Agent系统,基于层级式Agent工作流分工完成正方(Advantage)/反方(DA+CP+Kritik)论证构建,以OpenDebateEvidence的300万+张证据卡做检索增强,辅以GPT-4o TTS语音合成和EchoMimic数字人动画,在专家评估中各项指标显著超越人类编写案例(Quality 4.32 vs 3.65),模拟对局胜率达85%。
- AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
-
通过对大音频语言模型(LALM)Transformer 骨干中的注意力头进行二值掩码(AHAMask),无需文本指令即可可靠触发特定声学任务功能,同时揭示了 LALM 内部存在"声学功能通路"。
- Aligning Generative Music AI with Human Preferences: Methods and Challenges
-
综述/立场论文,系统梳理偏好对齐技术在音乐生成中的三条路线——MusicRL(大规模 RLHF,~30 万偏好对)、DiffRhythm+(扩散模型多偏好 DPO)、Text2midi-InferAlign(推理时树搜索,CLAP +29.4%),深入分析音乐领域独有的对齐挑战(多尺度时间连贯性、和声一致性、文化主观性、评估悖论),并给出未来路线图。
- CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation
-
提出 CCFQA——首个覆盖 8 种语言、14,400 条完全平行语音-文本事实问答样本的跨语言跨模态基准,支持 QA/XQA/SQA/XSQA 四种任务设定,系统揭示了现有 MLLM 在语言和模态切换下的事实不一致性;同时提出 LLM-SQA,以英语为桥接语言、仅 5-shot 即实现跨语言语音问答迁移,在 XSQA 上 F1 达 51.4 超越 GPT-4o-mini-Audio(45.7)。
- Characterizing AI Manipulation Risks in Brazilian YouTube Climate Discourse
-
通过心理语言学框架分析巴西 YouTube 上 22.6 万条气候变化视频和 275 万条评论,揭示情感/道德修辞显著驱动用户互动,并展示微调 LLM 可自动生成高互动性的气候否认评论,警示生成式 AI 在舆论操控中的潜在风险。
- Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation
-
提出 Cross-Space Synergy(CSS)框架,通过表示空间的协同多项式融合(SPF)和梯度空间的 Pareto 梯度调节器(PGM)双管齐下,同时解决多模态对话情感识别中融合表达力不足和多目标梯度冲突两大难题。
- DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization
-
提出 DeformTrace,将可变形动态感受野和中继令牌机制引入状态空间模型,结合 Transformer 的全局建模与 SSM 的高效推理,实现时序伪造定位的 SOTA 精度与显著效率提升。
- Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation
-
提出 Diff-V2M,一个基于层次条件扩散 Transformer 的视频到音乐生成框架,通过显式节奏建模(低分辨率 ODF)和层次交叉注意力机制整合情感/语义/节奏特征,在域内和域外数据集上均达到 SOTA。
- DiffA: Large Language Diffusion Models Can Listen and Understand
-
提出 DIFFA——首个基于扩散语言模型的大型音频-语言模型,通过冻结 LLaDA-8B 骨干网络 + 轻量双适配器架构 + 两阶段训练管线,仅用 960 小时 ASR 数据和 127 小时合成指令数据就在 MMSU、MMAU、VoiceBench 上达到与自回归 baseline 竞争的性能。
- Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning
-
提出 PRC-Emo 框架,通过显式/隐式情感提示、专用检索库和课程学习策略三位一体地提升 LLM 在对话情感识别(ERC)任务上的表现,在 IEMOCAP 和 MELD 两个基准上取得 SOTA。
- DualSpeechLM: Towards Unified Speech Understanding and Generation via Dual Speech Token Modeling
-
提出 DualSpeechLM 框架,通过理解驱动语音分词器(USTokenizer)提取高层语义 token 作为 LLM 输入、声学 token 作为输出,在一个端到端框架中同时优化语音理解和生成能力。
- End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering
-
提出 CLSR,一种端到端对比式语言-语音检索器,通过将声学表示先转换为 text-like representation 再与文本对齐,高效地从长音频中提取与问题相关的片段,为下游 LALM 的长语音问答提供 RAG 支持。
- Factor(U,T): Controlling Untrusted AI by Monitoring their Plans
-
研究不可信 AI 做任务分解、可信 AI 做执行的 Factor(U,T) 协议安全性,发现监控分解计划的 AUROC 仅 0.52(接近随机),而监控具体代码实现可达 0.96——恶意意图在抽象计划中难以检测但在具体实现中暴露,结论是"结构性预防(可信分解器)优于事后监控"。
- GOMPSNR: Reflourish the Signal-to-Noise Ratio Metric for Audio Generation Tasks
-
通过引入全方位相位导数(omnidirectional phase derivatives)替换瞬时相位来重构 SNR 指标,提出 GOMPSNR 作为更可靠的音频质量评估指标,并衍生出一系列新的损失函数显著提升神经声码器性能。
- Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR
-
MARS 提出多模态检索-选择方法为对话式 LLM-ASR 挑选最相关的历史上下文(而非固定前几句或全部历史),在仅用 1.5K 小时训练数据的情况下超越了用 179K 小时数据训练的 SOTA 系统 TEA-ASLP。
- HPSU: A Benchmark for Human-Level Perception in Real-World Spoken Speech Understanding
-
提出 HPSU 基准,包含 20,000+ 中英文专家标注样本和 16 项任务,系统评估 Speech LLM 在真实口语场景下的深层感知与推理能力,发现最强模型(Gemini 2.5 Pro,62.6%)与人类表现(87.3%)仍有巨大差距。
- HQ-SVC: Towards High-Quality Zero-Shot Singing Voice Conversion in Low-Resource Scenarios
-
提出 HQ-SVC 框架,基于解耦音频编解码器(FACodec)联合提取内容与说话人特征,结合增强语音适配模块(EVA)融合音高、能量等声学特征,通过 DDSP + 扩散模型渐进式优化,在单张 RTX 3090、不到 80 小时歌声数据条件下实现了超越大规模训练基线的零样本歌声转换质量,并附带支持语音超分辨率任务。
- Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection
-
提出 MODS 框架,通过图卷积动态序列压缩(GDC)消除非语言模态冗余,并设计样本级动态主模态选择器(MSelector)和主模态中心交叉注意力(PCCA),实现 MSA 中按样本自适应选择主导模态。
- Let the Model Learn to Feel: Mode-Guided Tonality Injection for Symbolic Music Emotion Recognition
-
通过 MoGE 诊断策略系统发现 MIDIBERT 未有效编码调式-情感关联,提出 MoFi 注入框架通过 FiLM 机制将大调/小调先验注入 MIDIBERT 第 1 层(诊断确定的最弱情感信息层),在 EMOPIA 上准确率 75.2%(+11.8%),VGMIDI 上 59.1%(+11.8%),F1 提升 12.3%/15.5%。
- Listening Between the Frames: Bridging Temporal Gaps in Large Audio-Language Models
-
提出 TimeAudio,通过时间标记(Temporal Markers)、绝对时间编码(Absolute Time-aware Encoding)和段级 Token 合并(Segment-level Token Merging)三个关键模块,赋予大型音频语言模型(LALM)精确的时间定位能力和端到端长音频理解能力,并构建了 FTAR 数据集用于细粒度时间推理的指令微调。
- MF-Speech: Achieving Fine-Grained and Compositional Control in Speech Generation via Factor Disentanglement
-
提出MF-Speech框架,通过多目标优化将语音信号解耦为高纯度的内容、音色和情绪三个独立因子表示,再利用动态融合和层级风格自适应归一化(HSAN)实现细粒度的组合式语音生成控制,在多因子组合语音生成任务上显著超越现有方法(WER=4.67%, SECS=0.5685)。
- Multi-granularity Interactive Attention Framework for Residual Hierarchical Pronunciation Assessment
-
提出HIA框架,通过交互注意力模块(Interactive Attention Module)实现音素、词、句三粒度间的双向信息交互,结合残差层级结构缓解特征遗忘问题,在speechocean762数据集上所有粒度和方面指标均达到SOTA。
- PaSE: Prototype-aligned Calibration and Shapley-based Equilibrium for Multimodal Sentiment Analysis
-
提出 PaSE 框架,通过原型引导校准对齐(Entropic Optimal Transport)与 Shapley 值梯度调制的双阶段优化策略,显式解决多模态情感分析中的模态竞争问题。
- PSA-MF: Personality-Sentiment Aligned Multi-Level Fusion for Multimodal Sentiment Analysis
-
首次在多模态情感分析(MSA)中引入预训练人格模型提取个性化情感特征,通过人格-情感对比学习对齐和多层(预融合→交叉模态交互→增强融合)渐进融合架构,在CMU-MOSI和CMU-MOSEI上达到SOTA。
- REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
-
提出 REINA(Regularized Entropy INformation Adaptation)损失函数,基于互信息理论高效地将非流式语音翻译模型转换为流式同声传译模型,在多语言方向上达到 SOTA 流式翻译性能,并提出新的流式效率评估指标 NoSE。
- Say More with Less: Variable-Frame-Rate Speech Tokenization via Adaptive Clustering and Implicit Duration Coding
-
提出 VARSTok,首个全动态可变帧率语音 tokenizer,通过时序感知密度峰聚类和隐式时长编码,实现自适应 token 分配,在使用更少 token 的同时超越固定帧率基线。
- SpikCommander: A High-Performance Spiking Transformer with Multi-View Learning for Efficient Speech Command Recognition
-
提出 SpikCommander,一种全脉冲驱动的 Transformer 架构,通过多视图脉冲时序感知自注意力(MSTASA)和脉冲上下文精炼 MLP(SCR-MLP)联合增强时序与通道特征建模,在 SHD/SSC/GSC 三个基准上以更少参数超越 SOTA SNN 方法。
- A Text-Routed Sparse Mixture-of-Experts Model with Explanation and Temporal Alignment for Multi-Modal Sentiment Analysis
-
提出 TEXT 模型,利用 MLLM 为音视频生成自然语言解释来增强模态表示,设计融合 Mamba 与时序交叉注意力优点的轻量时序对齐模块,并以文本路由的稀疏专家混合进行跨模态融合,在四个 MSA 数据集上全面超越 SOTA 及 GPT-4o 等大模型。
- Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning
-
Authentic-Dubber 模拟真实配音工作流程中导演与演员的交互过程,通过构建多模态参考素材库、基于情感相似度的检索增强策略和渐进式图语音生成方法,显著提升了自动电影配音的情感表现力,在V2C-Animation数据集上的情感准确率和MOS评分均达到SOTA。
- USE: A Unified Model for Universal Sound Separation and Extraction
-
提出 USE 统一框架,通过 EDA 网络推断声源数量和声学线索实现声音分离 (SS),多模态融合网络解释用户提供的文本/视频/标签线索实现目标声音提取 (TSE),联合训练+跨任务对齐使两项任务互相增强,SS +1.4dB SDR,TSE 匹配准确率 86%。