ACL 2025 LLM/NLP speech-LLM integration text-based integration latent-representation audio tokens speech language model 多模态

When Large Language Models Meet Speech: A Survey on Integration Approaches¶

会议: ACL 2025
arXiv: 2502.19548
代码: 无（综述论文）
领域: LLM/NLP
关键词: speech-LLM integration, text-based integration, latent-representation, audio tokens, speech language model, multimodal LLM

一句话总结¶

系统综述语音与大语言模型的集成方法，将现有工作分为文本级、隐表示级、音频token级三大类，覆盖 ASR/S2TT/S2ST/TTS 等应用场景，并给出各方法的优劣对比与未来挑战。

研究背景与动机¶

领域现状：LLM 在文本任务上取得巨大成功，研究者开始探索将其能力扩展到语音模态，涌现出大量 Speech-LLM 集成工作（AudioGPT、SALMONN、Qwen-Audio、Moshi 等）。

现有痛点：已有综述覆盖了语音语言模型（Peng et al., 2024）和音频语言模型（Latif et al., 2023），但缺乏专门针对语音与 LLM 集成方法的系统分类——研究者难以快速了解不同集成范式的权衡。

核心矛盾：语音是连续信号，LLM 天然处理离散 token；如何弥合这一模态差距是所有方法的核心挑战，且不同集成策略在精度、延迟、可解释性间存在不同权衡。

本文目标 提供一个清晰的分类框架，帮助研究者理解三种集成范式（文本级/隐表示级/音频token级）的机制、适用场景和优缺点。

切入角度：从"集成方法"而非"应用任务"出发组织文献，并在统一框架下对比各方法在 ASR、S2TT、S2ST、TTS 等任务上的性能。

核心 idea：token化方法影响 LLM 性能，语音-LLM 的集成方式不应局限于离散 token 化，三种范式各有其适用场景和发展空间。

方法详解¶

整体框架¶

将 Speech-LLM 集成方法分为三大类：(a) 文本级集成——LLM 处理文本，配合 ASR/TTS 管道；(b) 隐表示级集成——语音编码器输出的连续向量直接送入 LLM；(c) 音频token级集成——语音被离散化为语义/声学 token 作为 LLM 的输入/输出。每类下进一步细分具体策略。

关键设计 1：文本级集成（Text-based Integration）¶

功能：将语音先转为文本再交给 LLM 处理，包括级联集成、LLM 重打分（Rescoring）和生成式纠错（GER）三种子方法。
核心思路：级联方式最直接（ASR→LLM→TTS）；重打分用 LLM 语言概率对 N-best 假设列表重新排序，公式为 \(Y^* = \arg\max_{Y_i} [(1-\lambda)\log p_{AM}(Y_i|X) + \lambda \log p_{LLM}(Y_i)]\)；GER 更进一步，让 LLM 根据 N-best 假设直接生成更好的转录结果（H2T 范式）。
设计动机：保留 LLM 原生文本处理能力，实现简单、可解释性强。但存在误差传播和信息丢失（韵律、情感等非文本信息丢失）的固有缺陷。 GER 相比 Rescoring 能突破假设列表的上限，生成质量可能优于所有候选。 Lin et al. (2024) 进一步引入 MoE 架构让不同专家处理不同类型的生成错误。

关键设计 2：隐表示级集成（Latent-representation-based Integration）¶

功能：用语音编码器（HuBERT、Whisper encoder 等）提取连续隐表示，经模态适配模块后直接灌入 LLM 的嵌入空间，绕过文本中间步。
核心思路：关键在模态适配（Modality Adaptation）——解决语音帧率（50-100 fps）远高于文本 token 序列长度的问题。三种主流适配策略：① 卷积下采样（简单堆叠/卷积压缩）；② CTC 压缩（基于 CTC 预测去除空白帧或合并重复帧）；③ Q-Former（可学习的固定长度查询向量，通过交叉注意力提取信息）。对比实验显示 Q-Former > 卷积下采样 > CTC 压缩。
设计动机：避免文本中间表示的信息损失，实现更深度的模态融合。但代价是丧失可解释性，且训练成本更高（需同时处理编码器和 LLM）。冻结部分模块 + LoRA 微调是降低成本的主流策略。 Wu et al. (2023) 提出两阶段训练，先训练编码器再启动 PEFT，确保更稳定的梯度流。

关键设计 3：音频token级集成（Audio-token-based Integration）¶

功能：将语音离散化为 token 序列，与文本 token 统一处理。分为语义 token（S3M + k-means 聚类）、声学 token（神经音频编解码器如 EnCodec）和两者结合三种子方法。
核心思路：语义 token 捕获语音的语言内容，声学 token 保留高保真音频质量。先预测语义 token 再预测声学 token 的两阶段架构（AudioLM）是典型范式。Moshi 引入 Temporal Transformer + Depth Transformer 的层级自回归架构，实现全双工语音对话。
设计动机：音频 token 让语音和文本在 token 层面统一，LLM 可以自然地生成语音输出（而隐表示方法通常只能输入语音，不能输出）；但语义 token 缺乏音质，声学 token 缺乏语义信息，如何结合两者仍是开放问题。

实验关键数据¶

主实验 — ASR 任务性能对比（LibriSpeech test-clean / test-other WER↓）¶

模型	集成方法	test-clean	test-other
Whisper-large-v2	非 LLM 基线	2.7	5.2
HyPoradise	文本级 → GER	1.8	3.7
Seed-ASR	隐表示 → 卷积下采样	1.5	2.8
SALMONN	隐表示 → Q-Former	2.1	4.9
Qwen2-Audio	隐表示 → 其他适配	1.6	3.6
SpeechGPT-Gen	音频token → 语义token	2.4	—

S2TT 任务性能对比（CoVoST2 de-en / zh-en BLEU↑）¶

模型	集成方法	de→en	zh→en
Whisper-large-v2	非 LLM 基线	36.3	18.0
GenTranslate-V2	文本级 → GER	40.6	23.3
LLaST	隐表示 → 其他适配	41.2	24.8
AudioPaLM	音频token → 语义+声学	43.4	25.5

三类方法优劣对比（综述总结）¶

维度	文本级	隐表示级	音频token级
集成深度	浅	最深	中
可解释性	最好	最差	中
语音生成能力	✓（需 TTS）	✗（通常不能）	✓（原生）
实时处理能力	差（多步延迟）	好	好
实现难度	最简单	中	中

关键发现¶

隐表示级方法在 ASR 上整体表现最好：Seed-ASR (WER 1.5/2.8) 和 Qwen2-Audio (WER 1.6/3.6) 超越文本级方法
文本级 GER 仍有独特价值：HyPoradise 在无需额外语音编码器的前提下，将 WER 从 2.7 降到 1.8
音频token方法在生成任务（TTS/S2ST）上更有优势：AudioPaLM 在 S2ST 上相比传统级联系统大幅提升（de-en ASR-BLEU 37.2 vs 33.6）
Q-Former 优于卷积下采样优于 CTC 压缩——模态适配策略对隐表示方法性能影响显著
直接对比困难：各方法使用的骨干 LLM、训练数据和协议差异大，缺乏统一基准
训练策略影响显著：Pham et al. (2024) 证明 LoRA 微调 LLM 显著提升性能，编码器全量微调效果最佳但部分微调更具性价比
Spirit-LM 和 Moshi 代表音频token方法的前沿：Topic-StoryCloze 上 Moshi 达到 83.6，Spirit-LM 达到 82.9，显著优于 TWIST 系列，证明语义+声学 token 融合的有效性

亮点与洞察¶

三分法分类框架清晰实用：从集成方法（而非任务）出发组织文献，填补了现有综述的空白，为新研究者提供了高效的入门路径。
"集成深度 vs 可解释性"的权衡洞察直击核心——越深的集成性能越好但越不可控，这是 Speech-LLM 领域的根本张力。
模态适配策略的细粒度对比（卷积/CTC/Q-Former）为具体方法选择提供了量化依据。
音频token级方法是最有潜力的统一范式：能同时处理输入和输出语音，但目前成熟度不如隐表示方法。
训练策略分析：综述系统总结了冻结/微调各模块的策略权衡——LoRA 微调 LLM + 全量微调编码器是当前最佳实践，两阶段训练（先训练编码器再启动 PEFT）可提升稳定性。
六大挑战的系统梳理涵盖文本信息丢失、语音-文本对齐、语义+声学 token 融合、公平对比缺失、多语言支持不足和实时处理延迟，为后续研究提供了明确路线图。
语音表示背景知识全面：从滤波器组到自监督模型（HuBERT、wav2vec 2.0）再到语义/声学 token，为读者提供了完整的语音表示知识体系。
实时处理挑战：综述明确指出 LLM 的大尺寸导致延迟增加，而 Moshi 和 Llama-Omni 等实时模型展示了深度集成降低延迟的可能性。

局限性¶

作为综述论文，没有做原创实验验证，定量对比受限于各原始论文不同的实验设置
主要覆盖英语相关工作，多语言场景讨论有限
快速发展的领域，可能遗漏最新进展（如 GPT-4o 的语音能力未能充分讨论）
缺乏统一基准下的公平对比实验（作者也承认这是重要未来方向）
LLM 的定义采用宽泛标准（>10B 参数），也纳入了部分较小模型的研究，边界不够清晰
对计算成本的讨论停留在定性层面，缺少实际 FLOPs/延迟的数值对比
未详细讨论隐私和安全问题（如语音深伪、说话人隐私保护等）
语音情感/副语言信息的处理讨论不够深入，这是语音相比文本的重要额外信息源

评分¶

新颖性: ⭐⭐⭐⭐ 分类框架新颖实用，但作为综述无原创方法
实验充分度: ⭐⭐⭐⭐ 汇总了大量定量结果进行横向对比，但受限于非统一实验设置
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，分类学图表出色，语言精练，背景知识介绍全面
价值: ⭐⭐⭐⭐⭐ 填补 Speech-LLM 集成方法综述空白，对领域研究者有很高参考价值，尤其适合新入门者快速了解领域全貌