TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling¶
会议: ICLR 2026
arXiv: 2504.07053
代码: GitHub
领域: LLM预训练
关键词: speech tokenization, spoken language model, text-speech alignment, joint modeling, speech reconstruction
一句话总结¶
提出 TASTE(Text-Aligned Speech Tokenization and Embedding),通过跨注意力机制将语音 token 与文本转录对齐,实现极低比特率(~150 bps)下的高质量语音重建,并使文本-语音联合建模变得直接高效,1.3B 参数的 TASLM 超越 7B 预训练 SLM。
研究背景与动机¶
口语语言模型(Spoken Language Model, SLM)的核心挑战在于语音 token 化。现有方法存在两大问题:
长度不匹配:语音 token 序列通常比对应文本长 10-50 倍(典型 50 Hz vs ~3 Hz),导致联合建模困难
信息冗余:现有语音 token(SSL 量化或 codec)独立于文本提取,不可避免地与文本 token 编码重叠信息
常见的缓解策略包括: - token 交错(Spirit LM) - 填充同步序列长度(Moshi, MiniOmni) - 额外对齐训练阶段
这些方案都增加了复杂性,且本质上是在 token 化之后补救。
TASTE 的核心思想是:在 token 化阶段就解决对齐问题。语音 token 应该: 1. 避免冗余编码文本内容(已由文本 token 携带),专注于副语言信息 2. 与文本 token 一一对应,使联合建模无需启发式规则或显式对齐
方法详解¶
整体框架¶
TASTE 包含两个主要组件:
- 文本对齐语音 tokenizer(Section 3.1.1):将语音编码为与文本 token 等长的语音 token
- 语音解码器(Section 3.1.2):基于文本 token 和对齐的语音 token 重建语音
关键设计¶
Tokenizer 三部件:
编码器(Encoder):使用冻结的 Whisper ASR 编码器,提取两层隐藏表征: - 最后层 \(\mathbf{h}^{(L)}\):包含丰富的语音-文本对齐线索 - 浅层 \(\mathbf{h}^{(l)}\)(前半层):支持高质量语音重建
聚合器(Aggregator):核心创新——使用跨注意力机制实现文本对齐:
直觉:用最后层的对齐线索(作为 Key)来引导注意力,聚合浅层的声学信息(作为 Value),输出长度跟随文本转录(作为 Query)。输出 \(\mathbf{z} \in \mathbb{R}^{N \times d_z}\),长度自然与文本 token 数 \(N\) 对齐。
量化器(Quantizer):使用残差向量量化(RVQ)离散化:
设置 \(R=4\) 层 RVQ,码本大小 512,维度 256。
语音解码器:Transformer 解码器预测语音单元,再通过 flow model + HiFiGAN 生成波形:
损失函数¶
整体训练目标为重建损失和量化损失之和:
其中交叉熵重建损失:
量化承诺损失:
联合语言模型训练:两种变体
- Token 模式(\(\text{TASLM}_{\text{token}}\)):多头预测,同时预测下一个文本 token 和 R 层 RVQ codes
- Embedding 模式(\(\text{TASLM}_{\text{emb}}\)):预测连续嵌入 \(\mu_i, \sigma_i\),加正则化和 KL 散度损失
实验关键数据¶
主实验¶
语音重建质量(LibriSpeech test-clean):
| 方法 | 频率 | 比特率 | WER↓ | UTMOS | DNSMOS | ViSQOL | 时长一致性 | 说话人相似 | MUSHRA |
|---|---|---|---|---|---|---|---|---|---|
| Encodec (75Hz, 2RVQ) | 75 | 3000 | 2.6% | 2.35 | 3.48 | 3.81 | 0.96 | 0.78 | 25.6 |
| SpeechTokenizer (2RVQ) | 50 | 2000 | 3.0% | 3.56 | 3.60 | 3.65 | 0.97 | 0.80 | 53.9 |
| Mimi | 12.5 | 1000 | 3.1% | 3.60 | 3.60 | 3.62 | 0.96 | 0.82 | 67.6 |
| S3 token (topline) | 25 | 600 | 3.0% | 4.18 | 3.90 | 3.30 | 0.96 | 0.82 | 70.2 |
| Text-only (baseline) | ~3 | ~50 | 5.9% | 4.31 | 4.11 | 2.44 | 0.57 | 0.78 | 42.6 |
| TASTE | ~3 | ~150 | 4.4% | 4.29 | 4.10 | 3.05 | 0.91 | 0.80 | 68.3 |
TASTE 在最低频率和比特率下实现了与高比特率方法可比甚至更优的质量。
口语语言模型性能(语音续写 + 似然评估):
| 方法 | 参数量 | GPT-4o | UTMOS | 人类MOS | SALMON | StoryCloze | Overall |
|---|---|---|---|---|---|---|---|
| TWIST 7B | 7B | 1.44 | 3.27 | 2.04 | 63.4 | 64.7 | 64.1 |
| Spirit LM 7B | 7B | 2.79 | 3.41 | 2.38 | 59.1 | 72.0 | 65.6 |
| Spirit LM Expr. 7B | 7B | 1.90 | 3.40 | 2.41 | 69.0 | 66.2 | 67.6 |
| TASLM 1B (token) | 45M/1.3B | 3.08 | 4.07 | 3.93 | 60.8 | 76.5 | 68.7 |
| TASLM 1B (embed.) | 45M/1.3B | 3.16 | 4.22 | 4.16 | 57.7 | 76.7 | 67.2 |
1.3B TASLM 仅用 LoRA 微调,在续写评估上全面超越 7B 级别的预训练 SLM。
消融实验¶
Tokenizer 模块消融(S3 token top-5 重建准确率):
| 模块 | 频率 | 准确率 |
|---|---|---|
| Encoder only | 50Hz | 0.98 |
| Encoder + Aggregator | ~3Hz | 0.88 |
| Encoder + Agg + Quantizer | ~3Hz | 0.76 |
| Encoder (仅最后层) | 50Hz | 0.84 |
| Encoder + Agg (仅最后层) | ~3Hz | 0.78 |
| Text-only | ~3Hz | 0.65 |
关键发现: - 聚合器将频率从 50Hz 降到 ~3Hz,准确率仅下降 0.10 - 使用浅层表征作为 Value(0.88)优于仅用最后层(0.78) - 量化后仍远高于 text-only 基线(0.76 vs 0.65)
关键发现¶
- 文本对齐 token 化的核心价值:直接用 S3 token 进行联合建模效果极差(即使重建质量更好),证明 token 化设计对联合建模的重要性超越重建质量本身
- TASTE 使联合建模"直截了当":无需交错、填充、延迟解码等技巧,一一对应即可
- TASTE 支持文本对齐语音编辑:交换两个相同转录的话语的 TASTE token,对应词的副语言特征(如时长、语调)被精确交换
- Few-shot 语音问答能力:TASLM 是唯一展现 few-shot 语音 QA 能力的预训练 SLM
- TASLM 是唯一保持甚至超越基座文本 LLM 性能的 SLM
亮点与洞察¶
- 设计理念优雅:不是在联合建模阶段修补长度不匹配,而是在 token 化阶段根治,体现了"正确抽象层级解决正确问题"的工程哲学
- K/V 分离设计精妙:用最后层作 Key 提供对齐先验,用浅层作 Value 提供声学信息,两者各司其职
- 极低比特率(~150 bps vs 典型 1000+ bps)说明文本已携带绝大部分信息,语音 token 只需编码"残差"副语言信息
- LoRA 即可有效:无需全参数训练,1.3B 模型即超越 7B 全参数训练基线
- 语音编辑实验直接验证了 TASTE token 确实编码的是词级副语言信息而非语义内容
局限性¶
- 仅在英语数据上验证,多语言泛化未知
- 缺乏对话轮转和指令跟随能力
- 仅处理单说话人含词汇内容的语音,多说话人、重叠语音、非词汇事件未覆盖
- 依赖 ASR 质量——ASR 错误会级联传播到 TASTE token
- token 化方案专为联合 SLM 设计,对纯语音生成任务(如 TTS)的适用性未探索
相关工作与启发¶
- 与 Moshi(Défossez et al., 2024)的比较:Moshi 训练自有 codec 以降低频率,TASTE 更根本地通过文本对齐实现
- 与 Spirit LM(Nguyen et al., 2025)的交错策略相比,TASTE 的一一对应更加自然
- 启发:联合 token 化的思想可推广到其他多模态场景(如视频+文本、音乐+乐谱)
- 浅层+深层分离的信息架构在其他 Transformer 编码器中可能也有价值
评分¶
- 创新性: ⭐⭐⭐⭐⭐ — 首个端到端文本对齐语音 token 化方案,从 token 化层面解决联合建模问题
- 实验充分性: ⭐⭐⭐⭐ — 重建+语言模型+编辑+QA 多维评估,消融完整
- 实用性: ⭐⭐⭐⭐ — 代码和模型开源,LoRA 即可使用,但依赖 ASR
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分
- 综合评分: ⭐⭐⭐⭐⭐ (4.5/5)