TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling¶
会议: ICLR 2026
arXiv: 2504.07053
代码: GitHub
领域: LLM预训练
关键词: speech tokenization, spoken language model, text-speech alignment, joint modeling, speech reconstruction
一句话总结¶
提出 TASTE(Text-Aligned Speech Tokenization and Embedding),通过跨注意力机制将语音 token 与文本转录对齐,实现极低比特率(~150 bps)下的高质量语音重建,并使文本-语音联合建模变得直接高效,1.3B 参数的 TASLM 超越 7B 预训练 SLM。
研究背景与动机¶
口语语言模型(Spoken Language Model, SLM)的核心挑战在于语音 token 化。现有方法存在两大问题:
长度不匹配:语音 token 序列通常比对应文本长 10-50 倍(典型 50 Hz vs ~3 Hz),导致联合建模困难
信息冗余:现有语音 token(SSL 量化或 codec)独立于文本提取,不可避免地与文本 token 编码重叠信息
常见的缓解策略包括: - token 交错(Spirit LM) - 填充同步序列长度(Moshi, MiniOmni) - 额外对齐训练阶段
这些方案都增加了复杂性,且本质上是在 token 化之后补救。
TASTE 的核心思想是:在 token 化阶段就解决对齐问题。语音 token 应该: 1. 避免冗余编码文本内容(已由文本 token 携带),专注于副语言信息 2. 与文本 token 一一对应,使联合建模无需启发式规则或显式对齐
方法详解¶
整体框架¶
TASTE 由一个文本对齐语音 tokenizer 和一个语音解码器组成:前者把语音编码成与文本转录等长的语音 token,后者再吃下文本 token 和对齐后的语音 token 把波形重建回来。整套设计的关键点是让语音 token 的数量从一开始就跟文本 token 一一对应,而不是事后再去补齐两者长度不匹配的问题。
关键设计¶
1. 双层编码器:把对齐线索和声学细节分开取。 Tokenizer 的第一部件是一个冻结的 Whisper ASR 编码器,但 TASTE 没有只取它的输出,而是同时抽取两层隐藏表征:最后层 \(\mathbf{h}^{(L)}\) 经过完整的 ASR 通路、富含语音与文本的对齐线索,浅层 \(\mathbf{h}^{(l)}\)(取前半部分的层)则保留了更多支撑高质量重建的声学细节。把这两类信息从不同深度分头取出,是后面聚合器能各取所需的前提——一层负责"对得齐",一层负责"听得清"。
2. 跨注意力聚合器:用文本转录当查询,自然压到文本长度。 这是 TASTE 的核心创新。聚合器用一个跨注意力把高频语音表征压缩到文本长度,三个角色的分工是 \(Q=\text{文本转录 }\mathbf{v}\)、\(K=\mathbf{h}^{(L)}\)、\(V=\mathbf{h}^{(l)}\):
直觉是用最后层的对齐线索当 Key 去引导注意力的分配,从浅层 Value 里聚合声学信息,而输出长度跟随作为 Query 的文本转录。这样输出 \(\mathbf{z}\in\mathbb{R}^{N\times d_z}\) 的长度天然就等于文本 token 数 \(N\),把通常长 10–50 倍的语音序列直接降到约 3 Hz,且无需任何启发式的对齐或填充。K/V 分离让对齐先验和声学内容各司其职,这也是消融里"浅层作 Value(0.88)明显优于仅用最后层(0.78)"的来源。
3. 残差向量量化:把对齐后的连续向量离散成可建模的 token。 聚合器输出的连续向量 \(\mathbf{z}\) 经残差向量量化(RVQ)离散化,得到 \(R\) 组码字和重构向量:
这里取 \(R=4\) 层 RVQ、码本大小 512、维度 256。因为文本已经携带了绝大部分语义内容,量化器只需编码词级的副语言"残差"(时长、语调等),所以即使比特率压到 ~150 bps,量化后的重建准确率仍远高于 text-only 基线(0.76 vs 0.65)。
4. 语音解码器:从文本与语音 token 还原波形。 解码端是一个 Transformer 单元解码器,吃下重构向量 \(\hat{\mathbf{z}}\) 和文本 token \(\mathbf{v}\) 预测语音单元 \(\mathbf{y}=\text{UnitDecoder}(\hat{\mathbf{z}}, \mathbf{v})\),再接 flow model 与 HiFiGAN 合成最终波形。文本 token 在这里一并作为条件输入,保证了语义内容由文本承载、副语言信息由语音 token 补充的分工在解码时仍然成立。
损失函数 / 训练策略¶
Tokenizer 的训练目标是重建损失与量化损失之和 \(\mathcal{L}_{\text{taste}} = \mathcal{L}_{\text{ce}} + \mathcal{L}_{\text{rvq}}\)。其中重建项是单元解码器在目标语音单元上的自回归交叉熵
量化项是 RVQ 各层的承诺损失
在此之上做文本-语音联合语言模型训练时有两种变体:Token 模式 \(\text{TASLM}_{\text{token}}\) 用多头预测,同时预测下一个文本 token 和 \(R\) 层 RVQ codes;Embedding 模式 \(\text{TASLM}_{\text{emb}}\) 则预测连续嵌入的 \(\mu_i, \sigma_i\),并加上正则化与 KL 散度损失。两种变体都只用 LoRA 微调基座 LLM,因此 1.3B 的 TASLM 才能在如此低的训练成本下超越 7B 全参数训练的基线。
实验关键数据¶
主实验¶
语音重建质量(LibriSpeech test-clean):
| 方法 | 频率 | 比特率 | WER↓ | UTMOS | DNSMOS | ViSQOL | 时长一致性 | 说话人相似 | MUSHRA |
|---|---|---|---|---|---|---|---|---|---|
| Encodec (75Hz, 2RVQ) | 75 | 3000 | 2.6% | 2.35 | 3.48 | 3.81 | 0.96 | 0.78 | 25.6 |
| SpeechTokenizer (2RVQ) | 50 | 2000 | 3.0% | 3.56 | 3.60 | 3.65 | 0.97 | 0.80 | 53.9 |
| Mimi | 12.5 | 1000 | 3.1% | 3.60 | 3.60 | 3.62 | 0.96 | 0.82 | 67.6 |
| S3 token (topline) | 25 | 600 | 3.0% | 4.18 | 3.90 | 3.30 | 0.96 | 0.82 | 70.2 |
| Text-only (baseline) | ~3 | ~50 | 5.9% | 4.31 | 4.11 | 2.44 | 0.57 | 0.78 | 42.6 |
| TASTE | ~3 | ~150 | 4.4% | 4.29 | 4.10 | 3.05 | 0.91 | 0.80 | 68.3 |
TASTE 在最低频率和比特率下实现了与高比特率方法可比甚至更优的质量。
口语语言模型性能(语音续写 + 似然评估):
| 方法 | 参数量 | GPT-4o | UTMOS | 人类MOS | SALMON | StoryCloze | Overall |
|---|---|---|---|---|---|---|---|
| TWIST 7B | 7B | 1.44 | 3.27 | 2.04 | 63.4 | 64.7 | 64.1 |
| Spirit LM 7B | 7B | 2.79 | 3.41 | 2.38 | 59.1 | 72.0 | 65.6 |
| Spirit LM Expr. 7B | 7B | 1.90 | 3.40 | 2.41 | 69.0 | 66.2 | 67.6 |
| TASLM 1B (token) | 45M/1.3B | 3.08 | 4.07 | 3.93 | 60.8 | 76.5 | 68.7 |
| TASLM 1B (embed.) | 45M/1.3B | 3.16 | 4.22 | 4.16 | 57.7 | 76.7 | 67.2 |
1.3B TASLM 仅用 LoRA 微调,在续写评估上全面超越 7B 级别的预训练 SLM。
消融实验¶
Tokenizer 模块消融(S3 token top-5 重建准确率):
| 模块 | 频率 | 准确率 |
|---|---|---|
| Encoder only | 50Hz | 0.98 |
| Encoder + Aggregator | ~3Hz | 0.88 |
| Encoder + Agg + Quantizer | ~3Hz | 0.76 |
| Encoder (仅最后层) | 50Hz | 0.84 |
| Encoder + Agg (仅最后层) | ~3Hz | 0.78 |
| Text-only | ~3Hz | 0.65 |
关键发现: - 聚合器将频率从 50Hz 降到 ~3Hz,准确率仅下降 0.10 - 使用浅层表征作为 Value(0.88)优于仅用最后层(0.78) - 量化后仍远高于 text-only 基线(0.76 vs 0.65)
关键发现¶
- 文本对齐 token 化的核心价值:直接用 S3 token 进行联合建模效果极差(即使重建质量更好),证明 token 化设计对联合建模的重要性超越重建质量本身
- TASTE 使联合建模"直截了当":无需交错、填充、延迟解码等技巧,一一对应即可
- TASTE 支持文本对齐语音编辑:交换两个相同转录的话语的 TASTE token,对应词的副语言特征(如时长、语调)被精确交换
- Few-shot 语音问答能力:TASLM 是唯一展现 few-shot 语音 QA 能力的预训练 SLM
- TASLM 是唯一保持甚至超越基座文本 LLM 性能的 SLM
亮点与洞察¶
- 设计理念优雅:不是在联合建模阶段修补长度不匹配,而是在 token 化阶段根治,体现了"正确抽象层级解决正确问题"的工程哲学
- K/V 分离设计精妙:用最后层作 Key 提供对齐先验,用浅层作 Value 提供声学信息,两者各司其职
- 极低比特率(~150 bps vs 典型 1000+ bps)说明文本已携带绝大部分信息,语音 token 只需编码"残差"副语言信息
- LoRA 即可有效:无需全参数训练,1.3B 模型即超越 7B 全参数训练基线
- 语音编辑实验直接验证了 TASTE token 确实编码的是词级副语言信息而非语义内容
局限性¶
- 仅在英语数据上验证,多语言泛化未知
- 缺乏对话轮转和指令跟随能力
- 仅处理单说话人含词汇内容的语音,多说话人、重叠语音、非词汇事件未覆盖
- 依赖 ASR 质量——ASR 错误会级联传播到 TASTE token
- token 化方案专为联合 SLM 设计,对纯语音生成任务(如 TTS)的适用性未探索
相关工作与启发¶
- 与 Moshi(Défossez et al., 2024)的比较:Moshi 训练自有 codec 以降低频率,TASTE 更根本地通过文本对齐实现
- 与 Spirit LM(Nguyen et al., 2025)的交错策略相比,TASTE 的一一对应更加自然
- 启发:联合 token 化的思想可推广到其他多模态场景(如视频+文本、音乐+乐谱)
- 浅层+深层分离的信息架构在其他 Transformer 编码器中可能也有价值
评分¶
- 创新性: ⭐⭐⭐⭐⭐ — 首个端到端文本对齐语音 token 化方案,从 token 化层面解决联合建模问题
- 实验充分性: ⭐⭐⭐⭐ — 重建+语言模型+编辑+QA 多维评估,消融完整
- 实用性: ⭐⭐⭐⭐ — 代码和模型开源,LoRA 即可使用,但依赖 ASR
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分
- 综合评分: ⭐⭐⭐⭐⭐ (4.5/5)