Scaling Speech Tokenizers with Diffusion Autoencoders¶

会议: ICLR 2026
arXiv: 2602.06602
代码: 无（Demo: https://sitok-demo.github.io/）
领域: 语音 / Token化
关键词: Speech Tokenizer, Diffusion Autoencoder, Semantic Regularization, Low Bitrate, CTC Loss

一句话总结¶

提出 SiTok（Speech Diffusion Tokenizer），采用扩散自编码器联合训练编码器-量化器-解码器（非两阶段），加入 CTC 语义正则化确保离散 token 保留语言信息，规模化到 1.6B 参数和 2200 万小时语音数据，在极端低 token 率（12.5Hz / 200bps）下同时实现 3.34% WER（重建）和 4.95 WER（LLM ASR）的强性能。

研究背景与动机¶

领域现状：语音 tokenizer 是语音语言模型的基础接口，决定了语音如何被离散化表示。一个理想的语音 tokenizer 需要同时满足三个目标：（1）极端压缩以支持高效语言建模；（2）高保真重建以生成自然语音；（3）语义丰富表示以支持下游理解任务。

现有痛点：现有方法通过启发式妥协而非原则性方案来处理上述三目标的张力：（1）低比特率下重建质量差——很多方法用 RVQ（残差向量量化）增加码本层数或提高帧率来维持质量，但这直接膨胀了 token 数量（如 Mimi 75 TPS, DualCodec 75 TPS），违背压缩目标；（2）仅优化声学保真度忽略语义——导致 token 不适合理解任务（如 ASR WER 很高）；（3）两阶段训练方案——先用 SSL 模型量化语音表征，再独立训练扩散/声码器解码，量化器无法为重建优化，解码器被迫适配次优离散码。

核心矛盾：在传统声学重建目标下，简单增大模型或数据在低 token 率时收益递减——这是向量量化的结构性瓶颈。确定性重建损失迫使离散潜空间"坍缩不确定性"，优先保留低级信号细节而非语义结构，导致压缩越激进语义损失越大。

切入角度：低 token 率量化引入的不确定性需要生成式框架来建模——扩散模型恰好学习逆转随机退化过程，天然适合处理量化引起的信息损失。同时，直接用 CTC 损失监督量化后的潜空间，比 SSL 蒸馏更直接地注入语义信息。

核心 idea：用扩散自编码器（而非对抗式训练）联合优化量化和重建，加上 CTC 语义正则化，实现极低 token 率下语义和声学的双重保留。

方法详解¶

整体框架¶

SiTok 以 mel 频谱图为输入和重建目标（非原始波形），避免直接处理超长波形序列和不稳定的对抗训练。整条链路是一个端到端联合训练的自编码器：mel 谱图先下采样到 12.5Hz，经 Llama-style 因果 Transformer 编码器（16 层）得到潜在特征 \(\mathbf{z}\)，再向量量化（65,536 码本、32 维、EMA 更新）成离散 token \(\mathbf{q}\)。量化后的嵌入 \(\mathbf{z}_q\) 分两路使用：主路送进非因果 Llama Transformer 扩散解码器（16 层），用 flow-matching 目标把噪声还原成 mel 谱图，再交给外部 Vocos 声码器转成 24kHz 波形；辅路接一个轻量 CTC 解码器（4 层）直接预测文本转录，把语义信息逼回到离散 token 上。部署时再对扩散解码器做 shortcut 微调，把多步采样压到 2-4 步。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["mel 频谱图输入"] --> B["下采样 12.5Hz"]
    B --> C["因果 Transformer 编码器<br/>（16 层）→ 潜在特征 z"]
    C --> D["向量量化 VQ<br/>（65536×32，EMA）→ 离散 token"]
    D -->|量化嵌入 z_q| E["扩散解码器替代对抗式训练<br/>flow-matching 重建 mel"]
    D -->|量化嵌入 z_q| F["CTC 语义正则化<br/>预测文本转录"]
    E --> S["高效扩散解码<br/>Shortcut 微调（2-4 步）"]
    S --> G["Vocos 声码器 → 24kHz 波形"]

关键设计¶

1. 扩散自编码器替代对抗式训练：用生成式建模处理量化丢失的信息

确定性重建在激进压缩下会坍缩——把语音的全部信息硬塞进 200bps 本就不可能，确定性损失只会迫使潜空间优先保留低级信号细节、牺牲语义结构。SiTok 转而承认"不是所有细节都能从 token 恢复"，让解码器去学条件分布 \(p(\mathbf{x}|\mathbf{z}_q)\)。具体做法是 flow-matching 目标：构造噪声样本 \(\mathbf{x}_t = t\mathbf{x} + (1-t)\epsilon\)，把速度场 \(v_\phi(\mathbf{x}_t, t, \mathbf{z}_q)\) 训练成逼近真实速度 \((\mathbf{x} - \epsilon)\)，解码器以量化嵌入 \(\mathbf{z}_q\) 为条件从噪声还原 mel 谱图。

相比对抗式训练，这一路线有三重好处：不需要判别器和繁琐的损失设计，训练更稳定；扩散模型学的是数据分布，能从有限的量化表征里"脑补"出丢失的细节；可扩展性也更好——波形级模型要做大量上下采样，而 mel 谱图更紧凑，更适合堆到 1.6B 参数。

2. CTC 语义正则化：直接强制离散 token 能解码出文本

只优化声学保真度会让 token 不适合理解任务，过去的做法是用 MSE/cosine 把 token 对齐到 HuBERT/WavLM 等 SSL 特征，但这是间接的二手监督。SiTok 改用最直接的信号：在量化后的嵌入 \(\mathbf{z}_q\) 上接一个轻量 CTC 解码器 \(\mathcal{D}_{\phi_{\text{ctc}}}\)（4 层 Transformer），直接预测文本转录 \(\mathbf{y}\)，总损失为

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{rec}} + \lambda_{\text{ctc}} \cdot \text{CTC}(\mathcal{D}_{\phi_{\text{ctc}}}(\mathbf{z}_q), \mathbf{y}) + \mathcal{L}_{\text{vq}}\]

关键在于监督信号放在量化之后，直接塑造离散 token 的语义性质，整条链路端到端、不依赖任何外部 SSL 模型。\(\lambda_{\text{ctc}}\) 是敏感超参：实验中 \(0.1\) 最优，太大（如 \(1.0\)）会过度约束潜空间反而损害重建（WER 从 4.06 升至 10.1）。

3. 高效扩散解码（Shortcut Fine-tuning）：让解码器自学跳步加速

扩散解码的多步采样是部署瓶颈。SiTok 冻结编码器和 VQ 模块，只对解码器用 shortcut model 目标微调：网络额外接收步长 \(d\) 作为条件，同时优化两项——flow-matching 损失（\(d=0\) 对应真实速度）和自一致性损失（一大步 \(2d\) 的结果要约等于连续走两小步 \(d\)）。这样模型就学会了"跳过中间步"，比传统蒸馏更灵活。效果上推理步数从标准的多步压到 2-4 步，实测 RTF 从 16 步的 0.041 降到 4 步的 0.013，加速 3.2 倍。

损失函数 / 训练策略¶

总损失：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{rec}} + 0.1 \cdot \mathcal{L}_{\text{ctc}} + \mathcal{L}_{\text{vq}}\)。训练用 AdamW，lr=8e-5，warmup 32K 步，单 epoch（~450K 步），2200 万小时内部语音数据。可选精炼：（1）Decoder finetuning（冻结编码器+VQ）；（2）Token CFG（10% 概率 drop token 训练无条件路径，推理时条件/无条件预测组合）。

实验关键数据¶

主实验（重建质量对比）¶

模型	FPS/TPS	码本数	比特率	WER↓	SIM↑	UTMOS↑
Ground Truth	-	-	-	2.14	0.730	3.53
DualCodec	12.5/75	6	0.925	2.63	0.624	3.78
X-codec 2	50/50	1	0.80	2.63	0.620	3.68
Mimi	12.5/75	6	0.825	4.51	0.527	3.09
FireRedTTS	25/25	1	0.35	3.35	0.597	3.40
CosyVoice	25/25	1	0.30	5.63	0.465	3.65
SiTok (CN=1)	12.5/12.5	1	0.20	4.06	0.641	3.44
+ Decoder FT	12.5/12.5	1	0.20	3.79	0.682	3.48
+ Token CFG	12.5/12.5	1	0.20	3.34	0.635	3.60

SiTok 在仅 200bps（所有基线最低比特率）下，WER 3.34%、SIM 0.682 均达到强竞争力。

消融实验（语义正则化效果）¶

CTC 正则化	TPS	重建 WER↓	SIM↑	UTMOS↑	LLM ASR↓	ER↑	SV↓	KS↑
✓ (λ=0.1)	12.5	4.06	0.641	3.44	4.95	63.5	13.8	96.9
✗	12.5	33.0	0.495	2.68	29.4	57.9	18.9	86.1
✓ (λ=0.1)	50	2.80	0.660	3.46	4.49	64.4	8.59	97.7
✗	50	5.17	0.611	2.84	7.27	60.4	13.5	92.8

没有 CTC 正则化的 12.5 TPS 模型 WER 飙升到 33.0%，证明语义正则化不是"锦上添花"而是"不可或缺"。

关键发现¶

模型缩放的非单调效应：从 0.63B (S) 到 1.61B (XL)，重建质量持续改善（WER 4.18→3.84），但理解任务在 1.12B (L) 达峰，更大模型在 SV 上反而退化（13.8→14.7），暗示过大容量可能过度编码声学细节而非抽象语义
Token CFG 和 Decoder FT 互补：CFG 主要降低 WER（3.34），FT 主要提升说话人相似度（0.682），可按需组合
CTC 权重 \(\lambda_{\text{ctc}}\) 是敏感超参：0.1 最优，0.02 重建好但理解差，0.5-1.0 重建也恶化（过度约束潜空间）
仅用回归损失（R）训练的 tokenizer 表现差：WER 4.66 且所有理解指标下降，扩散损失（D）是核心

亮点与洞察¶

"不确定性需要生成式建模"的洞察深刻：低 token 率量化不可避免丢失信息，用确定性重建试图"完美恢复"注定失败，扩散模型承认不确定性并学习条件分布，这是正确的建模哲学。这一洞察可迁移到任何高压缩比离散化场景
CTC 监督的极简有效性：不需要外部 SSL 模型、不需要特征对齐的复杂设计，一个 4 层 CTC 头直接预测文本就够了。关键是监督信号放在量化后（而非量化前），直接塑造离散 token 的语义性质
Mel 谱图作为中间表示的务实选择：避免了波形级建模的长序列和不稳定训练，虽然需要外部 vocoder，但解耦设计使 tokenizer 和 vocoder 可独立优化升级

局限与展望¶

依赖外部 Vocoder：mel 到波形的转换依赖 Vocos，整体质量受 vocoder 瓶颈限制
训练数据为内部数据：2200 万小时语音数据不公开，可复现性受限
以英语为主：虽声称覆盖多语言，但英语占绝大多数，多语言泛化性未充分验证
扩散解码延迟：即使 shortcut 后仍需 2-4 步迭代，实时交互场景下延迟可能不够低
L 和 XL 模型的理解性能倒退：更大模型在理解任务上并非更好，提示需要更好的训练策略或结构设计来平衡声学和语义

评分¶

新颖性: ⭐⭐⭐⭐ 扩散自编码器 + CTC 的组合有创新性，但各组件并非全新，核心贡献在于规模化验证和系统性设计
实验充分度: ⭐⭐⭐⭐⭐ 覆盖重建/理解/生成三大场景，丰富的消融（损失、码本、模型规模、解码步数），对比全面
写作质量: ⭐⭐⭐⭐ 结构清晰，motivation 论证充分，数学描述准确
价值: ⭐⭐⭐⭐⭐ 在极低比特率下统一理解和生成的语音 tokenizer 对语音语言模型发展有重要推动作用