Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation¶
会议: ICCV 2025
arXiv: 2503.16430
代码: https://yuqingwang1029.github.io/TokenBridge
领域: 视觉生成 / 模型压缩
关键词: 自回归生成, 视觉tokenizer, 后训练量化, 离散-连续桥接, 维度自回归
一句话总结¶
提出TokenBridge,通过对预训练连续VAE特征进行后训练维度级量化,将连续token转化为离散token,在保持连续token高保真表示能力的同时,使用标准交叉熵损失进行简洁的自回归建模,在ImageNet 256×256上达到与连续方法可比的生成质量。
研究背景与动机¶
自回归视觉生成模型面临一个核心困境:离散token vs 连续token。离散token(如VQ、LFQ)可以直接用交叉熵损失建模,但量化过程引入梯度近似导致训练不稳定,且有限的码本大小限制了表示能力。连续token(如VAE latent)虽能更好地保留视觉细节,但需要复杂的分布建模技术(如扩散头、GMM),增加了生成流程的复杂度。
作者观察到:能否既享受连续token的高质量表示,又保持离散token建模的简洁性?关键思路是将量化过程从tokenizer训练中解耦——先训好连续VAE,再通过后训练量化得到离散token。
方法详解¶
整体框架¶
TokenBridge包含两个核心组件:(1)后训练维度级量化策略,将预训练VAE的连续特征转为离散token;(2)高效的维度自回归预测机制,处理指数级大的token空间。
关键设计¶
-
后训练维度级量化(Post-Training Dimension-wise Quantization):
- 不在tokenizer训练中引入量化,而是在VAE完全训练好之后,对其连续特征 \(\mathbf{X} \in \mathbb{R}^{H \times W \times C}\) 进行逐通道独立量化
- 利用VAE特征的两个关键性质:(a)KL约束使值域有界;(b)近似高斯分布,可进行非均匀量化
- 量化流程:先将每个维度归一化到 \([-r, r]\)(\(r=3\)),然后基于标准正态CDF将分布等概率划分为 \(B\) 个区间,每个区间用条件期望值作为重建值 \(\gamma_i = \mathbb{E}[\xi | b_i \leq \xi < b_{i+1}]\)
- 反量化时将离散索引映射回连续值,直接送入预训练VAE解码器
- 设计动机:避免了传统VQ的码本崩溃和梯度近似问题,且无需训练额外参数
-
维度自回归预测头(Dimension-wise Autoregressive Head):
- 维度级量化产生指数级大的token空间(\(B^C\) 种组合),直接用softmax分类不可行
- 并行独立预测各维度会忽略维度间的关键依赖关系(实验验证FID从1.94劣化到15.7)
- 解决方案:在每个空间位置引入轻量级自回归头,将联合分布分解为:\(p(\mathbf{q}) = \prod_{c=1}^{C} p(q^c | \mathbf{q}^{<c}, \mathbf{z})\)
- 每次只预测 \(B\) 个类别的分类问题,计算可行
- 设计动机:将大词汇空间的建模转化为一系列小分类问题,同时保留关键的通道间依赖
-
基于频率的维度排序:
- 通过FFT分析各维度的频谱特性,按低频能量占比排序
- 优先生成承载更多低频(结构)信息的维度,再生成高频(细节)维度
- 设计动机:结构先行、细节后补,提升生成图像的整体一致性
损失函数 / 训练策略¶
- 训练使用标准交叉熵损失,无需复杂的分布建模
- 推理时先空间自回归生成各位置的上下文特征 \(\mathbf{z}\),再由维度自回归头逐通道预测离散索引,每生成完一个空间位置的完整token后立即反量化为连续特征,作为下一个位置的输入条件
- 采用温度采样和classifier-free guidance
实验关键数据¶
主实验¶
| 方法 | Token类型 | 损失 | 参数量 | FID↓ | IS↑ | Recall↑ |
|---|---|---|---|---|---|---|
| LlamaGen | 训练量化离散 | CE | 3.1B | 2.18 | 263.3 | 0.58 |
| VAR | 训练量化离散 | CE | 2.0B | 1.73 | 350.2 | 0.60 |
| MAR-L | 连续 | Diff. | 479M | 1.78 | 296.0 | 0.60 |
| MAR-H | 连续 | Diff. | 943M | 1.55 | 303.7 | 0.62 |
| Ours-L | 后训练量化离散 | CE | 486M | 1.76 | 294.8 | 0.63 |
| Ours-H | 后训练量化离散 | CE | 910M | 1.55 | 313.3 | 0.65 |
消融实验¶
| 配置 | gFID↓ | IS↑ | 说明 |
|---|---|---|---|
| 并行预测 | 15.7 | 158.5 | 忽略维度间依赖,质量极差 |
| 自回归预测 | 1.94 | 306.1 | 捕获依赖关系,FID提升8× |
| B=16 量化 | 2.03 | 295.0 | 粗粒度量化 |
| B=64 量化 | 1.94 | 306.1 | 细粒度量化最优 |
| 默认维度顺序 | 1.94 | 306.1 | 基准 |
| 频率排序 | 1.89 | 307.3 | 轻微提升 |
| AR头 3M参数 | 2.88 | 277.3 | 最小配置仍可用 |
| AR头 94M参数 | 1.94 | 306.1 | 增大容量持续提升 |
关键发现¶
- 后训练量化在 \(B=64\) 时重建质量(rFID=1.11)完全匹配连续VAE基线
- 维度自回归预测相比并行预测带来约8倍FID提升,证明通道间依赖关系至关重要
- 离散token天然支持置信度引导生成,可生成前景清晰、背景简洁的图像,这是连续方法不具备的优势
亮点与洞察¶
- 范式逆转:传统方法在tokenizer训练时量化,本文反其道行之——先训好连续tokenizer再后训练量化,完美解耦了两个目标
- 指数空间的优雅处理:\(64^{16}\) 的巨大token空间通过维度自回归分解为16个64分类问题
- 证明了标准交叉熵可以达到扩散头/GMM的生成质量,大大简化了自回归视觉生成的流程
局限与展望¶
- 维度自回归增加了每个spatial token的推理步数(C步),可能影响生成速度
- 当前仅在ImageNet 256×256验证,未扩展到更高分辨率和文本条件生成
- 频率排序的提升有限,维度排序策略可能还有更优解
相关工作与启发¶
- 与MAR(连续token+扩散头)的直接对比最有说服力:相同参数量下FID持平,但本文方法训练更简单
- 后训练量化的思路类似于LLM中的PTQ技术(如GPTQ),将这一思想迁移到视觉tokenizer是有趣的跨领域创新
- 为统一多模态框架(视觉+语言token共用交叉熵建模)提供了可行路径
评分¶
- 新颖性: ⭐⭐⭐⭐ 后训练量化+维度自回归的组合思路新颖,范式逆转的设计很巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 消融实验全面,涵盖量化粒度、预测策略、AR头规模等关键变量
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图示直观
- 价值: ⭐⭐⭐⭐ 为自回归视觉生成提供了一条简洁高效的新路线