DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer¶

会议: ICCV 2025
arXiv: 2507.04947
代码: https://github.com/dc-ai-projects/DC-AR
领域: 图像生成
关键词: 自回归图像生成, 图像标记器, 掩码自回归, 深度压缩, 文本到图像

一句话总结¶

提出 DC-AR，一个基于深度压缩混合标记器（DC-HT，32× 空间压缩）的掩码自回归文本到图像生成框架，通过离散 token 生成结构 + 残差 token 精细化的混合流程，在 MJHQ-30K 上取得 SOTA gFID 5.49，同时吞吐量比扩散模型高 1.5-7.9×。

研究背景与动机¶

自回归（AR）图像生成正快速追赶扩散模型，其中掩码自回归模型（MaskGIT 范式）通过并行解码实现高效生成。然而 AR 模型的效率瓶颈在于图像标记器的压缩率：

当前标准是 8×/16× 空间压缩：256×256 图像仍需 1024/256 个 token，高分辨率时计算量骤增

连续标记器已实现 32× 压缩（DC-AE），但离散标记器无法直接用——实验发现直接对 DC-AE 做向量量化，重建质量极差

1D 标记器（TiTok 等） 虽可实现高压缩，但丧失了 2D 空间对应关系，无法跨分辨率泛化，不同分辨率需重新训练，costs expensive

核心矛盾：如何在保持 2D 空间结构（支持跨分辨率泛化）的前提下，为 AR 模型构建高压缩率标记器？

方法详解¶

整体框架¶

DC-AR = DC-HT（标记器）+ 混合掩码自回归生成器

标记器 DC-HT：将图像分解为离散 token（\(\mathbf{Z}_q\)，结构信息）和残差连续 token（\(\mathbf{Z}_r = \mathbf{Z} - \mathbf{Z}_q\)，细节信息），32× 空间压缩
生成器：先用掩码自回归 Transformer 预测离散 token（12步 unmasking），再用 Transformer hidden state 条件化的 MLP diffusion head 预测残差 token → 两者相加 → 解码器输出图像

关键设计¶

DC-HT（深度压缩混合标记器）：
- 基于 DC-AE-f32c32 架构（CNN encoder + decoder），32× 空间压缩，latent channel=32
- 混合标记化：同时支持离散路径（\(\mathbf{Z}_q = \text{Quant}(\text{Enc}(\mathbf{I}))\)）和连续路径（\(\mathbf{Z} = \text{Enc}(\mathbf{I})\)），保证 decoder 能有效解码两种 token
- 残差 token 定义为 \(\mathbf{Z}_r = \mathbf{Z} - \mathbf{Z}_q\)，弥补量化损失
- 三阶段适配训练策略（关键创新）：
  - Stage 1 - 连续热身：仅训练连续路径（短期），初始化 encoder 权重
  - Stage 2 - 离散学习：仅训练离散路径，学习稳定的 VQ codebook（N=16384）
  - Stage 3 - 交替微调：冻结 encoder 和 quantizer，50% 概率选连续/离散路径微调 decoder
- 效果：rFID 从 1.92→1.60，discrete-rFID 从 6.18→5.13
- 关键优势：保持 2D 空间结构，支持跨分辨率泛化（256→512 无需重训标记器）
混合掩码自回归生成：
- Transformer 主体：PixArt-α 架构（28层，width=1152，634M 参数），文本通过 cross-attention 注入
- 训练时：随机 mask 离散 token，用交叉熵损失预测；同时 Transformer hidden states 作为 MLP diffusion head 的条件，用扩散损失预测残差 token
- 推理时：从全 mask 开始，12步 progressive unmasking 生成所有离散 token → 最终 hidden states 条件化 diffusion head 通过去噪生成残差 token → 相加 → 解码
- 关键设计决策：只有离散 token 参与 Transformer 前向过程。因为 MaskGIT 仅需 8 步即可接近最优，而 MAR（连续 token）需 64 步。残差 token 仅用于精化，不改变整体结构
跨分辨率训练策略：
- 2D 标记器的分辨率泛化特性支持"低分辨率预训练 + 高分辨率微调"策略
- 256×256 预训练 200K steps + 512×512 微调 50K steps
- 比 512×512 从头训练节省 1.9× GPU 小时（760 vs 1440），且质量更好（gFID 5.50 vs 6.64）

损失函数 / 训练策略¶

标记器：重建损失 + GAN 损失（标准 VQGAN 训练）
生成器：交叉熵（离散 token 掩码预测）+ 扩散损失（残差 token 预测）
文本编码器：T5-base（109M 参数），相对轻量
训练数据：JourneyDB + 内部 MidJourney 风格合成数据集，由 VILA1.5-13B 生成 caption
Diffusion head：6 层 MLP，仅 37M 参数

实验关键数据¶

主实验——文本到图像生成（MJHQ-30K & GenEval）¶

方法	类型	参数量	分辨率	步数	gFID↓	延迟(s)	吞吐(img/s)
SDXL	Diffusion	2.6B	1024²	20	6.63	1.4	2.1
PixArt-α	Diffusion	630M	512²	20	6.14	1.2	1.7
Sana-0.6B	Diffusion	590M	512²	20	5.67	0.8	6.7
Show-o	Mask. AR	1.3B	512²	12	14.59	1.1	1.3
TA-TiTok (KL)	Mask. AR	602M	256²	32	7.24	-	-
DC-AR	Mask. AR	671M	512²	12	5.49	0.4	10.3

DC-AR 在 gFID 上优于所有对比方法，延迟仅 0.4s（比 Sana 快 2×，比 SDXL 快 3.5×），吞吐 10.3 img/s（比 Show-o 高 7.9×）。

GenEval 基准：

方法	S.Obj	T.Obj	Count	Colors	Position	C.Attri.	Overall
Sana-0.6B	0.99	0.76	0.64	0.88	0.18	0.39	0.64
Show-o	0.98	0.80	0.66	0.84	0.31	0.50	0.68
DC-AR	1.00	0.75	0.52	0.90	0.45	0.51	0.69

消融实验¶

混合设计有效性：

配置	rFID↓	gFID↓	GenEval↑	吞吐
DC-AR（混合）	1.60	5.50	0.69	10.3
Discrete-only	5.13	6.71	0.66	11.4

仅 10% 额外开销，gFID 提升 1.21，GenEval 提升 0.03。

三阶段训练策略 vs 备选：

策略	Discrete-rFID↓	rFID↓
Discrete + Alternate Fine-tune	5.93	1.76
Continuous Warm-up + Alternate Train	6.18	1.92
三阶段适配	5.13	1.60

标记器重建质量（ImageNet 256²，64 tokens）：

方法	类型	rFID↓	PSNR↑	SSIM↑	跨分辨率?
TiTok	1D-Discrete	1.70	17.06	0.4021	✗
TexTok*	1D-Continuous	1.53	20.10	0.5618	✗
DC-HT	2D-Hybrid	1.60	21.50	0.5676	✓

关键发现¶

32× 压缩下 2D 标记器首次可与 1D 标记器媲美：DC-HT 在 rFID 上仅比 TexTok 高 0.07，但支持跨分辨率
12步即达近最优生成：离散 token 主导的设计使 DC-AR 比 MAR（需 64 步）大幅减少采样步数
三阶段训练关键：直接交替训练会因离散/连续空间的冲突导致质量下降；先分步稳定再联合微调是成功关键
跨分辨率训练节省 1.9× GPU 小时，且最终质量更好

亮点与洞察¶

工程直觉与理论结合：发现 DC-AE 直接加 VQ 会崩坏，通过混合标记化+三阶段训练优雅解决
效率优势巨大：是首个在质量超越扩散模型的同时提供数倍速度优势的 AR 方法
设计哲学清晰：离散 token 负责结构（少量步数），连续残差 token 负责细节（仅需 MLP head），各司其职
2D 空间结构保持是关键决策——牺牲少量压缩率换来跨分辨率能力和训练效率

局限与展望¶

GenEval 的 Count 和 Color Attribution 得分不如 Show-o，复杂组合语义理解待加强
T5-base 作为文本编码器相对较小（109M），可能限制了 text-image 对齐的上限
未探索更高分辨率（如 1024²）和视频生成场景
Diffusion head 的去噪步数未详细消融

评分¶

新颖性: ⭐⭐⭐⭐ 三阶段训练策略和混合生成框架设计有创新，但核心组件多为已有技术组合
实验充分度: ⭐⭐⭐⭐⭐ 标记器+生成器双重评估，效率分析详细，消融全面
写作质量: ⭐⭐⭐⭐ 结构清晰，图表优秀（尤其 Fig.1 的效率对比图）
价值: ⭐⭐⭐⭐⭐ 为高效 AR 图像生成提供了实用方案，NVIDIA 出品工程质量高