Continuous Visual Autoregressive Generation via Score Maximization¶

会议: ICML 2025
arXiv: 2505.07812
代码: GitHub
领域: 图像生成
关键词: 连续自回归, 评分规则, 能量分数, 视觉生成, 无量化

一句话总结¶

提出连续视觉自回归框架——基于严格适当评分规则理论，用能量分数作为无似然训练目标，替代向量量化实现连续token自回归图像生成，EAR-H达到FID 1.97且推理速度比扩散损失方法MAR快约10倍。

研究背景与动机¶

领域现状：视觉自回归模型（VAR）通常需要向量量化（VQ）将连续视觉数据离散化为有限词表token，再用交叉熵训练。VQ tokenizer的重建FID仅5.87，成为生成质量瓶颈。现有痛点：连续空间中显式预测似然通常不可行——GIVT用高斯混合逼近，表达力受限于预定义分布族；扩散损失MAR需逐token多步去噪，推理延迟显著。核心矛盾：连续token自回归生成需要一个既能保真又无需显式似然的训练目标。本文目标：提供统一理论框架来理解和设计连续VAR的训练目标。切入角度：严格适当评分规则——统计学中评估概率预测质量的数学工具，保证期望得分在且仅在预测分布等于真实分布时最大化。核心idea：交叉熵（离散VAR）是对数评分的特例；对连续空间可用能量评分——无需似然估计，仅需从模型分布采样。

方法详解¶

整体框架¶

用连续KL-16 tokenizer将图像编码为连续token序列（stride 16）
Masked autoregressive Transformer预测未知token
输出层用MLP生成器替代softmax，注入随机噪声生成样本
用能量分数（energy score）训练——同时优化样本-目标接近度和样本间多样性

关键设计¶

严格适当评分规则统一框架:
- 功能：将离散和连续VAR的训练目标纳入同一理论体系
- 核心思路：评分规则 \(S(p,x): \mathcal{P}\times\mathcal{X}\mapsto\bar{\mathbb{R}}\) 衡量预测分布 \(p\) 对观测 \(x\) 的适合程度；严格适当意味着 \(S(p,q)\leq S(q,q)\) 且等号仅在 \(p=q\) 时成立。交叉熵/GIVT对应对数评分，扩散损失对应Hyvärinen评分，本文EAR对应能量评分
- 设计动机：统一视角揭示各方法的本质差异——对数评分需显式似然（受限于参数化假设），Hyvärinen评分需多步去噪（推理慢）
能量损失（Energy Loss）:
- 功能：无似然地训练连续token的概率预测
- 核心思路：能量评分 \(S(p,y) = \mathbb{E}[|x_1-x_2|^\alpha] - 2\mathbb{E}[|x-y|^\alpha]\)（\(\alpha\in(0,2)\)），第一项鼓励生成样本间多样性，第二项要求生成样本接近目标。无偏估计只需两个独立采样 \(x_1,x_2\sim p\)：\(\mathcal{L}(p,y) = |x_1-y|^\alpha + |x_2-y|^\alpha - |x_1-x_2|^\alpha\)
- 设计动机：能量评分的关键优势是仅需采样能力而不需显式概率密度，使得输出分布可以是任意隐式生成模型
MLP生成器（替代Softmax）:
- 功能：将Transformer隐藏表示转化为连续token的分布（通过采样过程隐式表示）
- 核心思路：类似GAN的隐式生成——输入随机噪声 \(\epsilon\sim U[-0.5,0.5]^{d_{\text{noise}}}\)，通过残差块逐步注入噪声扰动预测。噪声通过adaptive layer normalization（shift/scale/gate）调制隐藏表示
- 设计动机：不受高斯混合等参数化假设限制，表达力仅受MLP容量约束

损失函数 / 训练策略¶

主损失：能量损失，\(\alpha=1\)（严格适当且梯度稳定）
训练温度：前750 epoch标准能量损失，最后50 epoch \(\tau_{\text{train}}=0.99\)（降低多样性项权重提升质量）
推理温度：\(\tau_{\text{infer}}=0.7\)，仅缩放shift信号
MLP生成器使用0.25倍学习率（稳定训练）
Classifier-Free Guidance：10%概率替换条件为dummy token，推理时线性递增guidance scale
总训练800 epoch，batch size 2048，AdamW优化器

实验关键数据¶

主实验（ImageNet 256×256条件生成）¶

模型	类型	参数量	FID↓（w/ CFG）	IS↑	Precision	Recall
DiT-XL/2	Diffusion	675M	2.27	278.2	0.83	0.57
VAR-d30	离散AR	2.0B	1.92	323.1	0.82	0.59
GIVT	连续AR	304M	3.35	—	0.84	0.53
MAR	连续AR+Diffusion	943M	1.55	303.7	0.81	0.62
EAR-B	连续AR+Energy	205M	2.83	253.3	0.82	0.54
EAR-L	连续AR+Energy	474M	2.37	273.8	0.81	0.57
EAR-H	连续AR+Energy	937M	1.97	289.6	0.81	0.59

消融实验：能量评分指数 \(\alpha\) 的影响（EAR-B, 400 epochs, CFG=3.0）¶

\(\alpha\)	1.0	1.25	1.5	1.75	2.0
FID↓	3.55	3.73	4.10	4.32	188.1
IS↑	230.3	223.1	212.1	204.2	6.4

关键发现¶

EAR-B仅205M参数即达FID 2.83，参数效率极高
推理速度优势显著：EAR约1秒生成一张图，MAR需约10秒（Fig.2 speed/quality trade-off）
\(\alpha=2\) 时能量评分退化为仅匹配期望（proper但非strictly proper），FID崩溃至188.1——验证了严格适当性的必要性
\(\alpha<1\) 训练崩溃：分母 \(|x_1-x_2|^{2-\alpha}\) 趋零导致梯度爆炸
连续tokenizer重建FID 1.22 vs VQ tokenizer 5.87——连续token天然优势
Masked autoregressive（双向注意力）远优于causal（单向），后者FID仅约20

亮点与洞察¶

评分规则统一框架极其优雅——交叉熵/GIVT/扩散损失/EAR都是选择不同strictly proper score的特例，这个理论贡献超越了具体方法。
\(\alpha=2\) 的失败案例精确验证了理论预测：proper但非strictly proper的评分规则无法唯一确定最优模型，说明数学上的"严格"条件在实践中至关重要。
MLP生成器设计精巧——通过adaptive layer norm将噪声转化为shift/scale/gate信号（借鉴DiT），既灵活又可控。

局限与展望¶

EAR-H (FID 1.97) 仍落后于MAR (FID 1.55)，说明能量评分在绝对质量上可能不及扩散损失
仅在ImageNet 256×256上验证，更高分辨率和文生图等场景未探索
能量损失需两个独立样本估计——高维空间中样本效率可能受限
MLP生成器的表达力上限与所需残差块数/宽度的关系未分析
训练温度微调（最后50 epoch改 \(\tau\)）的技巧性较强

评分¶

新颖性: ⭐⭐⭐⭐⭐ 评分规则统一框架是理论突破，连接了三大连续VAR方向
实验充分度: ⭐⭐⭐⭐ ImageNet标准基准全面对比，消融验证理论预测
写作质量: ⭐⭐⭐⭐⭐ 理论-方法-实验逻辑环环相扣
价值: ⭐⭐⭐⭐⭐ 为连续自回归生成提供了统一理论基础和实用高效方法