SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation¶

会议: ICLR 2026
arXiv: 2602.05534
代码: GitHub
领域: 视觉自回归模型 / 图像生成 / 推理时引导
关键词: VAR, 下一尺度预测, 信息瓶颈, 频域引导, 训练免费

一句话总结¶

提出 Scaled Spatial Guidance (SSG)，一种无需训练的推理时引导方法，通过频域先验构建和语义残差放大，增强视觉自回归模型的粗到细层级生成质量。

研究背景与动机¶

视觉自回归（VAR）模型通过下一尺度预测（next-scale prediction）生成图像，天然实现粗到细的层级合成。然而：

训练-推理偏差：有限的模型容量和累积误差导致模型在推理时偏离粗到细的本质，低频信息被冗余预测

现有改进方法的限制： - 辅助精炼模块（CoDe、HMAR）需要重新训练 - 流匹配集成增加开销 - 自校正机制需要修改架构

核心问题：如何在不修改模型参数的情况下，引导每一步生成该尺度特有的新颖高频信息？

方法详解¶

1. 信息论视角的推导¶

从信息瓶颈（IB）原理出发，将 VAR 的逐步生成转化为变分优化问题：

\[\mathcal{L}_{\text{VAR-IB}} = \max_{z_k} \beta I(z_k; H(\hat{f}_K)) - I(z_k; L(\hat{f}_K))\]

目标信息量项：最大化与高频细节的互信息
状态冗余项：最小化与已建立粗结构的冗余

2. SSG 公式¶

将优化目标转化为 MAP 风格的代理函数，得到闭式解：

\[\ell_k^{\text{SSG}} = \ell_k + \beta_k \Delta_k = \ell_k + \beta_k (\ell_k - \ell_{\text{prior}})\]

其中： - \(\ell_k\)：第 \(k\) 步的残差 logits - \(\ell_{\text{prior}}\)：从前一步构建的粗粒度先验 - \(\Delta_k = \ell_k - \ell_{\text{prior}}\)：语义残差（高频细节） - \(\beta_k\)：逐步缩放因子

3. 离散空间增强（DSE）¶

频域先验构建方法： 1. 对前一步 logits \(\ell_{k-1}\) 进行空间插值得到 \(\ell'_{\text{interp}}\) 2. 对两者分别进行 DCT 变换 3. 将 \(\ell_{k-1}\) 的低频系数与 \(\ell'_{\text{interp}}\) 的高频系数融合 4. IDCT 逆变换得到先验 \(\ell_{\text{prior}}\)

相比简单插值的优势： - 线性插值过度平滑、衰减先验 - 最近邻插值引入块状不连续和伪高频 - DCT 频域融合保持能量守恒，精确分离频段

4. 高效实现¶

无需额外前向传递（使用缓存的 logits）
仅几行代码实现
计算和显存开销可忽略

实验¶

ImageNet 256×256 类条件生成¶

模型	FID↓	sFID↓	IS↑	Pre↑	Rec↑
VAR-d16	3.42	8.70	275.6	0.84	0.51
+SSG	3.27	8.39	285.3	0.85	0.50
VAR-d20	2.67	7.97	299.8	0.83	0.55
+SSG	2.49	7.60	305.2	0.83	0.56
VAR-d24	2.39	8.18	314.7	0.82	0.58
+SSG	2.20	6.95	324.0	0.83	0.59
VAR-d30	2.02	8.52	302.9	0.82	0.60
+SSG	1.68	8.50	313.2	0.81	0.62

跨模型泛化¶

SSG 在不同 tokenization 方案上均有效： - 标准 VAR (Tian et al.) - HART（混合 token） - Infinity（bitwise token）

与其他生成模型对比¶

VAR-d30 + SSG (FID 1.68) 与扩散模型和掩码模型具有竞争力，同时保持 VAR 的低延迟优势（10步推理）。

消融实验¶

组件	FID	IS
无 SSG（基线）	2.02	302.9
SSG + 线性插值先验	改善有限	—
SSG + 最近邻先验	可能恶化	—
SSG + DSE（频域融合）	1.68	313.2

亮点¶

信息论驱动的优雅设计：从 IB 原理严格推导出 SSG 的闭式解
完全训练免费：无需修改模型权重、无需额外数据、无需微调
频域先验构建（DSE）理论合理：利用 DCT 正交性实现能量无损的频段融合
一致性强：在不同 VAR 模型尺度和 tokenization 设计上均有效
实现极简：几行代码即可集成

局限性¶

SSG 的效果依赖于合理的 \(\beta_k\) 调度，需要根据模型调参
在第一步（最粗尺度）无先验可用，SSG 不生效
本质上是后验修正，无法弥补 tokenizer 本身的信息损失
仅适用于离散视觉 token 的 VAR 模型

评分¶

创新性: ⭐⭐⭐⭐⭐ — 信息论到实践的优雅桥接
实用性: ⭐⭐⭐⭐⭐ — 零成本集成，即插即用
实验: ⭐⭐⭐⭐ — 多模型多设置验证
写作: ⭐⭐⭐⭐⭐ — 理论推导清晰，直觉解释充分