SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation¶
会议: ICLR 2026
arXiv: 2602.05534
代码: GitHub
领域: 视觉自回归模型 / 图像生成 / 推理时引导
关键词: VAR, 下一尺度预测, 信息瓶颈, 频域引导, 训练免费
一句话总结¶
提出 Scaled Spatial Guidance (SSG),一种无需训练的推理时引导方法,通过频域先验构建和语义残差放大,增强视觉自回归模型的粗到细层级生成质量。
研究背景与动机¶
视觉自回归(VAR)模型通过下一尺度预测(next-scale prediction)生成图像,天然实现粗到细的层级合成。然而:
训练-推理偏差:有限的模型容量和累积误差导致模型在推理时偏离粗到细的本质,低频信息被冗余预测
现有改进方法的限制: - 辅助精炼模块(CoDe、HMAR)需要重新训练 - 流匹配集成增加开销 - 自校正机制需要修改架构
核心问题:如何在不修改模型参数的情况下,引导每一步生成该尺度特有的新颖高频信息?
方法详解¶
1. 信息论视角的推导¶
从信息瓶颈(IB)原理出发,将 VAR 的逐步生成转化为变分优化问题:
- 目标信息量项:最大化与高频细节的互信息
- 状态冗余项:最小化与已建立粗结构的冗余
2. SSG 公式¶
将优化目标转化为 MAP 风格的代理函数,得到闭式解:
其中: - \(\ell_k\):第 \(k\) 步的残差 logits - \(\ell_{\text{prior}}\):从前一步构建的粗粒度先验 - \(\Delta_k = \ell_k - \ell_{\text{prior}}\):语义残差(高频细节) - \(\beta_k\):逐步缩放因子
3. 离散空间增强(DSE)¶
频域先验构建方法: 1. 对前一步 logits \(\ell_{k-1}\) 进行空间插值得到 \(\ell'_{\text{interp}}\) 2. 对两者分别进行 DCT 变换 3. 将 \(\ell_{k-1}\) 的低频系数与 \(\ell'_{\text{interp}}\) 的高频系数融合 4. IDCT 逆变换得到先验 \(\ell_{\text{prior}}\)
相比简单插值的优势: - 线性插值过度平滑、衰减先验 - 最近邻插值引入块状不连续和伪高频 - DCT 频域融合保持能量守恒,精确分离频段
4. 高效实现¶
- 无需额外前向传递(使用缓存的 logits)
- 仅几行代码实现
- 计算和显存开销可忽略
实验¶
ImageNet 256×256 类条件生成¶
| 模型 | FID↓ | sFID↓ | IS↑ | Pre↑ | Rec↑ |
|---|---|---|---|---|---|
| VAR-d16 | 3.42 | 8.70 | 275.6 | 0.84 | 0.51 |
| +SSG | 3.27 | 8.39 | 285.3 | 0.85 | 0.50 |
| VAR-d20 | 2.67 | 7.97 | 299.8 | 0.83 | 0.55 |
| +SSG | 2.49 | 7.60 | 305.2 | 0.83 | 0.56 |
| VAR-d24 | 2.39 | 8.18 | 314.7 | 0.82 | 0.58 |
| +SSG | 2.20 | 6.95 | 324.0 | 0.83 | 0.59 |
| VAR-d30 | 2.02 | 8.52 | 302.9 | 0.82 | 0.60 |
| +SSG | 1.68 | 8.50 | 313.2 | 0.81 | 0.62 |
跨模型泛化¶
SSG 在不同 tokenization 方案上均有效: - 标准 VAR (Tian et al.) - HART(混合 token) - Infinity(bitwise token)
与其他生成模型对比¶
VAR-d30 + SSG (FID 1.68) 与扩散模型和掩码模型具有竞争力,同时保持 VAR 的低延迟优势(10步推理)。
消融实验¶
| 组件 | FID | IS |
|---|---|---|
| 无 SSG(基线) | 2.02 | 302.9 |
| SSG + 线性插值先验 | 改善有限 | — |
| SSG + 最近邻先验 | 可能恶化 | — |
| SSG + DSE(频域融合) | 1.68 | 313.2 |
亮点¶
- 信息论驱动的优雅设计:从 IB 原理严格推导出 SSG 的闭式解
- 完全训练免费:无需修改模型权重、无需额外数据、无需微调
- 频域先验构建(DSE)理论合理:利用 DCT 正交性实现能量无损的频段融合
- 一致性强:在不同 VAR 模型尺度和 tokenization 设计上均有效
- 实现极简:几行代码即可集成
局限性¶
- SSG 的效果依赖于合理的 \(\beta_k\) 调度,需要根据模型调参
- 在第一步(最粗尺度)无先验可用,SSG 不生效
- 本质上是后验修正,无法弥补 tokenizer 本身的信息损失
- 仅适用于离散视觉 token 的 VAR 模型
相关工作¶
- VAR模型:VAR (Tian 2024)、HART (Tang 2025)、Infinity (Han 2025)
- 视觉引导:CFG、SAG、PAG、STG,但均非针对 VAR 设计
- 训练-推理偏差缓解:CoDe、HMAR,但需要重训
评分¶
- 创新性: ⭐⭐⭐⭐⭐ — 信息论到实践的优雅桥接
- 实用性: ⭐⭐⭐⭐⭐ — 零成本集成,即插即用
- 实验: ⭐⭐⭐⭐ — 多模型多设置验证
- 写作: ⭐⭐⭐⭐⭐ — 理论推导清晰,直觉解释充分