Markovian Scale Prediction: A New Era of Visual Autoregressive Generation¶
会议: CVPR 2026
arXiv: 2511.23334
代码: 有
领域: 模型压缩
关键词: 视觉自回归生成, 马尔可夫过程, 多尺度预测, 内存效率, 图像生成
一句话总结¶
将视觉自回归模型 (VAR) 从全上下文依赖的 next-scale prediction 重构为基于马尔可夫过程的 Markovian scale prediction,通过滑动窗口历史补偿机制实现非全上下文建模,在 ImageNet 上 FID 降低 10.5%、峰值内存减少 83.8%。
研究背景与动机¶
视觉自回归建模 (VAR) 通过 next-scale prediction 取代 next-token prediction,以粗到细方式生成图像,在视觉生成领域取得突破。然而 VAR 的全上下文依赖(预测当前尺度需关注所有先前尺度)引发三大问题:
计算开销巨大:随尺度增长 token 数二次增长,跨尺度累积建模使计算超线性增加。1024×1024 分辨率下 depth-24 VAR 峰值内存达 117.9GB
误差持续累积:自回归的单向因果链无法修正早期预测误差。实验表明早期注入的扰动对 FID 的影响远大于后期注入(第一个尺度扰动导致最大 FID 下降),且全上下文依赖反复利用错误信息加剧累积
跨尺度干扰:全上下文注意力使不同尺度的梯度在共享特征空间竞争和冲突。作者计算 RFA (Residual-Feature Alignment) 分数——当前尺度输出残差特征与各先前尺度输入特征的余弦相似度,发现早期尺度对当前表征学习通常有负面影响
核心动机源自信息论充分统计量概念:连续链式传播中每个节点本身维护了代表性历史信息,适当蒸馏即可实现有效预测而无需全部历史。
方法详解¶
整体框架¶
Markov-VAR 将 VAR 改造为非全上下文马尔可夫过程:
- VAR 原始建模:\(p(R_1, \ldots, R_T) = \prod_{t=1}^{T} p(R_t | \langle\text{sos}\rangle, R_{<t})\),每尺度依赖所有先前尺度
- Markov-VAR 建模:\(p(R_1, \ldots, R_T) = \prod_{t=1}^{T} p(R_t | M_{t-1})\),每尺度仅依赖当前马尔可夫状态
其中 \(M_t = f_\phi(R_t, M_{t-1})\) 为代表性动态状态,\(M_0 = \langle\text{sos}\rangle\)。
关键设计¶
1. 马尔可夫状态定义¶
- 功能:将每个尺度的特征直接视为马尔可夫状态
- 核心思路:信息论指出完整历史 \(c_{<t}\) 与当前时刻 \(c_t\) 的互信息高度冗余,存在充分统计量 \(c_{t-1}\) 使 \(I(c_{t-1}; c_t) = I(c_{<t}; c_t)\)
- 设计动机:链式单向自回归建模使当前尺度已编码代表性历史信息,可自然作为马尔可夫状态。此假设消除全上下文依赖,从根本上避免 KV cache 计算
2. 滑动窗口历史补偿机制¶
- 功能:通过滑动窗口压缩近期尺度信息,补偿非全上下文导致的信息损失
- 核心思路:设大小为 \(N\) 的滑动窗口 \(\mathcal{W}_t = \{E_{t-1}, E_{t-2}, \ldots, E_{t-N}\}\),将窗口内 token 序列拼接为 \(\hat{X}_t\),通过 cross-attention 聚合为固定维度历史向量:
其中 \(q\) 是可学习全局状态查询。历史向量广播后与当前特征尺度拼接得到代表性动态状态:
- 设计动机:窗口大小 \(N=3\) 经消融验证最优,与 RFA 分析一致——最近 3 个尺度对当前学习有正面贡献,更早尺度引入干扰
3. Markovian Attention¶
- 功能:重新设计注意力掩码,限制每个尺度仅关注当前动态状态 \(M_{t-1}\)
- 核心思路:与 VAR 的全因果注意力不同,Markovian attention 将每个尺度的注意力范围严格限制在其动态状态内
- 设计动机:消除跨尺度干扰使每个尺度学习独特表征;无需 KV cache 从根本上降低计算成本
损失函数 / 训练策略¶
- 损失函数:交叉熵 \(\mathcal{L} = \sum_{t=1}^{T} CE(\hat{R}_t, R_t)\)
- 训练方案:Teacher-forcing + Markovian attention mask
- 优化器:AdamW,lr=\(8 \times 10^{-5}\),\(\beta_1=0.9\),\(\beta_2=0.95\)
- 规模:batch 768-1536,epochs 200-400,8×H200 GPU
- 编码器:使用 VAR 预训练的多尺度 VQ-VAE tokenizer
- 位置编码:Rotary Positional Embedding (RoPE)
- 网络结构:LLaMA-style attention 和 MLP blocks,宽度 \(w=64d\),注意力头数 \(h=d\)
实验关键数据¶
主实验 (ImageNet 256×256 class-conditional)¶
| 模型 | 参数量 | FID↓ | IS↑ | Precision↑ | Recall↑ |
|---|---|---|---|---|---|
| VAR-d16 | 310M | 3.61 | 225.6 | 0.81 | 0.52 |
| Markov-VAR-d16 | 329M | 3.23 | 256.2 | 0.84 | 0.52 |
| VAR-d20 | 600M | 2.67 | 254.4 | 0.81 | 0.57 |
| Markov-VAR-d20 | 623M | 2.44 | 286.1 | 0.83 | 0.56 |
| VAR-d24 | 1.0B | 2.17 | 271.9 | 0.81 | 0.59 |
| Markov-VAR-d24 | 1.02B | 2.15 | 310.9 | 0.83 | 0.59 |
| DiT-XL/2 (Diffusion) | 675M | 2.27 | 278.2 | 0.83 | 0.57 |
效率对比 (batch=25, single H200):
| 模型 | 分辨率 | 推理时间(s)↓ | 峰值内存(GB)↓ | 内存降幅 |
|---|---|---|---|---|
| VAR-d24 | 256 | 0.711 | 12.4 | — |
| Markov-VAR-d24 | 256 | 0.608 | 4.7 | -62.1% |
| VAR-d24 | 512 | 1.335 | 31.4 | — |
| Markov-VAR-d24 | 512 | 1.261 | 8.1 | -74.2% |
| VAR-d24 | 1024 | 5.891 | 117.9 | — |
| Markov-VAR-d24 | 1024 | 5.322 | 19.1 | -83.8% |
消融实验¶
历史补偿机制 (depth-16):
| 方法 | 参数量 | FID↓ | IS↑ |
|---|---|---|---|
| 无历史补偿 | 300M | 3.64 | 247.7 |
| 全局历史(全上下文补偿) | 324M | 3.41 | 245.2 |
| 混合历史 | 359M | 3.45 | 257.4 |
| 滑动窗口 (Ours) | 329M | 3.23 | 256.2 |
滑动窗口大小:
| 窗口大小 | FID(d16)↓ | IS(d16)↑ | FID(d20)↓ | IS(d20)↑ |
|---|---|---|---|---|
| 1 | 3.53 | 237.8 | 2.50 | 267.9 |
| 2 | 3.39 | 248.6 | 2.47 | 281.4 |
| 3 | 3.23 | 256.2 | 2.44 | 286.1 |
| 4 | 3.33 | 252.3 | 2.56 | 278.2 |
关键发现¶
- d16 模型 FID 从 3.61→3.23 (提升 10.5%),IS 从 225.6→256.2 (提升 13.6%)
- 1024 分辨率峰值内存从 117.9GB→19.1GB (减少 83.8%),且无需 KV cache
- 窗口大小 \(N=3\) 在所有深度上均最优,理论分析与实验高度一致
- 缩放定律良好:loss 和 error rate 随模型增大呈幂律下降,\(R^2 > 0.99\)
- Markov-VAR-d20 仅用 M-VAR-d20 约 70% 参数即达到竞争性能
亮点与洞察¶
- 理论与实验的优美统一:从信息论充分统计量出发论证马尔可夫假设,RFA 分析和扰动实验提供直接实证
- "Less is more" 的深刻验证:减少上下文依赖反而提升质量,因全上下文引入跨尺度干扰
- 架构级效率提升:不需要 KV cache 是根本性优势,随分辨率增加优势持续扩大
- 极简设计:仅一个 cross-attention + 一个可学习 query 的历史补偿,额外参数极少却效果显著
局限与展望¶
- 仅在 ImageNet class-conditional 生成验证,文生图等复杂任务效果待验证
- 依赖 VAR 预训练的 VQ-VAE tokenizer,更强 tokenizer 可能进一步提升
- 单个可学习 query 可能限制历史信息表达能力,可探索多 query 或自适应 query
- 未探索与量化、蒸馏等加速技术的结合
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 马尔可夫假设挑战全上下文依赖,理论动机反直觉但有力
- 实验: ⭐⭐⭐⭐⭐ — 性能/效率/消融/缩放定律全覆盖,多分辨率验证,公开全系列模型权重
- 写作: ⭐⭐⭐⭐⭐ — 动机分析深刻(RFA/扰动实验),图表精美,逻辑流畅
- 价值: ⭐⭐⭐⭐⭐ — 同时提升性能和效率,83.8% 内存节省对高分辨率生成落地意义重大