MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning¶
会议: ICLR 2026
arXiv: 2505.12742
代码: Project Page
领域: LLM效率
关键词: 视觉自回归, Next-Scale Prediction, Markov假设, 注意力优化, 图像生成, 内存效率
一句话总结¶
提出 MVAR(Markovian Visual AutoRegressive),通过引入尺度 Markov 假设(仅依赖相邻尺度而非所有前序尺度)和空间 Markov 注意力(限制邻域大小 k),将 VAR 模型的注意力计算复杂度从 \(\mathcal{O}(N^2)\) 降至 \(\mathcal{O}(Nk)\),在 ImageNet 256×256 上实现同等或更优性能的同时,推理显存降低 3.0-4.2×,且仅需 8 张 RTX 4090 即可训练。
研究背景与动机¶
Next-Scale Prediction 范式¶
VAR(Visual AutoRegressive modeling)将传统的 next-token 预测重新定义为 next-scale 预测:图像被编码为多尺度残差 token map \(\mathcal{R} = (r_1, r_2, \dots, r_L)\),按从粗到细的顺序自回归生成。这比 raster-scan 顺序更好地保留了图像的二维结构,显著提升了生成效率和质量。
现有 VAR 的冗余问题¶
作者通过注意力权重分析发现两个关键冗余:
尺度冗余:每个尺度的注意力权重高度集中在相邻前一尺度,远端尺度几乎不被关注。但 VAR 却让每个尺度依赖所有前序尺度
空间冗余:相邻尺度间的注意力呈对角线主导模式(类似卷积的局部连接),每个 token 主要关注其对应空间位置的近邻,而非所有 token
这两种冗余导致了不必要的 GPU 显存消耗和计算浪费。
方法详解¶
整体框架¶
MVAR 的核心是两个 Markov 假设:
- 尺度 Markov:当前尺度 \(r_l\) 仅依赖相邻前一尺度 \(r_{l-1}\)(而非所有 \(r_1, \dots, r_{l-1}\))
- 空间 Markov:每个 token 仅关注相邻尺度上大小为 \(k\) 的局部邻域
尺度 Markov 条件建模¶
将传统的全依赖条件概率:
简化为相邻尺度依赖:
其中 \(\eta_k(\cdot)\) 表示大小为 \(k\) 的空间邻域限制。
这使得各尺度间的依赖被解耦,支持并行训练:对于 256×256 图像生成,\(r_1\) 到 \(r_8\) 可并行训练(通过对角模式因果 mask),\(r_9\) 和 \(r_{10}\) 使用自定义 CUDA kernel 单独处理。
空间 Markov 注意力¶
对每个 token \(i\),其注意力分数仅基于 \(k\) 个最近邻:
最终输出:
计算复杂度从 \(\mathcal{O}(N_l^2)\) 降至 \(\mathcal{O}(N_l k)\)。
关键设计¶
- 推理阶段完全不需要 KV cache(因为只依赖前一尺度,生成完即丢弃)
- 训练时 \(r_1\)-\(r_8\) 通过对角因果 mask 并行
- \(r_9\), \(r_{10}\)(最高分辨率)单独用 Neighborhood Attention CUDA kernel 处理
- 最终选择邻域大小 \(k = 7 \times 7\),在性能与效率间取得平衡
损失函数¶
标准 cross-entropy loss,每个尺度独立计算 \(\text{loss}_l\),保持与 VAR 一致。
实验关键数据¶
主实验:ImageNet 256×256 类别条件生成¶
| 模型类型 | 模型 | FID↓ | IS↑ | Precision↑ | Recall↑ | 参数量 |
|---|---|---|---|---|---|---|
| GAN | StyleGAN-XL | 2.30 | 265.1 | 0.78 | 0.53 | 166M |
| Diffusion | DiT-XL/2 | 2.27 | 278.2 | 0.83 | 0.57 | 675M |
| Token-wise AR | VQGAN-re | 5.20 | 280.3 | — | — | 1.4B |
| Scale-wise | VAR-d16 | 3.55 | 280.4 | 0.84 | 0.51 | 310M |
| Scale-wise | MVAR-d16 | 3.09 | 285.5 | 0.85 | 0.51 | 310M |
从零训练的 MVAR-d16 比 VAR-d16 降低 FID 0.46、提升 IS 5.1。
预训练微调对比¶
| 模型 | 推理时间↓ | KV Cache↓ | 推理显存↓ | 训练速度提升 | FID↓ | IS↑ |
|---|---|---|---|---|---|---|
| VAR-d16 | 0.34s | 5704M | 10882M | — | 3.55 | 280.4 |
| MVAR-d16† | 0.27s | 0 | 3846M (2.8×) | 1.6× | 3.40 | 297.2 |
| VAR-d20 | 0.52s | 8500M | 16244M | — | 2.95 | 302.6 |
| MVAR-d20† | 0.45s | 0 | 5432M (3.0×) | 1.7× | 2.87 | 295.3 |
| VAR-d24 | 0.81s | 12240M | 23056M | — | 2.33 | 312.9 |
| MVAR-d24† | 0.71s | 0 | 7216M (3.2×) | — | 2.23 | 300.1 |
微调版 MVAR 在所有尺度上实现 2.8-3.2× 显存降低,同时 FID 持续改善。
消融实验¶
尺度条件前缀数量的影响:
| 前缀尺度数 | KV Cache | 显存 | GFLOPs | FID↓ | IS↑ |
|---|---|---|---|---|---|
| 全部(VAR) | 5704M | 10882M | 43.61 | 4.84 | 227.1 |
| 3 | 3565M | 9518M | 41.54 | 4.86 | 220.3 |
| 2 | 2147M | 9262M | 40.15 | 5.01 | 208.8 |
| 1(MVAR) | 0 | 4199M (2.6×) | 37.84 | 4.35 | 240.6 |
仅用相邻 1 个尺度反而效果最好,IS 提升 13.5,消除 KV cache 且显存降低 2.6×。
邻域大小 k 的影响: - \(k = 3\times3\):FID 偏高,邻域过小带来信息损失 - \(k = 7\times7\):最佳平衡点 - \(k = 9\times9\):边际收益递减
关键发现¶
- 尺度冗余确实存在且可安全去除——仅依赖相邻尺度反而提升生成质量
- 空间 Markov 注意力在高分辨率尺度(\(r_9\), \(r_{10}\))收益最大,这些层占总计算量的 60%
- 完全消除 KV cache 使推理更加流畅,无需复杂的缓存管理
亮点与洞察¶
- 从经验观察到理论设计:不是凭空假设 Markov 性质,而是通过详细的注意力权重分析发现冗余,再基于此设计架构
- 训练民主化:仅需 8 张 RTX 4090 即可训练(VAR 需要更昂贵的硬件),大幅降低了视觉生成研究的门槛
- 消除 KV cache 的意义:不仅节省显存,更简化了推理系统的工程复杂度
- 少即是多:减少尺度依赖后,模型聚焦于更关键的局部细化信息,反而提升了生成质量
- 与 NLP 中 Sparse Attention 的呼应:空间 Markov 注意力在视觉领域验证了局部注意力的有效性
局限性¶
- 仅在 ImageNet 256×256 上充分验证:更高分辨率和更复杂数据集的验证有限
- 自定义 CUDA kernel 的工程负担:高分辨率尺度(\(r_9\), \(r_{10}\))需要手写 kernel
- 固定的邻域大小 k:各尺度使用相同 k,但不同尺度的最优 k 可能不同
- 文本条件生成未涉及:仅展示了类别条件生成,text-to-image 场景下是否仍然有效有待验证
相关工作与启发¶
- VAR(Tian et al., 2024):MVAR 的直接基线,验证了 next-scale 范式但存在冗余
- MaskGIT(Chang et al., 2022):并行生成多个 token 的替代方案
- Neighborhood Attention(Hassani & Shi, 2022):MVAR 直接借用的局部注意力 CUDA 实现
- 启发:Markov 假设的思路可推广到其他自回归视觉模型(如视频生成中的帧间依赖简化)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将 Markov 假设优雅地引入 next-scale 范式
- 技术深度: ⭐⭐⭐⭐ — 理论分析与工程实现并重,复杂度分析清晰
- 实验充分度: ⭐⭐⭐⭐ — 从零训练 + 微调 + 多维度消融,但数据集较单一
- 实用价值: ⭐⭐⭐⭐⭐ — 大幅降低训练和推理成本,8×4090 可训练
- 总体推荐: ⭐⭐⭐⭐ — 实用导向的优秀工作,同时保持理论美感