Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation¶
会议: ICLR 2026 Oral
arXiv: 2507.01957
代码: GitHub
领域: 自回归图像生成
关键词: 并行解码, 自回归建模, 空间局部性, 位置查询, 高效推理
一句话总结¶
提出 Locality-aware Parallel Decoding (LPD),通过灵活并行化自回归建模架构和局部性感知的生成顺序调度,将 256×256 图像的生成步数从 256 降至 20,实现至少 3.4× 的延迟降低。
研究背景与动机¶
- 自回归图像生成的 next-patch prediction 是内存瓶颈操作,延迟随步数线性增长
- next-scale prediction(如 VAR)步数少但使用多尺度token表示,与平坦视觉感知模型(CLIP、DINO)不兼容
- 现有并行化方法(PAR、RandAR)仅实现有限并行化,PAR 固定并行顺序,RandAR 并行token之间互不可见
- 需要:高效推理 + 保持平坦token表示的通用性和兼容性
方法详解¶
整体框架¶
LPD 把一张图的生成拆成若干"组",每组内的多个 patch 同步并行生成,组与组之间仍保持自回归条件依赖。它由两块拼成:一个能支持任意生成顺序、任意并行度的自回归架构,以及一个根据空间局部性来排生成顺序的调度器,让每组并行的 token 既能拿到足够多的上下文、组内彼此又尽量不互相依赖。推理时调度器先离线算好每组该生成哪些位置、按什么顺序,架构则逐组循环——把已生成的 token 编码进 KV cache 作上下文、用 position query token 一步并行解出该组的所有 patch,循环到整图填满。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["输入:类别条件 c"] --> B
subgraph ARCH["灵活并行化的自回归建模"]
direction TB
B["已生成 token 编码进<br/>KV cache 提供上下文"] --> C["目标位置插入<br/>position query token"]
C --> D["两套掩码<br/>Context + Query Attention"]
D --> E["一步并行解出<br/>一整组 patch"]
end
F["局部性分析(PTA)<br/>注意力随空间距离衰减"] --> G["局部性感知生成顺序调度<br/>proximity 筛选 + repulsion 排斥 + FPS"]
G -->|预计算每组成员与顺序| C
E -->|组间自回归·逐组循环| B
E --> H["输出:生成图像"]
关键设计¶
1. 灵活并行化的自回归建模:让 decoder-only 模型能一次解出一整组任意位置的 patch
标准自回归模型一步只能预测序列里的下一个 token,位置和顺序都被固定死了,没法一次并行解出多个任意位置。LPD 的做法是把"提供上下文"和"生成目标"这两件事解耦开:已经生成的 token 只负责贡献上下文,缓存进 KV cache;要预测的目标位置则各自插入一个可学习的位置查询 token(共享的可学习嵌入加上该目标位置的位置编码),由这些查询 token 来驱动并行生成。配合这一拆分,模型用两套注意力掩码分别约束信息流向——Context Attention 让后续 token 因果地关注前面的上下文 token,Query Attention 让同一步里的若干查询 token 彼此可见(这样并行生成的 patch 互相协调、避免独立采样带来的不一致),同时禁止后续 token 反过来关注这些查询 token。由于查询 token 的 KV 不必保留,推理时一组的编码与解码可以融合成单步操作,只需为真正生成出来的 token 存 KV cache,开销很小。
2. 局部性分析与 PTA 指标:用注意力的空间衰减规律为"哪些 patch 适合放进同一组"提供依据
要并行就得知道哪些位置可以同时生成而互不冲突。作者在 LlamaGen-1.4B 上分析注意力分布,发现解码 token 的注意力高度集中在空间上邻近的 token 上,呈现强空间局部性。为量化这一点,定义 Per-Token Attention(PTA)——对所有 token 取空间距离为 \(s\) 的那些注意力权重的平均值:
实测 PTA 随距离 \(s\) 急剧下降。这条曲线直接推出两条排序原则:并行生成的 token 应当靠近已生成的 token(这样能拿到强条件化的上下文),同时组内的 token 之间应当彼此远离(这样它们的相互依赖弱,并行才不掉质量)。
3. 局部性感知的生成顺序调度:按上面两条原则贪心地为每一步挑出一组互相独立又上下文充分的 patch
调度器在每一步 \(k\) 把这两条原则落地。它先算未选 token 到已选 token 的欧氏距离作为 proximity,按 proximity 排序后用阈值 \(\tau\) 截出一批"离已生成区域足够近"的高 proximity 候选集 \(c_1\);接着从 \(c_1\) 里依次取 token,每取一个就用排斥阈值 \(\rho\) 把它附近的候选过滤掉,保证同组成员彼此拉开距离、依赖最小;如果这样选出来的数量不够本组所需,再用最远点采样从剩余集 \(c_2\) 里补足。每组该放多少个 token 通常按余弦调度递增——早期已知上下文少,就少生成几个稳一点,后期上下文充足再加速放量。整条生成顺序与每个位置只取决于网格几何,可以在推理前一次性预计算好。
损失函数 / 训练策略¶
训练用分组自回归目标,把 \(N\) 个 token 划成 \(G\) 组后按组分解联合概率:\(p(x_1,\dots,x_N;c) = \prod_{g=1}^G p(X_g \mid X_{<g};c)\),组内并行、组间自回归。优化用标准交叉熵损失,训练时套用上面的两套注意力掩码,从而在一次前向里同时实现 teacher-forcing 的因果约束和组内的并行预测。
实验关键数据¶
主实验(ImageNet 256×256)¶
| 类型 | 模型 | 参数 | FID↓ | IS↑ | #Steps | Latency(s) | Throughput |
|---|---|---|---|---|---|---|---|
| AR | LlamaGen-XXL | 1.4B | 2.34 | 253.9 | 576 | 24.40 | 0.72 |
| AR | RAR-XXL | 1.5B | 1.48 | 326.0 | 256 | 6.59 | 6.72 |
| Par.AR | PAR-XXL-4× | 1.4B | 2.35 | 263.2 | 147 | 6.26 | 2.33 |
| Par.AR | RandAR-L | 343M | 2.55 | 288.8 | 88 | 1.97 | 28.59 |
| Par.AR | LPD-L | 343M | 2.31 | 284.9 | 20 | 0.40 | 92.42 |
| Par.AR | LPD-XL | 775M | 1.97 | 304.0 | 20 | 0.57 | 60.27 |
ImageNet 512×512¶
| 模型 | 参数 | FID↓ | #Steps | Latency(s) | Throughput |
|---|---|---|---|---|---|
| LlamaGen-XXL | 1.4B | 2.59 | 1024 | - | - |
| LPD-XXL | 1.4B | 2.25 | 48 | 2.78 | 6.56 |
关键发现¶
- LPD-L 仅 20 步生成 256×256 图像,FID=2.31 优于 576 步的 LlamaGen-XXL (2.34)
- 吞吐量 92.42 img/s 远超 RandAR 的 28.59 和 PAR 的 6.83
- 512×512 仅需 48 步(vs 1024),FID 从 2.59 降至 2.25
- 局部性感知调度远优于光栅序、随机序和 Halton 序
- 零样本图像编辑(类条件编辑、修复、扩展)自然支持
亮点与洞察¶
- 位置查询token实现的"解耦"设计优雅地解决了标准decoder-only模型的灵活性限制
- Query Attention 确保同步生成token之间互相可见,避免独立采样导致的不一致
- 局部性分析提供了并行化策略设计的经验基础——PTA 分析可迁移到其他视觉自回归模型
- 与 VAR 相比保持了平坦token表示,兼容 CLIP/DINO 等视觉骨干
局限与展望¶
- 当前仅在 ImageNet 类条件生成上验证,未扩展到文本引导生成
- 位置查询token引入的额外参数和注意力计算的开销
- 生成顺序调度的超参(\(\tau\)、\(\rho\)、组大小调度)需要调优
- 与最佳 MAR/VAR 方法在 FID 上仍有差距(但吞吐量远优)
相关工作与启发¶
- PAR、RandAR、SAR 等并行自回归方法的局限驱动了本工作
- MaskGIT 的掩码预测启发了渐增组大小的设计
- 空间局部性观察对理解视觉自回归模型的注意力机制有启发
- 为统一多模态生成(文本+图像)中的图像部分提供了高效解决方案
技术细节补充¶
- 组大小通过余弦调度递增:早期上下文少时生成少量 token,后期增多
- 位置查询 token = 共享可学习嵌入 + 目标位置的位置编码
- 推理时查询 token 的 KV 不存储,仅存储生成 token 的 KV
- 256×256 生成 20 步,512×512 生成 48 步
- 支持零样本图像编辑(类条件编辑、修复、扩展)
- LPD-L 343M 参数即可达到 FID=2.31,超越 1.4B 的 LlamaGen-XXL
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 位置查询解耦+局部性感知调度的组合设计新颖有效
- 实验充分度: ⭐⭐⭐⭐ 系统对比充分,但缺少T2I和多模态实验
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,方法与其他方法的对比分析透彻
- 价值: ⭐⭐⭐⭐⭐ 大幅降低自回归图像生成延迟,对统一多模态系统有重要意义