Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation¶

会议: ICLR 2026 Oral
arXiv: 2507.01957
代码: GitHub
领域: 自回归图像生成
关键词: 并行解码, 自回归建模, 空间局部性, 位置查询, 高效推理

一句话总结¶

提出 Locality-aware Parallel Decoding (LPD)，通过灵活并行化自回归建模架构和局部性感知的生成顺序调度，将 256×256 图像的生成步数从 256 降至 20，实现至少 3.4× 的延迟降低。

研究背景与动机¶

自回归图像生成的 next-patch prediction 是内存瓶颈操作，延迟随步数线性增长
next-scale prediction（如 VAR）步数少但使用多尺度token表示，与平坦视觉感知模型（CLIP、DINO）不兼容
现有并行化方法（PAR、RandAR）仅实现有限并行化，PAR 固定并行顺序，RandAR 并行token之间互不可见
需要：高效推理 + 保持平坦token表示的通用性和兼容性

方法详解¶

整体框架¶

LPD 把一张图的生成拆成若干"组"，每组内的多个 patch 同步并行生成，组与组之间仍保持自回归条件依赖。它由两块拼成：一个能支持任意生成顺序、任意并行度的自回归架构，以及一个根据空间局部性来排生成顺序的调度器，让每组并行的 token 既能拿到足够多的上下文、组内彼此又尽量不互相依赖。推理时调度器先离线算好每组该生成哪些位置、按什么顺序，架构则逐组循环——把已生成的 token 编码进 KV cache 作上下文、用 position query token 一步并行解出该组的所有 patch，循环到整图填满。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["输入：类别条件 c"] --> B
    subgraph ARCH["灵活并行化的自回归建模"]
        direction TB
        B["已生成 token 编码进<br/>KV cache 提供上下文"] --> C["目标位置插入<br/>position query token"]
        C --> D["两套掩码<br/>Context + Query Attention"]
        D --> E["一步并行解出<br/>一整组 patch"]
    end
    F["局部性分析（PTA）<br/>注意力随空间距离衰减"] --> G["局部性感知生成顺序调度<br/>proximity 筛选 + repulsion 排斥 + FPS"]
    G -->|预计算每组成员与顺序| C
    E -->|组间自回归·逐组循环| B
    E --> H["输出：生成图像"]

关键设计¶

1. 灵活并行化的自回归建模：让 decoder-only 模型能一次解出一整组任意位置的 patch

标准自回归模型一步只能预测序列里的下一个 token，位置和顺序都被固定死了，没法一次并行解出多个任意位置。LPD 的做法是把"提供上下文"和"生成目标"这两件事解耦开：已经生成的 token 只负责贡献上下文，缓存进 KV cache；要预测的目标位置则各自插入一个可学习的位置查询 token（共享的可学习嵌入加上该目标位置的位置编码），由这些查询 token 来驱动并行生成。配合这一拆分，模型用两套注意力掩码分别约束信息流向——Context Attention 让后续 token 因果地关注前面的上下文 token，Query Attention 让同一步里的若干查询 token 彼此可见（这样并行生成的 patch 互相协调、避免独立采样带来的不一致），同时禁止后续 token 反过来关注这些查询 token。由于查询 token 的 KV 不必保留，推理时一组的编码与解码可以融合成单步操作，只需为真正生成出来的 token 存 KV cache，开销很小。

2. 局部性分析与 PTA 指标：用注意力的空间衰减规律为"哪些 patch 适合放进同一组"提供依据

要并行就得知道哪些位置可以同时生成而互不冲突。作者在 LlamaGen-1.4B 上分析注意力分布，发现解码 token 的注意力高度集中在空间上邻近的 token 上，呈现强空间局部性。为量化这一点，定义 Per-Token Attention（PTA）——对所有 token 取空间距离为 \(s\) 的那些注意力权重的平均值：

\[PTA_s = \frac{1}{N}\sum_{i=1}^N \frac{\sum_j \text{Attention}(T_i,T_j) \cdot \mathbb{I}[d(T_i,T_j)=s]}{\sum_j \mathbb{I}[d(T_i,T_j)=s]}\]

实测 PTA 随距离 \(s\) 急剧下降。这条曲线直接推出两条排序原则：并行生成的 token 应当靠近已生成的 token（这样能拿到强条件化的上下文），同时组内的 token 之间应当彼此远离（这样它们的相互依赖弱，并行才不掉质量）。

3. 局部性感知的生成顺序调度：按上面两条原则贪心地为每一步挑出一组互相独立又上下文充分的 patch

调度器在每一步 \(k\) 把这两条原则落地。它先算未选 token 到已选 token 的欧氏距离作为 proximity，按 proximity 排序后用阈值 \(\tau\) 截出一批"离已生成区域足够近"的高 proximity 候选集 \(c_1\)；接着从 \(c_1\) 里依次取 token，每取一个就用排斥阈值 \(\rho\) 把它附近的候选过滤掉，保证同组成员彼此拉开距离、依赖最小；如果这样选出来的数量不够本组所需，再用最远点采样从剩余集 \(c_2\) 里补足。每组该放多少个 token 通常按余弦调度递增——早期已知上下文少，就少生成几个稳一点，后期上下文充足再加速放量。整条生成顺序与每个位置只取决于网格几何，可以在推理前一次性预计算好。

损失函数 / 训练策略¶

训练用分组自回归目标，把 \(N\) 个 token 划成 \(G\) 组后按组分解联合概率：\(p(x_1,\dots,x_N;c) = \prod_{g=1}^G p(X_g \mid X_{<g};c)\)，组内并行、组间自回归。优化用标准交叉熵损失，训练时套用上面的两套注意力掩码，从而在一次前向里同时实现 teacher-forcing 的因果约束和组内的并行预测。

实验关键数据¶

主实验（ImageNet 256×256）¶

类型	模型	参数	FID↓	IS↑	#Steps	Latency(s)	Throughput
AR	LlamaGen-XXL	1.4B	2.34	253.9	576	24.40	0.72
AR	RAR-XXL	1.5B	1.48	326.0	256	6.59	6.72
Par.AR	PAR-XXL-4×	1.4B	2.35	263.2	147	6.26	2.33
Par.AR	RandAR-L	343M	2.55	288.8	88	1.97	28.59
Par.AR	LPD-L	343M	2.31	284.9	20	0.40	92.42
Par.AR	LPD-XL	775M	1.97	304.0	20	0.57	60.27

ImageNet 512×512¶

模型	参数	FID↓	#Steps	Latency(s)	Throughput
LlamaGen-XXL	1.4B	2.59	1024	-	-
LPD-XXL	1.4B	2.25	48	2.78	6.56

关键发现¶

LPD-L 仅 20 步生成 256×256 图像，FID=2.31 优于 576 步的 LlamaGen-XXL (2.34)
吞吐量 92.42 img/s 远超 RandAR 的 28.59 和 PAR 的 6.83
512×512 仅需 48 步（vs 1024），FID 从 2.59 降至 2.25
局部性感知调度远优于光栅序、随机序和 Halton 序
零样本图像编辑（类条件编辑、修复、扩展）自然支持

亮点与洞察¶

位置查询token实现的"解耦"设计优雅地解决了标准decoder-only模型的灵活性限制
Query Attention 确保同步生成token之间互相可见，避免独立采样导致的不一致
局部性分析提供了并行化策略设计的经验基础——PTA 分析可迁移到其他视觉自回归模型
与 VAR 相比保持了平坦token表示，兼容 CLIP/DINO 等视觉骨干

局限与展望¶

当前仅在 ImageNet 类条件生成上验证，未扩展到文本引导生成
位置查询token引入的额外参数和注意力计算的开销
生成顺序调度的超参（\(\tau\)、\(\rho\)、组大小调度）需要调优
与最佳 MAR/VAR 方法在 FID 上仍有差距（但吞吐量远优）

技术细节补充¶

组大小通过余弦调度递增：早期上下文少时生成少量 token，后期增多
位置查询 token = 共享可学习嵌入 + 目标位置的位置编码
推理时查询 token 的 KV 不存储，仅存储生成 token 的 KV
256×256 生成 20 步，512×512 生成 48 步
支持零样本图像编辑（类条件编辑、修复、扩展）
LPD-L 343M 参数即可达到 FID=2.31，超越 1.4B 的 LlamaGen-XXL

评分¶

新颖性: ⭐⭐⭐⭐⭐ 位置查询解耦+局部性感知调度的组合设计新颖有效
实验充分度: ⭐⭐⭐⭐ 系统对比充分，但缺少T2I和多模态实验
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，方法与其他方法的对比分析透彻
价值: ⭐⭐⭐⭐⭐ 大幅降低自回归图像生成延迟，对统一多模态系统有重要意义