Group Critical-token Policy Optimization for Autoregressive Image Generation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hYMlDtplMf
代码: https://github.com/zghhui/GCPO
领域: 图像生成 / 自回归视觉生成 / RLVR
关键词: 自回归图像生成, GRPO, RLVR, 关键 token, token-wise 优化, 文生图

一句话总结¶

本文提出 GCPO，从因果依赖、熵梯度空间结构、组内 token 多样性三个角度筛出自回归图像生成中真正"关键"的 token，只对其中 30% 的 token 做 RLVR 优化并配以动态优势权重，就能超越对全部 token 做 GRPO 的效果。

研究背景与动机¶

领域现状: RLVR（尤其是 GRPO）已被陆续引入自回归（AR）文生图，通过视觉 CoT、奖励设计、定制数据集等方式提升偏好对齐与可控性，取得了不错进展。
现有痛点: 现有方法默认"每个图像 token 对训练目标的贡献相同"，对整条 token 序列做均匀优化。但显然不同 token 角色迥异——有的决定全局结构，有的只是背景或细节，一视同仁既浪费算力又稀释了真正重要的梯度信号。
核心矛盾: LLM 推理里已有工作发现"fork token"（高熵逻辑连接词）主导推理能力，但视觉生成因为因果 AR 建模和二维双向图像结构更复杂，无法直接套用 LLM 那套靠熵筛 token 的做法（作者实测发现高/低熵 token 并不稳定对应结构或背景）。
本文目标: 找到一套适配 AR 视觉生成的关键 token 识别准则，并对这些 token 做有针对性的 token-wise 优化。
核心 idea: 【关键 token 筛选 + 动态优势权重】 从三个互补视角（因果、熵梯度、组内多样性）取并集圈出关键 token，再用策略/参考模型间的置信度散度作为逐 token 的探索权重，只回传关键 token 的策略梯度。

方法详解¶

整体框架¶

GCPO 在标准 GRPO 流程上插入"选 token + 加权"两步：对每个 prompt 采样一组图像并算 reward 后，先按三条准则圈出关键 token 集合 \(Z_{select}=Z_{init}\cup Z_{struct}\cup Z_{sim}\)，再为每个关键 token 计算一个基于置信度散度的动态优势权重 \(w_t\)，最后在 GRPO 目标里用指示函数只保留关键 token 的梯度、并把优势乘上 \(w_t\)。

flowchart LR
    A[Prompt 采样一组图像] --> B[计算 Reward 与组优势 Ai]
    A --> C{关键 token 筛选}
    C --> C1[Zinit: 初始 token<br/>因果依赖]
    C --> C2[Zstruct: 高熵梯度 token<br/>空间结构]
    C --> C3[Zsim: 低相似度 token<br/>组内多样性]
    C1 & C2 & C3 --> D[并集 Zselect ≈30%]
    B --> E[动态优势权重 wt<br/>置信度散度累积均值]
    D --> F[只回传 Zselect 梯度<br/>优势 × wt]
    E --> F

关键设计¶

1. 因果依赖筛初始 token：早期 token 是全局结构的地基。 AR 的因果注意力让先生成的 token 持续影响后续所有 token。作者向不同位置注入噪声做扰动实验：扰动前 58 个 token（index 0~58）会大幅改变图像全局结构，而扰动中段 token（index 250~308）只影响局部细节。这证明初始 token 充当"全局先验与结构引导"，因此把最前面 \(K_{init}\) 个 token 选为 \(Z_{init}\)。

2. 熵梯度筛结构 token：不是熵本身、而是熵的空间梯度才稳定对应结构。 作者先模仿 LLM 用熵筛 token，却发现高/低熵 token 在不同 prompt 下并不稳定（有时对应背景、有时对应主体）。进一步把熵序列 reshape 成二维熵图后观察其 2D 梯度，发现高熵梯度 token 一致对应主体结构和区域间过渡带，且随 RL 训练愈发明显。为抑制噪声先做局部邻域平均 \(\bar{H}_t=\text{mean}(H_t+H_t^{(l,u)}+H_t^{(u)}+H_t^{(r,u)}+H_t^{(l)})\)，再用中心差分算梯度，取梯度最大的 \(K_{struct}\) 个 token 作 \(Z_{struct}\)。

3. 组内多样性筛 token：相似度低的位置才携带有效奖励信息。 GRPO 靠样本间差异指引优化方向，一组太相似的样本提供的奖励信息有限。作者把视角下沉到 token 级：在一组 \(G\) 张图像的同一序列位置 \(t\) 上算两两 token embedding 的余弦相似度 \(S^{(t)}_{jk}=\frac{e_{t,j}\cdot e_{t,k}}{\lVert e_{t,j}\rVert\lVert e_{t,k}\rVert}\)，再取平均 \(\bar{S}_t\)。背景纹理区相似度高、几乎反映不出图间差异，而复杂结构区相似度低、信息更丰富，于是选 \(\bar{S}\) 最低的 \(K_{sim}\) 个 token 作 \(Z_{sim}\)。三类子集各占序列长度 10%，并集约 30%。

4. 动态优势权重：用策略/参考模型的置信度散度自动调节探索强度。 不同关键 token 需要不同探索约束——初始 token 探索要克制以防全局结构崩塌，高熵梯度与低相似度 token 则该更大胆探索。作者发现策略模型与参考模型间的置信度散度恰好满足这种分布（初始 token 散度小、结构 token 散度大），且随训练动态变化。考虑到位置 \(t\) 由其前序 token 预测，用累积平均散度作权重 \(w_t=\frac{1}{t}\sum_{j=1}^{t}\text{clip}(C^{policy}_j-C^{ref}_j,-\epsilon_w,\epsilon_w)\)，其中 \(C\) 为 log 概率，\(\epsilon_w\) 截断防止权重过大破坏稳定性。最终目标在 GRPO 基础上对每 token 乘指示函数 \(\mathbb{I}[z_t\in Z_{select}]\) 并把优势乘以 \(w_t\)。

实验关键数据¶

主实验表格（GenEval Overall）¶

模型	Overall↑	Counting↑	Color↑	Position↑
Janus-Pro-7B	0.80	0.59	0.90	0.79
Janus-Pro-7B + GRPO	0.87	0.71	0.94	0.92
Janus-Pro-7B + GCPO	0.90	0.90	0.90	0.95
Janus-Pro-1B + GRPO	0.84	0.59	0.84	0.88
Janus-Pro-1B + GCPO	0.85	0.63	0.88	0.91
LlamaGen + GRPO	0.39	0.28	0.68	0.11
LlamaGen + GCPO	0.42	0.25	0.71	0.13

仅用 30% token，GCPO 全面超越用全部 token 的 GRPO，Janus-Pro-7B Counting 任务大涨 +0.19。

消融实验表格（T2I-CompBench / DEQA / HPS）¶

Init-T	HG-T	LS-T	DAW	GenEval↑	Shape↑	Texture↑	Spatial↑	HPS↑
✓	-	-	-	0.82	0.282	0.350	0.237	28.90
-	✓	-	-	0.81	0.271	0.337	0.226	28.22
-	-	✓	-	0.82	0.294	0.410	0.257	28.78
✓	✓	✓	-	0.83	0.292	0.399	0.294	29.33
✓	✓	✓	✓	0.85	0.320	0.480	0.322	29.61

三类关键 token 缺一不可，三者并集明显优于任意单类；再叠加 DAW 后所有指标到达最优。

关键发现¶

30% 关键 token > 70% 其余 token: 70% 的"其余 token"数量是关键 token 的两倍多，但训练效果反而掉点，凸显选对 token 比数量重要。
几乎零额外开销: GCPO 相比 GRPO 仅增加约 1% 训练时间。
选择比例存在拐点: 每类在 10% 选择比时增益最大（+2.81），超过后增益锐减（+0.95）；总比例从 30%→45% 几乎无提升，30%→15% 显著退化，对全部 token 用 DAW 反而下降。
跨范式可迁移: 方法可从 next-token 扩展到 next-scale 预测范式（初始 token 重要性→早期 scale 重要性）。
泛化性: 在与训练数据分布差异较大的 T2I-CompBench 上，Shape +0.117、Texture +0.118、Spatial +0.134。

亮点与洞察¶

把"关键 token"概念从 LLM 推理迁到 AR 视觉生成，并指出关键差异：视觉生成不能直接靠熵筛，作者用"熵的二维空间梯度"这个更精细的代理量解决了熵与结构对应不稳定的问题。
三视角互补且各有清晰物理含义：因果（时间维度地基）、熵梯度（空间维度结构）、组内多样性（奖励信息密度），三者正交，消融验证缺一不可。
动态优势权重免去手工调参：用策略/参考模型置信度散度自然得到"初始 token 少探索、结构 token 多探索"的分布，省掉人工指定约束。
效率与性能双赢：30% token 即超越全 token baseline，且几乎无额外时间成本。

局限与展望¶

三个子集各固定 10%、总 30% 属经验设定，虽有消融支撑但缺乏自适应选择机制，不同模型/数据可能并非最优。
关键 token 筛选依赖熵图、组内相似度等中间量计算，方法描述偏启发式，理论上为何这三者恰好是"关键"缺乏更深刻的统一刻画。
主要在 GenEval/HPS 类 reward 与 Janus-Pro/LlamaGen 上验证，对更大规模统一多模态模型或更复杂奖励（如人工偏好细粒度）的可扩展性有待进一步检验。
对全部 token 使用 DAW 反而掉点的现象提示动态权重与 token 选择存在耦合，机制尚未完全厘清。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统性地把"关键 token 优化"引入 AR 视觉生成，三视角筛选 + 熵梯度代理量 + 动态优势权重的组合有清晰创新。
实验充分度: ⭐⭐⭐⭐ — 覆盖 GenEval/T2I-CompBench/DrawBench/HPS 多基准与三个 base 模型，消融拆解每个组件且分析了选择比例拐点，较扎实。
写作质量: ⭐⭐⭐⭐ — 动机—观察—方法链条清晰，图表（扰动实验、熵梯度图、相似度图）有力支撑论点。
价值: ⭐⭐⭐⭐ — 30% token 超越全 token 且几乎零额外开销，对实际 RLVR 文生图训练有直接的效率与效果价值。