Group Critical-token Policy Optimization for Autoregressive Image Generation¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hYMlDtplMf
代码: https://github.com/zghhui/GCPO
领域: 图像生成 / 自回归视觉生成 / RLVR
关键词: 自回归图像生成, GRPO, RLVR, 关键 token, token-wise 优化, 文生图
一句话总结¶
本文提出 GCPO,从因果依赖、熵梯度空间结构、组内 token 多样性三个角度筛出自回归图像生成中真正"关键"的 token,只对其中 30% 的 token 做 RLVR 优化并配以动态优势权重,就能超越对全部 token 做 GRPO 的效果。
研究背景与动机¶
- 领域现状: RLVR(尤其是 GRPO)已被陆续引入自回归(AR)文生图,通过视觉 CoT、奖励设计、定制数据集等方式提升偏好对齐与可控性,取得了不错进展。
- 现有痛点: 现有方法默认"每个图像 token 对训练目标的贡献相同",对整条 token 序列做均匀优化。但显然不同 token 角色迥异——有的决定全局结构,有的只是背景或细节,一视同仁既浪费算力又稀释了真正重要的梯度信号。
- 核心矛盾: LLM 推理里已有工作发现"fork token"(高熵逻辑连接词)主导推理能力,但视觉生成因为因果 AR 建模和二维双向图像结构更复杂,无法直接套用 LLM 那套靠熵筛 token 的做法(作者实测发现高/低熵 token 并不稳定对应结构或背景)。
- 本文目标: 找到一套适配 AR 视觉生成的关键 token 识别准则,并对这些 token 做有针对性的 token-wise 优化。
- 核心 idea: 【关键 token 筛选 + 动态优势权重】 从三个互补视角(因果、熵梯度、组内多样性)取并集圈出关键 token,再用策略/参考模型间的置信度散度作为逐 token 的探索权重,只回传关键 token 的策略梯度。
方法详解¶
整体框架¶
GCPO 在标准 GRPO 流程上插入"选 token + 加权"两步:对每个 prompt 采样一组图像并算 reward 后,先按三条准则圈出关键 token 集合 \(Z_{select}=Z_{init}\cup Z_{struct}\cup Z_{sim}\),再为每个关键 token 计算一个基于置信度散度的动态优势权重 \(w_t\),最后在 GRPO 目标里用指示函数只保留关键 token 的梯度、并把优势乘上 \(w_t\)。
flowchart LR
A[Prompt 采样一组图像] --> B[计算 Reward 与组优势 Ai]
A --> C{关键 token 筛选}
C --> C1[Zinit: 初始 token<br/>因果依赖]
C --> C2[Zstruct: 高熵梯度 token<br/>空间结构]
C --> C3[Zsim: 低相似度 token<br/>组内多样性]
C1 & C2 & C3 --> D[并集 Zselect ≈30%]
B --> E[动态优势权重 wt<br/>置信度散度累积均值]
D --> F[只回传 Zselect 梯度<br/>优势 × wt]
E --> F
关键设计¶
1. 因果依赖筛初始 token:早期 token 是全局结构的地基。 AR 的因果注意力让先生成的 token 持续影响后续所有 token。作者向不同位置注入噪声做扰动实验:扰动前 58 个 token(index 0~58)会大幅改变图像全局结构,而扰动中段 token(index 250~308)只影响局部细节。这证明初始 token 充当"全局先验与结构引导",因此把最前面 \(K_{init}\) 个 token 选为 \(Z_{init}\)。
2. 熵梯度筛结构 token:不是熵本身、而是熵的空间梯度才稳定对应结构。 作者先模仿 LLM 用熵筛 token,却发现高/低熵 token 在不同 prompt 下并不稳定(有时对应背景、有时对应主体)。进一步把熵序列 reshape 成二维熵图后观察其 2D 梯度,发现高熵梯度 token 一致对应主体结构和区域间过渡带,且随 RL 训练愈发明显。为抑制噪声先做局部邻域平均 \(\bar{H}_t=\text{mean}(H_t+H_t^{(l,u)}+H_t^{(u)}+H_t^{(r,u)}+H_t^{(l)})\),再用中心差分算梯度,取梯度最大的 \(K_{struct}\) 个 token 作 \(Z_{struct}\)。
3. 组内多样性筛 token:相似度低的位置才携带有效奖励信息。 GRPO 靠样本间差异指引优化方向,一组太相似的样本提供的奖励信息有限。作者把视角下沉到 token 级:在一组 \(G\) 张图像的同一序列位置 \(t\) 上算两两 token embedding 的余弦相似度 \(S^{(t)}_{jk}=\frac{e_{t,j}\cdot e_{t,k}}{\lVert e_{t,j}\rVert\lVert e_{t,k}\rVert}\),再取平均 \(\bar{S}_t\)。背景纹理区相似度高、几乎反映不出图间差异,而复杂结构区相似度低、信息更丰富,于是选 \(\bar{S}\) 最低的 \(K_{sim}\) 个 token 作 \(Z_{sim}\)。三类子集各占序列长度 10%,并集约 30%。
4. 动态优势权重:用策略/参考模型的置信度散度自动调节探索强度。 不同关键 token 需要不同探索约束——初始 token 探索要克制以防全局结构崩塌,高熵梯度与低相似度 token 则该更大胆探索。作者发现策略模型与参考模型间的置信度散度恰好满足这种分布(初始 token 散度小、结构 token 散度大),且随训练动态变化。考虑到位置 \(t\) 由其前序 token 预测,用累积平均散度作权重 \(w_t=\frac{1}{t}\sum_{j=1}^{t}\text{clip}(C^{policy}_j-C^{ref}_j,-\epsilon_w,\epsilon_w)\),其中 \(C\) 为 log 概率,\(\epsilon_w\) 截断防止权重过大破坏稳定性。最终目标在 GRPO 基础上对每 token 乘指示函数 \(\mathbb{I}[z_t\in Z_{select}]\) 并把优势乘以 \(w_t\)。
实验关键数据¶
主实验表格(GenEval Overall)¶
| 模型 | Overall↑ | Counting↑ | Color↑ | Position↑ |
|---|---|---|---|---|
| Janus-Pro-7B | 0.80 | 0.59 | 0.90 | 0.79 |
| Janus-Pro-7B + GRPO | 0.87 | 0.71 | 0.94 | 0.92 |
| Janus-Pro-7B + GCPO | 0.90 | 0.90 | 0.90 | 0.95 |
| Janus-Pro-1B + GRPO | 0.84 | 0.59 | 0.84 | 0.88 |
| Janus-Pro-1B + GCPO | 0.85 | 0.63 | 0.88 | 0.91 |
| LlamaGen + GRPO | 0.39 | 0.28 | 0.68 | 0.11 |
| LlamaGen + GCPO | 0.42 | 0.25 | 0.71 | 0.13 |
仅用 30% token,GCPO 全面超越用全部 token 的 GRPO,Janus-Pro-7B Counting 任务大涨 +0.19。
消融实验表格(T2I-CompBench / DEQA / HPS)¶
| Init-T | HG-T | LS-T | DAW | GenEval↑ | Shape↑ | Texture↑ | Spatial↑ | HPS↑ |
|---|---|---|---|---|---|---|---|---|
| ✓ | - | - | - | 0.82 | 0.282 | 0.350 | 0.237 | 28.90 |
| - | ✓ | - | - | 0.81 | 0.271 | 0.337 | 0.226 | 28.22 |
| - | - | ✓ | - | 0.82 | 0.294 | 0.410 | 0.257 | 28.78 |
| ✓ | ✓ | ✓ | - | 0.83 | 0.292 | 0.399 | 0.294 | 29.33 |
| ✓ | ✓ | ✓ | ✓ | 0.85 | 0.320 | 0.480 | 0.322 | 29.61 |
三类关键 token 缺一不可,三者并集明显优于任意单类;再叠加 DAW 后所有指标到达最优。
关键发现¶
- 30% 关键 token > 70% 其余 token: 70% 的"其余 token"数量是关键 token 的两倍多,但训练效果反而掉点,凸显选对 token 比数量重要。
- 几乎零额外开销: GCPO 相比 GRPO 仅增加约 1% 训练时间。
- 选择比例存在拐点: 每类在 10% 选择比时增益最大(+2.81),超过后增益锐减(+0.95);总比例从 30%→45% 几乎无提升,30%→15% 显著退化,对全部 token 用 DAW 反而下降。
- 跨范式可迁移: 方法可从 next-token 扩展到 next-scale 预测范式(初始 token 重要性→早期 scale 重要性)。
- 泛化性: 在与训练数据分布差异较大的 T2I-CompBench 上,Shape +0.117、Texture +0.118、Spatial +0.134。
亮点与洞察¶
- 把"关键 token"概念从 LLM 推理迁到 AR 视觉生成,并指出关键差异:视觉生成不能直接靠熵筛,作者用"熵的二维空间梯度"这个更精细的代理量解决了熵与结构对应不稳定的问题。
- 三视角互补且各有清晰物理含义:因果(时间维度地基)、熵梯度(空间维度结构)、组内多样性(奖励信息密度),三者正交,消融验证缺一不可。
- 动态优势权重免去手工调参:用策略/参考模型置信度散度自然得到"初始 token 少探索、结构 token 多探索"的分布,省掉人工指定约束。
- 效率与性能双赢:30% token 即超越全 token baseline,且几乎无额外时间成本。
局限与展望¶
- 三个子集各固定 10%、总 30% 属经验设定,虽有消融支撑但缺乏自适应选择机制,不同模型/数据可能并非最优。
- 关键 token 筛选依赖熵图、组内相似度等中间量计算,方法描述偏启发式,理论上为何这三者恰好是"关键"缺乏更深刻的统一刻画。
- 主要在 GenEval/HPS 类 reward 与 Janus-Pro/LlamaGen 上验证,对更大规模统一多模态模型或更复杂奖励(如人工偏好细粒度)的可扩展性有待进一步检验。
- 对全部 token 使用 DAW 反而掉点的现象提示动态权重与 token 选择存在耦合,机制尚未完全厘清。
相关工作与启发¶
- AR 视觉生成: LlamaGen、Emu3、Show-o、Janus-Pro、BAGEL 等用 next-token 范式做文生图,并逐步统一理解与生成。
- 视觉生成的 RL: SimpleAR 验证 GRPO 能提升 AR 模型美学与对齐,T2I-R1 联合优化语义级与 token 级 CoT,本文沿用 GRPO 框架但首次做 token 级筛选。
- LLM 的关键 token RL: Critical Tokens Matter、ConfPO、fork token 等工作启发了"少而精地优化关键 token"的思路,本文将其从一维文本推广到二维因果图像序列。
- 启发: "并非所有 token 都值得同等优化"是一个跨模态通用的洞察;如何用模型自身信号(熵梯度、组内多样性、置信度散度)无监督地定位关键单元,是把 RLVR 做精做省的一条通用路径。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统性地把"关键 token 优化"引入 AR 视觉生成,三视角筛选 + 熵梯度代理量 + 动态优势权重的组合有清晰创新。
- 实验充分度: ⭐⭐⭐⭐ — 覆盖 GenEval/T2I-CompBench/DrawBench/HPS 多基准与三个 base 模型,消融拆解每个组件且分析了选择比例拐点,较扎实。
- 写作质量: ⭐⭐⭐⭐ — 动机—观察—方法链条清晰,图表(扰动实验、熵梯度图、相似度图)有力支撑论点。
- 价值: ⭐⭐⭐⭐ — 30% token 超越全 token 且几乎零额外开销,对实际 RLVR 文生图训练有直接的效率与效果价值。