跳转至

GoT-R1: Unleashing Reasoning Capability of Autoregressive Visual Generation with Reinforcement Learning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Z9FjSaBuYt
代码: https://github.com/gogoduan/GoT-R1
领域: 图像生成 / 自回归视觉生成 / 强化学习
关键词: 自回归图像生成, Generation Chain-of-Thought, GRPO, MLLM 奖励模型, 组合式生成, 语义-空间推理

一句话总结

GoT-R1 把语言模型里 GRPO 那套"靠强化学习自己摸索推理策略"的成功经验搬到自回归图像生成上,用一个 MLLM 打分的双阶段多维奖励同时监督"推理链"和"最终图像",让模型在组合式 prompt(多物体 + 精确空间关系 + 属性绑定)上的生成保真度大幅提升。

研究背景与动机

领域现状:文生图模型(扩散 / 自回归)已经能产出高保真图像,但遇到"一只蝴蝶在蜡烛左边""一个黄桶在黑马桶旁"这类指定多物体、精确空间关系和属性绑定的复杂 prompt 时频频翻车——因为它们是把文本 embedding 直接映射到视觉特征,中间没有对场景组合结构做任何显式推理。

现有痛点:前作 GoT(Generation Chain-of-Thought)提出在出图前先生成一段"语义+空间坐标"的推理链(如 a playful brown dog (100,200),(350,450)),把复杂 prompt 拆成带坐标的物体描述,显著改善了组合保真度。但 GoT 是用人工模板标注的数据做监督微调(SFT)训出来的,这带来两个硬伤:① 推理策略被固定模板锁死,模型无法自主发现更有效的推理方式;② SFT 训出来的模型会生成"格式上很规整但内容上不忠实于 prompt"的推理链(论文 Fig.1 里蝴蝶/蜡烛的坐标就跟描述对不上),这种错误推理反而成了下游生成的瓶颈。

核心矛盾:自回归架构天然适合逐 token 的序列推理(和 o1/DeepSeek-R1 用 RL 激发 CoT 是同一种契合),但把 RL 搬到视觉生成上有两个独特难点——其一,视觉输出的奖励很难设计,要同时评估语义保真、空间排布、属性绑定、连贯性、美学等多个维度;其二,如果只用"结果奖励"(prompt-图像对齐),中间的推理过程就完全没人管,模型可能生成"图好看但组合错"或"推理规划得好却没落实到图上"的结果。

本文目标:给自回归视觉生成模型装上一套既监督推理过程、又监督最终输出的强化学习框架,让模型自主探索超越模板的推理策略。

核心 idea用 MLLM 当裁判的双阶段多维奖励 + GRPO。基座是一个统一建模文本和图像 token 的 MLLM(Janus-Pro),先 SFT 拿到基础推理能力,再用 GRPO 让它放飞自我地探索更优推理链;奖励由 MLLM 从"prompt↔推理""推理↔图像""prompt↔图像"三对关系打分,把过程监督和结果监督串成一条完整链路。

方法详解

整体框架

GoT-R1 在 GoT 的"先推理后出图"范式上叠加强化学习。基座是统一 MLLM(如 Janus-Pro),输入 prompt,先输出一段 GoT 推理链(带物体坐标),再续接一串图像 token。训练分两阶段:SFT 阶段用 GoT 数据集把模板化推理能力初始化好;RL 阶段对每个 prompt 采样 N=16 条不同的推理链+图像候选,用 MLLM 奖励模型打分,再用 GRPO 按组内相对优势更新参数,鼓励高奖励的推理策略、压制低奖励的。

flowchart LR
    P[输入 Prompt] --> M[统一 MLLM<br/>Janus-Pro]
    M -->|采样 N=16 组| C[候选: GoT 推理链<br/>+ 图像 token]
    C --> R[MLLM 奖励模型<br/>双阶段多维打分]
    R --> G[GRPO<br/>组内归一化优势]
    G -->|更新参数| M
    R -.->|R_PR 过程监督| C
    R -.->|R_PI / R_RI 结果监督| C

关键设计

1. 双阶段多维奖励:把"过程"和"结果"都纳入监督。 这是全文的核心,针对"只用结果奖励会放任推理过程乱来"的痛点设计。框架把生成拆成 prompt→推理链、推理链→图像两个阶段,对应定义四类奖励:\(R_{PI}\) 衡量 prompt 与生成图像的整体对齐;\(R_{PR}\) 衡量推理过程对 prompt 的忠实度(过程监督);\(R_{RI}\) 衡量生成图像对推理规划的还原度;\(R_{HPS}\) 用 HPS v2.1 兜底图像美学质量。其中 \(R_{PR}\) 又拆成语义奖励 \(R_{sem}\) 和空间奖励 \(R_{spa}\)。总奖励取各项乘积——任何一环崩了都会把总分拉下来,强制模型四个维度都不能掉链子:

\[R_{total} = R_{PI} \cdot R_{PR} \cdot R_{RI} \cdot R_{HPS} = R_{PI} \cdot \frac{(R_{sem}+R_{spa})}{2} \cdot R_{RI} \cdot R_{HPS}\]

2. 把坐标"画出来"再让 MLLM 评空间——空间奖励 \(R_{spa}\) 的关键 trick。 作者发现一个要命的问题:轻量级 MLLM 对文本形式的 bounding box 坐标极不敏感,直接喂坐标数字让它判断"蜂在微波炉左边对不对"基本判不准。他们的关键观察是——MLLM 处理视觉数据时的空间理解能力远强于处理文本坐标。于是把推理链里的文本坐标渲染成空白画布上的实际 bounding box 图像,再让 MLLM 看图打分,空间判断的可靠性显著提升。这是个很朴素但有效的"模态对齐"技巧:与其让 MLLM 做它不擅长的"读数算空间",不如把任务转成它擅长的"看图判空间"。

3. 语义奖励 \(R_{sem}\) 的四维细分打分。 针对推理链是否忠实于 prompt,让 MLLM 从四个维度各打 0–10 分:完整性(是否涵盖 prompt 里所有概念)、忠实性(有没有引入与 prompt 矛盾的内容)、一致性(推理逻辑是否自洽)、清晰度(表述是否连贯、格式是否规范)。这套细分让奖励信号比单一"对齐分"更细腻,直接对治 SFT 模型"格式规整但内容不忠实"的老毛病。

4. 用 IoU 把"推理规划"和"实际出图"对账——\(R_{RI}\) RL 过程中模型有时会生成偏离自己推理规划的图(规划得好但没落实)。\(R_{RI}\) 用 MLLM 对生成图像做 grounding,定位出每个物体的实际 bounding box \(B_{Image}\),再和推理链里规划的 box \(B_{GoT}\) 算 IoU,对所有 N 个物体取平均。这保证了"推理→图像"这一段不会脱节,让推理链真正成为出图的有效蓝图而非摆设。

实验关键数据

训练基于 Janus-Pro-1B / 7B,先在 LAION-GoT、JourneyDB-GoT、FLUX-GoT 上预训练 70000 步,再用 T2I-CompBench 训练集 + LAION-Aesthetics 的 prompt 做 1000 步 GRPO。奖励模型用 Qwen2.5-VL-7B,LoRA rank/alpha=32,N=16 候选,8×L40S 训 48 小时。

主实验

T2I-CompBench(核心组合式生成 benchmark)

模型 Color Shape Texture 2D-Spatial Non-Spatial Complex
FLUX.1 0.7407 0.5718 0.6922 0.2863 0.3127 0.3703
Stable v3 0.8132 0.5885 0.7334 0.3200 0.3140 0.3771
Janus-Pro-7B 0.6359 0.3528 0.4936 0.2061 0.3085 0.3559
Janus-Pro-7B-GoT 0.6551 0.5008 0.5836 0.2457 0.3113 0.3754
GoT-R1-7B 0.8139 0.5549 0.7339 0.3306 0.3169 0.3944
GoT-R1-1B 0.7632 0.5174 0.6589 0.2674 0.3101 0.3749

GoT-R1-7B 在 6 个类别里拿下 5 个 SOTA,最高提升约 15%;GoT-R1-1B 在多个类别上甚至超过更大的 Janus-Pro-7B。

GenEval

模型 Overall Single Two Obj Counting Colors Position Attr. Binding
Janus-Pro-7B-GoT 0.64 0.99 0.69 0.48 0.85 0.43 0.43
GoT-R1-7B 0.75 0.99 0.94 0.50 0.90 0.46 0.68

总分 0.64→0.75 创新 SOTA,双物体生成 0.69→0.94、属性绑定 0.43→0.68 提升最猛。

COCO 2014 通用质量:GoT-R1-7B 的 CLIP Score 31.83、Aesthetic 5.41,300 prompt 人评偏好率 77%(vs Janus-Pro-7B 9%、Janus-Pro-GoT-7B 14%)。

消融实验

在 Janus-Pro-1B-GoT 上做 1000 步 GRPO,逐项验证奖励组合(T2I-CompBench):

配置 \(R_{sem}\) \(R_{spa}\) \(R_{RI}\) \(R_{PI}\) Color 2D-Spatial Complex
Baseline 0.6336 0.2140 0.3490
\(R_{RI}\) 0.3340 0.0076 0.2488
\(R_{PI}\) 0.7401 0.2398 0.3724
\(R_{PR}\) 0.7050 0.2283 0.3619
全部(GoT-R1-1B) 0.7632 0.2674 0.3749

关键发现

  • 四类奖励缺一不可,全开才最优:去掉任意一类都掉点,完整组合在几乎所有类别上最好。
  • \(R_{RI}\) 不能单用:只用 \(R_{RI}\)(推理-图像 IoU 对齐)会灾难性崩盘(2D-Spatial 仅 0.0076)——因为它只逼图像还原推理,但推理本身可能就是错的,等于在错误目标上较劲;必须配合 prompt 侧的过程/结果监督才有意义。
  • 空间奖励的"画框再评"显著有效:把坐标渲染成图后 MLLM 的空间判断可靠性大幅提升,是 2D-Spatial 类别涨点的关键。

亮点与洞察

  • 把 RL-for-reasoning 干净地迁移到视觉生成:不是简单套 GRPO,而是抓住"自回归架构天然适配序列推理"这个契合点,让图像生成也能像 o1/R1 那样自主探索推理策略,跳出人工模板的牢笼。
  • 乘积式总奖励是个聪明的强约束:四项相乘意味着任何维度短板都会被放大惩罚,逼模型全面均衡,比加权求和更能避免"刷某一维分数"的投机。
  • "画框再评"是真正可复用的洞察:MLLM 看图比读坐标强,这个发现不止适用于本文,对任何需要 MLLM 做空间评估/打分的任务都有借鉴价值。
  • 过程监督 + 结果监督的闭环:prompt→推理→图像三段两两对账(\(R_{PR}/R_{RI}/R_{PI}\)),保证推理链既忠实于 prompt 又被图像如实还原,维护了整条 pipeline 的可解释性和可控性。

局限与展望

  • 重度依赖 MLLM 奖励模型的判断力:整套奖励的天花板被 Qwen2.5-VL-7B 的理解/grounding 能力锁住,奖励模型的偏差会直接传导到生成;论文未深究奖励 hacking 风险。
  • 奖励计算成本高:每个 prompt 采样 N=16 候选、每个候选都要 MLLM 多次打分 + grounding + 渲染画框,RL 阶段开销不小(8×L40S 48 小时虽只 1000 步)。
  • 绝对空间精度仍有限:2D-Spatial 即便提升后也只 0.33 左右,组合式空间生成远未解决。
  • 未验证更复杂场景:当前主打 2–3 物体的组合 prompt,对密集多物体场景、长程关系推理的泛化性待考。

相关工作与启发

  • GoT (Fang et al., 2025):本文直接前作,提出"出图前先做语义-空间推理链"的范式;GoT-R1 用 RL 解决了它"模板锁死 + 推理不忠实"的局限。
  • DeepSeek-R1 / GRPO (Shao et al., 2024):提供了无需 critic、靠组内相对奖励归一化的高效 RL 算法,是本文 RL 引擎;GoT-R1 是它在视觉生成域的成功落地之一。
  • 统一 MLLM(Janus-Pro / Chameleon / Emu3):提供了能联合建模文本+图像 token 的基座,让"端到端生成推理链和图像"成为可能。
  • T2I-R1 (并行工作):同样用 BiCoT-GRPO 联合优化语义级和 token 级 CoT,思路相近,可对比借鉴。
  • 启发:当一个生成任务可以拆成"中间显式规划 + 最终输出"两段时,给中间步骤单独设计过程奖励、并用 IoU/grounding 这类客观信号对账两段一致性,是个值得推广的范式;同时"把抽象表示渲染成模型擅长的模态再评估"是提升奖励可靠性的通用技巧。

评分

  • 新颖性: ⭐⭐⭐⭐ 把 RL-for-reasoning 系统迁移到自回归视觉生成,双阶段多维奖励 + "画框再评"空间奖励的组合是扎实的新设计,尽管 GRPO 和 GoT 都是现成砖块。
  • 实验充分度: ⭐⭐⭐⭐ T2I-CompBench / GenEval / COCO + 人评全覆盖,奖励组合消融做得细致且揭示了"\(R_{RI}\) 单用崩盘"这类有价值的结论;缺奖励 hacking 和更复杂场景的分析。
  • 写作质量: ⭐⭐⭐⭐ 动机—难点—方法—消融逻辑清晰,图示(Fig.1–4)把奖励设计讲得很直观。
  • 价值: ⭐⭐⭐⭐ 在组合式生成这个真实痛点上拿到明显 SOTA,"画框再评"和"乘积式多维奖励"两个洞察对后续 MLLM-as-reward 的工作有可复用价值。