UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in RL¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 图像生成 / 统一多模态模型
关键词: 统一MLLM, 图像编辑, GRPO, 奖励统一, 掩码token预测

一句话总结¶

UniGen-1.5 把图像理解、文生图和图像编辑塞进同一个 7B 多模态大模型，关键创新是把"图像编辑"重写成"普通图像生成"，从而让文生图和编辑共用同一套奖励模型做统一 RL（GRPO），再配一个轻量的 Edit Instruction Alignment 阶段补齐指令理解，最终在 GenEval（0.89）、DPG-Bench（86.83）和 ImgEdit（4.31）上超过 BAGEL 等开源模型、逼近 GPT-Image-1。

研究背景与动机¶

领域现状：统一多模态大模型（unified MLLM）想用一个模型同时干"看图（理解）"和"画图（生成）"。前作 UniGen 用一套以数据为中心的流水线把模型从预训练带到后训练，并在后训练用 chain-of-thought verification（CoT-V）——让模型先用自己的理解能力去验证生成结果——来提升文生图质量。

现有痛点：UniGen 有两个硬伤。其一，CoT-V 是一种 test-time scaling，推理时要反复验证，带来巨大的推理开销。其二，UniGen 根本不会做图像编辑，而编辑恰恰是衡量"细粒度可控生成"的核心能力。

核心矛盾：用 RL（而非 test-time 验证）来提升生成质量是更省推理成本的路子，文生图领域已有不少工作证明 GRPO 有效。但把 RL 用到图像编辑上几乎没人成功，根本障碍是奖励建模太难：编辑的变化跨度极大——小到删除/替换一个小物体，大到整张图改风格，奖励模型要在像素空间稳定区分"编辑对不对"非常困难；而专门训练编辑奖励模型又需要海量人工标注、覆盖各类编辑类型，成本不可接受。

本文目标：(1) 设计一个单模型架构，同时支持理解、生成、编辑；(2) 让 RL 能同时、稳定地提升生成和编辑两个任务。

切入角度：作者的关键观察是——如果给定了"期望输出图的文本描述"，那么编辑任务和文生图任务本质上是同一件事：都是"让生成图和一段文本描述对齐"。于是不必为编辑单独造奖励模型。

核心 idea：把图像编辑重写为一般图像生成，用"生成图 ↔ 目标文本描述"的语义一致性作为统一奖励，让稳定成熟的文生图奖励模型（CLIP、HPSv2 等）被直接复用到编辑上，从而把两个任务装进同一套 GRPO 训练里联合优化。

方法详解¶

整体框架¶

UniGen-1.5 以预训练 LLM（Qwen2.5-7B）为骨干，配两个独立的视觉编码器：理解用连续编码器 SigLIP2（支持任意分辨率/宽高比），生成用离散视觉 tokenizer MAGViTv2（把图编码成离散 token）。同一个 LLM 通过三种前向方式覆盖三类任务：理解时输入 SigLIP2 连续 token + 文本，做 next-token 预测出文字；文生图时把目标图编成离散 token、随机掩码一部分换成 [MASK]，让 LLM 在文本条件下预测被掩码的视觉 token（masked token prediction）；编辑时同时用两个编码器抽条件图的语义特征（SigLIP2）和低层特征（MAGViTv2），按"语义视觉 emb + 文本 emb + 低层视觉 emb"顺序拼成条件序列喂给 LLM，再以掩码 token 预测生成输出图的离散 token。

训练分四个阶段串行推进：预训练（用对齐良好的图文对打底，理解+文生图，按 3:2:1 采样生成/理解/纯文本）→ 联合 SFT（加入合成高质量数据与编辑数据，按 3:4:1 采样生成/理解/纯文本，并用 round-robin 在文生图和编辑间交替以稳住训练，此阶段解锁编辑能力）→ Edit Instruction Alignment（轻量 Post-SFT，补齐编辑指令理解）→ 统一 RL（GRPO + 共享奖励模型，联合提升生成与编辑）。本文的三处真正贡献是统一架构、Edit Instruction Alignment 和统一 RL 奖励，预训练/SFT 属于沿用前作的脚手架。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 / 文本 / 编辑指令"] --> B["统一架构：<br/>双编码器 + 掩码 token 预测"]
    B --> C["预训练 + 联合 SFT<br/>(理解/生成/编辑三任务混采)"]
    C --> D["Edit Instruction Alignment：<br/>预测目标图文本描述"]
    D --> E["统一 RL 奖励：<br/>GRPO + 共享奖励模型"]
    E --> F["UniGen-1.5"]

关键设计¶

1. 统一架构：双编码器 + 掩码 token 预测把理解/生成/编辑装进一个 LLM

痛点是 UniGen 只会理解和生成、不会编辑，而要让一个 LLM 同时胜任三件事，核心难点在"编辑"要既看懂条件图的语义、又保留它的像素细节。作者的做法是用任务解耦的双编码器而非单一 tokenizer：理解走 SigLIP2 连续编码器（保留原图任意分辨率的原生信息），生成/编辑走 MAGViTv2 离散 tokenizer（适配掩码 token 预测）。编辑时两个编码器同时上——条件图 \(X_C\) 同时得到语义特征 \(X^U_C=\mathrm{Enc}_U(X_C)\) 和低层特征 \(X^G_C=\mathrm{Enc}_G(X_C)\)，经各自 MLP 投影后与编辑文本 \(T_C\) 拼成 \([X^U_C,\,T_C,\,X^G_C]\) 作为条件，让 LLM 用掩码 token 预测生成输出图 \(X^G_O\)。生成和编辑统一用 384×384 分辨率与 MaskGIT 式的余弦掩码调度，三种任务因此共享同一个骨干和同一套生成机制，而不是拼三个独立模型。两个视觉编码器在所有训练阶段都冻结，只训 LLM 与投影层。

2. Edit Instruction Alignment：先教会模型"看懂编辑指令"，RL 才有有效信号

这一步针对的是一个很具体的训练失败现象：在 RL 的初步实验里，遇到复杂编辑指令时，模型采样出的一组候选全都满足不了指令，导致这一组奖励的标准差极小。而 GRPO 的优势是按组归一化算的——\(A_i=\dfrac{R_i-\mathrm{mean}\{R_1,\dots,R_N\}}{\mathrm{std}\{R_1,\dots,R_N\}}\)，分母（std）一旦趋近 0，学习信号就被淹没，策略学不动。作者把根因归结为"模型没真正理解编辑指令、推不出目标图该长什么样"。

解法是插入一个轻量的 Post-SFT 阶段：对每个编辑输入 \((X_C, T_C)\)，先用强 teacher 模型合成一段"期望输出图的文本描述" \(T_O\)，然后让 UniGen-1.5 以标准 next-token 预测去从条件图+指令预测出 \(T_O\)。这等于强迫模型把"编辑意图"翻译成对目标图语义的准确刻画，训完后模型能给出语义连贯又彼此有差异的候选，从而让 RL 拿到信息量更大的奖励信号。消融显示这一步在 RL 之前就能涨点，且在 RL 中被显著放大（见下文）。

3. 统一 RL 奖励：把编辑重写为"测目标文本一致性"，文生图奖励模型直接复用

这是全文的题眼，针对的就是"编辑奖励难造"这一核心矛盾。作者不再为编辑单独训奖励模型，而是把两个任务都用同一个奖励函数 \(R(\tilde{X}^G_O, T_O)\) 评分——\(\tilde{X}^G_O\) 是像素空间的生成图，\(T_O\) 是期望输出的文本描述：文生图直接用 ground-truth prompt 当 \(T_O\)，编辑则用前一步合成的 caption 当 \(T_O\)。其底层假设是"一个足够强的 LLM 能可靠地刻画各种修改幅度下编辑图的视觉差异"。这样一来，原本为文生图打磨成熟、稳定的奖励模型就能原封不动地搬到编辑上，奖励设计被极大简化，也让单模型的联合优化变得可扩展。

具体优化用 GRPO：从 Post-SFT 模型初始化策略 \(\pi_\theta\)，对每个输入采样 \(N\) 个候选 \(\{\hat{X}^G_{O_1},\dots,\hat{X}^G_{O_N}\}\)，各赋标量奖励 \(R_i\)，按上式算组归一化优势 \(A_i\)，再优化 \(J(\theta)=\frac{1}{N}\sum_i \min\!\big(\rho_i A_i,\ \mathrm{clip}(\rho_i,1-\varepsilon,1+\varepsilon)A_i\big)-\beta\,D_{KL}(\pi_\theta\|\pi_{\text{ref}})\)（实现上跟随 T2I-R1 去掉 ratio clipping、只用显式 KL 惩罚约束更新）。奖励 \(R(\cdot)\) 用一组多样的视觉专家集成：CLIP-H、HPSv2、Unified-Reward-7B 和 ORM。训练数据上，文生图用 T2I-R1 的 6,786 条 prompt；编辑自建 Edit-RL（10,568 条），条件图用 Qwen-Image 生成、指令用 Qwen2.5-VL-72B 按模板造、目标描述用 Qwen2.5-72B 合成。⚠️ 公式中各符号（如重要性采样比 \(\rho_i\)、KL 系数 \(\beta\)）以原文为准。

损失函数 / 训练策略¶

预训练除两个视觉编码器外全部解冻；SFT 联合三任务、用 round-robin 在文生图/编辑间交替提升稳定性。Edit Instruction Alignment 在自建 Edit-Align 数据上训 500 步（8×H100，batch 64，lr 1e-5，cosine）。GRPO 训 1500 步（8×B200，batch 32，lr 3e-6，KL 系数 \(\beta=0.01\)，每输入采 \(N=8\) 个候选；为加速每个候选仅用 16 步解码并关掉 CFG）。推理时文生图 CFG 尺度 5.0、生成 50 步；编辑用双尺度 CFG（指令尺度 \(s_T=3\)、条件图尺度 \(s_I=1.5\)）。

实验关键数据¶

主实验¶

图像编辑（ImgEdit benchmark，overall 越高越好）：UniGen-1.5 在不借助任何外部 diffusion 模型的前提下拿到最高 overall 4.31，超过同体量开源模型，甚至略胜 GPT-Image-1。

模型	#Params	Extract	Replace	Remove	Overall
BAGEL	7B MoT	1.70	3.30	2.62	3.20
OmniGen2	7B	1.77	3.74	3.20	3.44
FLUX.1 Kontext [Pro]	-	2.35	4.56	3.57	4.00
GPT Image 1 [High]	-	2.90	4.35	3.66	4.20
Qwen-Image	7B	3.43	4.66	4.14	4.27
UniGen-1.5	7B	3.86	4.78	4.57	4.31

文生图（GenEval / DPG-Bench，越高越好）：UniGen-1.5 取得 0.89 / 86.83，相比前作 UniGen 在 GenEval 上 +0.11、DPG-Bench 上 +1.6，并在 GenEval overall 上分别超过 Show-o2、BLIP3-o、BAGEL 0.13/0.05/0.07 点，"Position" 类目优势尤其明显。

模型	#Params	GenEval Overall	DPG-Bench Overall
GPT Image 1 [High]	-	0.84	85.15
UniGen	1.5B	0.78	85.19
BAGEL	7B MoT	0.82	-
Show-o2	7B	0.76	86.14
BLIP3-o	8B	0.84	81.60
UniGen-1.5	7B	0.89	86.83

图像理解上 UniGen-1.5 全面超过前作 UniGen（AI2D 67.4→77.4、ScienceQA 79.4→86.3、Seedbench 70.8→76.5 等），与 Show-o2 等同体量强模型相当，作者归因于扩到 7B、提高输入分辨率并保原始宽高比、以及加入了基于理解的预训练。

消融实验¶

统一 RL 的作用（Table 4，T2I=文生图、I-Edit=编辑，报告 overall）：两个任务都进 RL 才能整体最好；只留一个任务做 RL 会让另一个任务明显掉点。

T2I in RL	I-Edit in RL	GenEval	DPG-Bench	ImgEdit
✗	✗（无 RL）	0.85	84.19	3.93
✓	✗	0.90	86.62	4.01
✗	✓	0.85	86.39	4.32
✓	✓	0.89	86.83	4.31

Edit Instruction Alignment 的作用（Table 5，报告 overall）：该阶段在 RL 之前就能让三项都涨；更关键的是它对 RL 的"放大"作用——没有它时 RL 只把 ImgEdit 抬 0.21（3.87→4.08），有它时 RL 把 ImgEdit 抬 0.38（3.93→4.31）。

Edit Align	Unified RL	GenEval	DPG-Bench	ImgEdit
✗	✗	0.83	83.92	3.87
✓	✗	0.85	84.19	3.93
✗	✓	0.90	86.96	4.08
✓	✓	0.89	86.83	4.31

关键发现¶

统一 RL 是双赢但不可偏废：单独对文生图做 RL 会让编辑停在 4.01、单独对编辑做 RL 会让 GenEval 卡在 0.85，只有联合训练才在三项上整体最优——证明"把编辑重写成生成、共享奖励"确实让两任务互相受益。
Edit Instruction Alignment 的价值主要体现在"喂养 RL"：它单独的涨幅有限，但能把编辑候选的奖励方差撑起来，使 GRPO 拿到有效梯度，所以 RL 阶段的编辑增益几乎翻倍（0.21→0.38）。
有趣的取舍：加入 Edit Alignment 后 GenEval（0.90→0.89）和 DPG-Bench（86.96→86.83）略降，但 ImgEdit 大涨（4.08→4.31）——这一步是偏向编辑的，作者选择用文生图上微不足道的损失换编辑上的显著提升。
不靠外部 diffusion 也能拿 SOTA 编辑：UniGen-1.5 全程用轻量离散 tokenizer 重建，证明"统一奖励 + GRPO"这条路本身就能把编辑做到逼近 GPT-Image-1。

亮点与洞察¶

"重写任务"比"造新奖励"更聪明：把编辑套进"生成图 ↔ 目标文本一致"的统一 schema，绕开了编辑奖励模型需要海量人工标注的死结，直接复用成熟的文生图奖励——这个"任务归一化"的思路可迁移到任何"难造奖励但能描述目标"的生成子任务。
诊断驱动设计：Edit Instruction Alignment 不是凭空加的阶段，而是从"RL 时编辑候选奖励 std≈0、GRPO 学不动"这个具体故障倒推出来的，把"补齐指令理解"精准定位为 RL 的前置条件。
双编码器解耦：语义（SigLIP2 连续）与低层（MAGViTv2 离散）特征分工，让同一个 LLM 在编辑时既懂"改什么"又留住"原图细节"，是统一模型支持编辑的关键工程点。

局限与展望¶

不擅长渲染文字：模型聚焦语义对齐+离散 token，只用轻量 detokenizer 重建，生成图中的文字（依赖精细结构细节）质量差；作者建议引入 diffusion 组件来补。
视觉一致性仍是短板：编辑时存在 visual inconsistency（编辑区域之外的内容会有不必要变化），根因是统一奖励只测"与目标描述的语义一致"、没专门约束"未编辑区域保持不变"，需要一个专门的一致性奖励模型，留作未来工作。
奖励上限受限于 caption 质量：编辑奖励依赖 teacher 合成的目标描述与"强 LLM 能可靠刻画视觉差异"的假设，描述不准或忽略局部细节时，奖励信号会有偏。

评分¶

新颖性: ⭐⭐⭐⭐ "把编辑重写成生成以统一奖励"是简洁而有效的视角转换，工程整合度高
实验充分度: ⭐⭐⭐⭐ 理解/生成/编辑三类 benchmark 全覆盖，统一 RL 与 Edit Alignment 两个消融都做得清楚
写作质量: ⭐⭐⭐⭐ 动机由具体故障（RL 奖励 std≈0）驱动，逻辑链清晰
价值: ⭐⭐⭐⭐ 为统一 MLLM 提供了一个不依赖外部 diffusion、可扩展的强 baseline