Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing¶

会议: CVPR 2026
论文: CVF Open Access
代码: Project Page https://hrz2000.github.io/realign
领域: 扩散模型 / 图像生成 / 多模态VLM
关键词: 图文交错生成, 结构化推理, 链式思考, GRPO, 推理-生成对齐

一句话总结¶

针对统一多模态模型"会推理但推理用不上图像生成"的脱节问题，Re-Align 用结构化的 In-Context Chain-of-Thought（拆成语义引导 + 参考关联）把复杂图文交错任务部分降维成文生图，再用一个基于 CLIP 相似度的代理奖励做 GRPO 强化对齐，在 OmniContext 与 DreamOmni2Bench 上以可比规模刷到同档最优。

研究背景与动机¶

领域现状：图文交错生成与编辑（In-Context Image Generation and Editing，ICGE）让用户用「多张参考图 + 一句指令」来表达"把第一张图里的帽子换成第二张图里的杯子"这类视觉概念。近来的统一多模态模型（如 BAGEL）同时具备理解与生成能力，被寄望来扛起这类任务。

现有痛点：作者观察到一个很别扭的现象——BAGEL 这类模型理解没问题、推理也写得有模有样，但最终生成的图却对不上自己写的推理。也就是说，强大的理解/推理能力没有真正传导到下游图像生成，理解与生成之间存在「错位」(misalignment)。同时，对文生图、单图编辑有效的推理机制，搬到 ICGE 这种多图交错场景就失灵了。

核心矛盾：复杂图文交错 prompt 里既要"精确理解"又要"忠实执行"，而非结构化的长篇推理（prompt-expansion 式）既冗长又容易在多张参考图之间产生指代混淆，模型抓不到清晰的生成目标。

本文目标：(1) 给 ICGE 设计一种能真正指导生成的推理范式；(2) 让推理与生成的一致性可被优化；(3) 造一批带推理标注的高质量训练数据。

切入角度：与其让模型写一大段自由文本推理，不如把推理结构化、解耦——一部分专门给生成提供清晰的文本目标（语义引导），另一部分专门厘清每张参考图的角色（参考关联），从根上消除歧义。

核心 idea：用结构化的 In-Context Chain-of-Thought 把"图文交错生成"部分降维成"文生图"，再用一个能度量"推理文本 ↔ 生成图像"对齐度的代理奖励做 GRPO 强化，把理解与生成真正缝合起来。

方法详解¶

整体框架¶

Re-Align 基于统一多模态基座 BAGEL 构建。给定图文交错 prompt \(P\)（含若干参考图 + 一句耦合视觉概念的指令），模型先顺序生成结构化推理文本 IC-CoT，记作 \(R=\{r_1,\dots,r_M\}\)，再生成图像 \(I\)。推理走标准语言建模目标 \(L_{\text{cot}}(\theta)=\sum_i \log p_\theta(r_i\mid P, r_{<i})\)；图像走 Rectified Flow 的流匹配目标 \(L_{\text{img}}(\theta)=\mathbb{E}\big[\lVert v - v_\theta(x_t,t,P,R)\rVert^2\big]\)，其中 \(x_t=(1-t)x_0+tx_1\)、\(v=x_1-x_0\)。

整套方法是两阶段训练 + 一条数据流水线：先用带 IC-CoT 标注的数据做监督微调（SFT），让模型学会"在 IC-CoT 引导下生成图像"；再用 GRPO 做推理-生成对齐（RGA），奖励信号是结构化推理里抽出的目标 caption 与生成图的 CLIP 相似度；为了解决 ICGE 里样本多样性太低导致 RL 失稳的问题，再叠加推理诱导多样性（RID）策略。所有训练数据来自自建的 Re-Align-410K 自动构建流水线。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图文交错 prompt<br/>(多张参考图 + 指令)"] --> B["IC-CoT 结构化推理<br/>语义引导 + 参考关联"]
    D["Re-Align-410K<br/>自动数据构建流水线"] --> C["Stage1 · SFT<br/>IC-CoT 引导图像生成"]
    B --> C
    C --> E["Stage2 · GRPO 对齐<br/>代理奖励 = CLIP 图文相似度"]
    E -->|组内多样推理链| F["推理诱导多样性 RID<br/>稳定 RL 训练"]
    F --> G["对齐的推理-图像输出"]

关键设计¶

1. IC-CoT 结构化推理：把图文交错任务解耦成"语义目标 + 参考角色"

针对"自由推理与生成对不上、多图指代混乱"的痛点，IC-CoT 把推理过程显式拆成两个互补部分。语义引导用 <out_caption>...</out_caption> 预测结果图的 caption——这给生成提供了一个明确的文本目标，等于把复杂的图文交错生成部分降维成文生图，大大降低学习难度，且对"指令式"和"描述式"用户输入都兼容。参考关联用 <relation_i>...</relation_i> 逐张说明第 \(i\) 张参考图在最终结果里扮演什么角色，关联数与参考图数严格相等，专门对治用户爱用"把它们放一起"这种省略指代、含糊表达带来的混淆。相比 BAGEL 那种 prompt-expansion 式长推理，IC-CoT 是紧凑的结构化表示：既给出清晰的语义与参考线索、降低歧义，又降低了训练与推理开销，还方便后续对齐阶段从固定标签里精确抽取关键元素。

2. Re-Align-410K 自动数据构建流水线：造带推理标注的高质量 ICGE 数据

ICGE 需要"多参考图任意交错"的多样组合，现成数据稀缺，作者搭了一条全自动流水线产出 41 万条带 IC-CoT 标注的数据。流程为：(a) 从角色/物体/场景三类源图池里按任务类型采样参考图；(b) 用 Gemini 2.5 做自适应指令生成（系统 prompt 引导 MLLM 关注次要视觉细节，提升指令复杂度与丰富度）；(c) 用 MLLM 生成结构化 IC-CoT 推理文本——刻意不喂目标图，避免额外视觉输入加剧幻觉、干扰对多图关系的判断；(d) 把参考图组 + 指令喂给 GPT-4o 合成目标图；(e) 多维过滤：用 IC-CoT 的 caption 与目标图算图文相似度（低则推理-生成不一致）、用美学/人类偏好评估视觉质量、用 OmniContextScore 评估指令遵循与语义一致性，剔除约 20% 后得到 410K。这条流水线区别于 OmniGen2 那种"视频抽帧"做法（基本只能做生成），能覆盖更广的编辑任务。

3. 面向 ICGE 的代理奖励：用 CLIP 图文相似度间接对齐推理与生成

ICGE 任务种类多、评测维度多，专门训一个奖励模型代价极高，作者绕过它，设计了一个代理奖励：直接度量"推理上下文 ↔ 生成图像"的对齐度。关键在于 IC-CoT 是结构化的，可以稳定地从 <out_caption> 里抽出预测 caption \(c\)（自由推理文本很难抽出可用的代表性语义），再用 CLIP 的图像/文本编码器算余弦相似度作为奖励 \(s(x,c)=\dfrac{E(x)^\top T(c)}{\lVert E(x)\rVert\cdot\lVert T(c)\rVert}\)，其中 \(E,T\) 是 CLIP 的图像/文本编码器。这个奖励配合 GRPO（相比 PPO 省掉价值网络、更省显存）做策略优化，把"理解写出来的目标"真正逼着生成去对齐。

4. 推理诱导多样性 RID：用多样推理链救活塌缩的奖励方差

ICGE 输入里的显式视觉概念对生成施加了强约束，导致同组样本差异很小、奖励方差塌缩；归一化后即使微小波动也会被不成比例放大，RL 学不到有效信号。先前工作靠加大 SDE 噪声来增多样性，但噪声过大会损图像质量。RID 的做法是给组内每个样本生成不同的 IC-CoT 推理链，用多样的推理轨迹自然带出多样的输出，从而以可控方式抬高奖励方差、提供更有信息量的学习信号、稳定 GRPO 训练。消融显示：只加 RGA 不加 RID，PF 几乎不涨（因为多样性不足拖累 RL），叠上 RID 后整体才进一步提升。

损失函数 / 训练策略¶

两阶段：Stage 1 SFT 在 64 张 H20 上训练 100,000 步、学习率 \(5\times10^{-6}\)，采用「带/不带 IC-CoT」混合训练以保留推理时灵活性；Stage 2 RGA 只训 200 步、组大小 32、学习率 \(1\times10^{-6}\)，作者称这足以让对齐收敛、又能避免后续奖励黑客（reward hacking）。默认 1024×1024 分辨率、50 步去噪。

实验关键数据¶

主实验¶

评测基准为 OmniContext（图文交错生成）与 DreamOmni2Bench（生成 + 编辑）。指标用 GPT-4.1 作自动评委：PF（Prompt Following，是否完成编辑意图）、SC（Subject Consistency，视觉概念一致性）、Overall（PF 与 SC 的几何均值）。

OmniContext 平均分（越高越好，⚠️ 数值以原文为准）：

模型	SINGLE Char.	MULTIPLE Char.	SCENE Char.	Average↑
BAGEL	5.48	5.17	4.07	5.73
OmniGen2	8.05	7.11	6.38	7.18
Qwen-Image-Edit-2509	8.35	7.65	5.16	7.69
DreamOmni2	7.36	6.10	5.20	6.31
Re-Align（本文）	8.25	8.25	8.21	8.21

在可比规模/资源的方法里 Re-Align 平均分最高（8.21），尤其在 MULTIPLE / SCENE 两个更难的子任务上拿到最佳；仅在 SINGLE 子任务上略逊 Qwen-Image-Edit。（闭源的 GPT-4o 8.80、Emu3.5 8.82 因规模/资源不可比，不作同档比较。）

DreamOmni2Bench 上的 Overall（节选，越高越好）：

模型	Add	Replace	Global	Local	Generation
OmniGen2	7.52	5.60	6.88	2.99	4.99
Echo-4o	8.51	4.51	5.16	2.41	6.59
DreamOmni2*	6.87	7.05	7.76	5.44	6.56
Re-Align（本文）	9.27	8.61	7.85	6.35	7.24

Re-Align 在编辑各子类与生成上的 PF/SC 都更高，整体优于含独立生成/编辑参数的 DreamOmni2。

消融实验¶

训练阶段与策略消融（OmniContext 子集；CLIPout 为生成图与真值 caption 的文图一致性，⚠️ 指标定义以原文为准）：

SFT	RGA	RID	PF↑	SC↑	Overall↑	CLIPout↑
✗	✗	✗	6.92	5.47	5.80	32.44
✓	✗	✗	7.51	6.46	6.77	33.32
✓	✓	✗	7.46	6.54	6.80	33.50
✓	✓	✓	7.61	6.57	6.89	33.90

推理范式的 GSB（Good/Same/Bad）人评：IC-CoT 对 w/o CoT 净胜率高 20%，对 BagelCoT（非结构化推理）净胜率高 16.25%。

关键发现¶

SFT 是主要涨点来源：从无推理到 IC-CoT 引导的 SFT，Overall 从 5.80 → 6.77，幅度最大，说明"结构化推理 + 降维到文生图"确实让学习更容易。
RGA 单独上不灵、要靠 RID：只加 RGA，PF 反而从 7.51 微降到 7.46（多样性不足拖累 RL）；叠加 RID 后 PF/SC/Overall/CLIPout 全面回升并超过 SFT，印证"输出多样性是对齐训练的关键"。
结构化推理 > 自由推理：IC-CoT 对非结构化的 BagelCoT 仍有 16.25% 净胜率，说明把推理拆成「语义引导 + 参考关联」比单纯写长推理更能指导生成。

亮点与洞察¶

把"图文交错生成"部分降维成"文生图"：用 <out_caption> 预测目标 caption 给生成一个清晰文本锚点，是个很实用的简化思路——复杂多模态条件被显式翻译成一句话目标，可迁移到任何"条件复杂、目标难表达"的生成任务。
结构化是为了好抽取：IC-CoT 的固定标签不仅降歧义，更让奖励阶段能稳定抽出 caption 去算 CLIP 相似度——"为下游对齐而设计的推理格式"这个思路很巧。
代理奖励绕开昂贵奖励模型：用 CLIP 文图相似度当代理，避免为多任务多维度的 ICGE 专门训奖励模型，是 RL 落地复杂生成任务的低成本路径。
RID 用"多样推理"而非"多样噪声"：先前靠加 SDE 噪声增多样会损质量，改成给每个样本不同推理链来抬奖励方差，既稳训练又不伤画质，是个可复用的 GRPO 稳定化 trick。

局限与展望¶

作者承认模型规模与数据量受限，相比 GPT-4o 这类产品级工作，在多样场景下的表现可能受约束。
当前 IC-CoT 纯文本级，未来可扩展到视觉链式思考（visual CoT），让推理也带上图像中间状态。
（自己补充）代理奖励依赖 CLIP 的文图相似度，对 CLIP 本身对齐能力的偏差敏感；且 RGA 只训 200 步避免 reward hacking，说明该奖励可能不够鲁棒、长训易被钻空子，奖励设计仍有提升空间。
（自己补充）数据流水线重度依赖 Gemini 2.5 / GPT-4o 等闭源模型生成指令与目标图，复现成本与数据分布偏置值得注意。

评分¶

新颖性: ⭐⭐⭐⭐ 结构化 IC-CoT + 代理奖励 + RID 的组合针对 ICGE 的"理解-生成错位"很对症，但各组件（CoT、GRPO、CLIP 奖励）多为已有技术的巧妙拼装。
实验充分度: ⭐⭐⭐⭐ 两个主流基准 + 三段式消融 + GSB 人评较完整，但缺与闭源模型同条件比较、数据流水线各环节的独立消融偏弱。
写作质量: ⭐⭐⭐⭐ 动机（图 2 的错位对比）讲得清楚，方法解耦逻辑顺，公式与流程图齐全。
价值: ⭐⭐⭐⭐ 给"如何让统一模型的推理真正服务生成"提供了可复用范式与开源数据集思路，对 ICGE 社区有实用价值。