Co-Reinforcement Learning for Unified Multimodal Understanding and Generation¶
会议: NeurIPS 2025
arXiv: 2505.17534
代码: https://github.com/mm-vl/ULM-R1
领域: 图像生成
关键词: 统一多模态模型, 强化学习, GRPO, 文本生成图像, 多模态理解
一句话总结¶
提出 CoRL(Co-Reinforcement Learning)框架,通过"统一RL→精细化RL"两阶段策略对统一多模态模型(ULM)同时进行理解和生成能力的强化学习优化,实现理解生成双能力的协同进化,在 1.5B 参数量下生成提升 7%、理解提升 23%。
研究背景与动机¶
领域现状:统一多模态大语言模型(ULM)能同时处理视觉理解和图像生成任务,代表性工作包括 Janus-Pro(全自回归 F-AR 方案)和 Show-o(自回归+扩散混合方案)。强化学习(RL)后训练已在纯文本 LLM(如 DeepSeek-R1)上展示出显著效果,但在多模态领域的应用主要局限于理解任务的推理增强。
现有痛点:(1) RL 在视觉生成上的应用非常有限,仅 SimpleAR 用 CLIP Score 做过初步探索,效果一般;(2) 更关键的是,将 RL 同时用于 ULM 的理解和生成两种能力的协同优化完全未被探索;(3) 直接对单一任务做 RL 不仅在生成任务上提升有限,还可能损害另一个任务的能力。
核心矛盾:ULM 的理解和生成共享同一个 LLM backbone,分别优化容易产生冲突。现有 RL 方法(如 GRPO)的 reward 设计主要面向文本输出,缺乏适用于图像生成的可验证奖励信号。
本文目标 设计一套适合 ULM 的强化学习框架,让理解和生成两种能力在共享的策略优化中互利共进而非互相伤害。
切入角度:作者做了系统的 pilot study,比较了四种 RL 策略(分别RL/分别RL后权重合并/交替RL/统一RL),发现统一 RL 显著优于其他策略,证明双能力可以在共享优化中协同进化。基于此洞察设计两阶段方案:先统一建立跨任务协同,再分别精细化。
核心 idea:通过统一 GRPO 框架同时优化 ULM 的理解和生成能力,利用跨任务奖励信号的协同效应实现双能力的共同提升。
方法详解¶
整体框架¶
CoRL 采用"基础→专精"(Foundation-then-Specialization)的两阶段 RL 流程。第一阶段(统一 RL):在包含 22K 理解+生成样本的混合数据集上,用联合奖励函数进行 GRPO 优化,同时提升两种能力。第二阶段(精细化 RL):分别用任务特定的奖励和数据对理解(MCQ/OE 两种)和生成能力进行针对性增强。基础模型为 Janus-Pro-1B/1.5B,8 卡 H20 训练。
关键设计¶
-
双向循环一致性奖励(Bidirectional Cycle Consistency Reward):
- 功能:为文本到图像生成任务提供可验证的语义保真度奖励
- 核心思路:从两个方向评估生成质量——视觉一致性用 LPIPS 衡量生成图与真实图的感知相似度;文本一致性先用 BLIP 对生成图 re-caption,再用 SPICE 衡量 re-caption 与原始 prompt 的语义匹配度。\(\mathcal{R}_{cycle} = 1 - \text{LPIPS}(\mathcal{I}_{real}, \mathcal{I}_{gen}) + \text{SPICE}(\mathcal{P}_{org}, \mathcal{C}_{re-cap})\),归一化到 [0,1]
- 设计动机:单一的 CLIP Score 评估太粗糙,且在 pilot study 中效果不佳。双向循环形成闭环反馈——同时惩罚视觉幻觉(通过 LPIPS)和语义偏离(通过 SPICE),比单向度量更全面
-
文本-图像匹配奖励(Text-Image Matching Reward):
- 功能:在 token 级别细粒度评估跨模态对齐
- 核心思路:利用 ULM 自身的特征空间,将 prompt 的文本 token 表示 \(\mathbf{T}\) 和生成图的视觉 token 表示 \(\mathbf{I}\) 做双向最大余弦相似度匹配:\(\mathcal{R}_{TIM} = \frac{1}{2}(\frac{1}{L_i}\sum_j \max_k \cos(\mathbf{i}_j, \mathbf{t}_k) + \frac{1}{L_t}\sum_k \max_j \cos(\mathbf{t}_k, \mathbf{i}_j))\)
- 设计动机:CLIP Score 只给出全局匹配分数,无法捕捉细粒度的概念-视觉元素对应关系。利用 ULM 自身表示空间做 token 级匹配,既更细粒度又不依赖外部模型
-
统一 RL(Stage 1)+ 精细化 RL(Stage 2)的两阶段策略:
- 功能:先建立跨任务协同基础,再做任务特定增强
- 核心思路:Stage 1 使用联合奖励 \(\mathcal{R}_{Uni} = \mathcal{R}_{cycle} + \mathcal{R}_{TIM} + \lambda(\mathcal{R}_{Acc} + \mathcal{R}_{Format})\),对理解和生成同时优化,采用标准 GRPO 但去掉 KL 散度约束以提升泛化。Stage 2 分三路独立精细化——生成用 \(\mathcal{R}_{cycle} + \mathcal{R}_{TIM}\),MCQ 理解用 \(\mathcal{R}_{MCQ-Acc} + \mathcal{R}_{Format}\),OE 理解用 \(\mathcal{R}_{OE-Acc} + \mathcal{R}_{Format}\),此阶段重新引入 KL 约束防止偏移
- 设计动机:Pilot study 明确证明统一 RL 优于分别 RL/交替 RL/权重合并等方案。两阶段设计让 Stage 1 建立共享的能力基础和跨任务知识迁移,Stage 2 再做精准优化而不会破坏已建立的协同关系
损失函数 / 训练策略¶
基于 GRPO,每个 prompt 采样 8 个(Stage 1)或 16 个(Stage 2)候选响应,计算组内归一化优势值。Stage 1 学习率 4e-6,batch size 16,\(\lambda=0.8\);Stage 2 学习率降至 1e-6。理解任务的最终模型通过高斯分布权重合并策略组合 MCQ 和 OE 两个精细化模型。
实验关键数据¶
主实验¶
| Benchmark | Janus-Pro-1.5B | ULM-R1 | 提升 |
|---|---|---|---|
| GenEval ↑ | 0.73 | 0.77 | +4.3 |
| DPG ↑ | 82.63 | 83.92 | +1.3 |
| WISE ↑ | 0.26 | 0.33 | +7 |
| MMMU ↑ | 36.3 | 42.3 | +6.0 |
| WeMath ↑ | 5.9 | 21.1 | +15.2 |
| LogicVista ↑ | 23.9 | 34.5 | +10.6 |
| MathVerse ↑ | 13.5 | 25.4 | +11.9 |
| MMVet ↑ | 39.8 | 43.9 | +4.1 |
| POPE ↑ | 86.2 | 88.9 | +2.7 |
消融实验¶
| 配置 | GenEval | DPG | MMMU | WeMath | LogicVT |
|---|---|---|---|---|---|
| Baseline | 73.0 | 82.6 | 36.3 | 5.9 | 23.9 |
| + Cold-SFT (S1) | 72.8 | 82.5 | 41.0 | 18.0 | 27.9 |
| + Unified-RL (S1) | 75.9 | 83.3 | 40.3 | 14.0 | 30.2 |
| + Refined-RL w/ Cold-SFT | 74.5 | 82.8 | 41.8 | 22.5 | 35.9 |
| CoRL (Unified+Refined) | 77.3 | 83.9 | 42.3 | 21.1 | 34.5 |
关键发现¶
- 统一 RL 是协同进化的关键:对比 #1(Cold-SFT 基础)和 #2(Unified-RL 基础),统一 RL 在生成任务上显著更好(GenEval 75.9 vs 72.8),且理解任务的 LogicVista 提升更大(+6.3 vs +4.0),说明跨任务 RL 带来的协同效应超越了简单的监督学习
- 两阶段优于单阶段:CoRL (#7) 全面优于仅有统一 RL 的 #2,精细化阶段在不破坏协同关系的前提下进一步提升各任务性能
- 数学推理提升最显著:WeMath +15.2、MathVerse +11.9,表明 RL 的长链思维能力提升对数学推理尤其有效
- 1.5B 的 ULM-R1 在多个 benchmark 上超越了 7B 的 Janus-Pro,说明 RL 后训练的效率极高
亮点与洞察¶
- 首次系统验证 GRPO 对 ULM 双任务协同优化的有效性:pilot study 清晰地展示了四种策略的优劣,统一 RL 的优越性给出了一个明确的设计原则——共享优化优于分离优化
- 自监督式的生成质量奖励设计:cycle consistency + TIM 奖励不依赖外部大模型打分,而是利用 ULM 自身的表示空间和简单的 re-captioning 流程,降低了对外部 reward model 的依赖
- 小模型 + RL 后训练的效率:1.5B 模型通过 CoRL 在多个 benchmark 上达到甚至超越 7B 模型的水平,说明 RL 后训练在效率/性能 trade-off 上极具吸引力
局限与展望¶
- 生成分辨率受限于 Janus-Pro 的 384×384,远低于主流扩散模型的 512/1024
- 图像生成的采样质量仍需 CFG(guidance weight=5),增加推理成本
- RL 训练过程中需要从 ULM 实时采样图像进行奖励评估,训练效率远低于纯文本 RL
- 未探索 RL 对视频生成/理解的适用性
- 权重合并策略(用于组合 MCQ/OE 精细化模型)的最优配置可能因任务而异
相关工作与启发¶
- vs SimpleAR:SimpleAR 只用 CLIP Score 做自回归生成的 RL,效果一般。CoRL 的双向循环一致性 + token 级匹配奖励设计更精细,且同时处理理解和生成
- vs R1-like MLLMs(如 Vision-R1、LMM-R1):这些工作只用 RL 增强理解/推理能力,CoRL 首次将 RL 扩展到理解+生成的联合优化
- vs DPO-based ULMs(如 Emu3-DPO、HermesFlow):DPO 需要偏好数据对,CoRL 使用可验证的 rule-based rewards,数据需求更低且更灵活
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统研究 RL 对 ULM 双能力的联合优化,但方法框架本身基于已有的 GRPO
- 实验充分度: ⭐⭐⭐⭐⭐ pilot study 设计扎实,12 个 benchmark 覆盖全面,消融详细
- 写作质量: ⭐⭐⭐⭐ 整体清晰,pilot study 部分特别有说服力
- 价值: ⭐⭐⭐⭐⭐ 为 ULM 的 RL 后训练提供了清晰的路线图,跨任务协同的发现具有广泛启发性