Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models¶
会议: ICLR 2026
arXiv: 2503.06749
代码: GitHub
领域: 多模态VLM
关键词: 多模态推理, 强化学习, 思维链, GRPO, 冷启动初始化
一句话总结¶
提出Vision-R1,通过Modality Bridging构建200K高质量多模态CoT数据进行冷启动初始化,再用渐进思维抑制训练(PTST)策略结合GRPO强化学习,在7B参数规模达到与OpenAI O1接近的多模态数学推理能力。
研究背景与动机¶
DeepSeek-R1成功展示了纯RL可以在LLM中激发复杂推理能力(如自我反思、质疑),但这一成功能否迁移到多模态LLM (MLLM)?
作者首先尝试直接用RL训练MLLM(命名Vision-R1-Zero),发现关键困难:
RL直接训练无法激发复杂推理:由于缺乏大规模高质量多模态推理数据,模型生成不出复杂CoT
现有多模态CoT数据质量不足:缺乏自我反思、质疑等人类认知过程,只是格式化的"伪CoT"
冷启动后的过度思考问题:用CoT数据SFT后,模型生成过长的推理链,但正确推理集中在短链中,导致RL训练难以优化
方法详解¶
整体框架¶
Vision-R1走"先教会再放手"的两阶段路线:第一阶段用一批高质量的多模态思维链数据(Vision-R1-cold)对基座模型做冷启动SFT,让它先具备类人推理的雏形,得到Vision-R1-CI;第二阶段再叠加GRPO强化学习,但用渐进思维抑制训练(PTST)控制推理链长度,逐步逼出复杂而正确的推理,最终得到Vision-R1。难点不在RL本身,而在于既缺好数据、冷启动后又会"想太多"。
关键设计¶
1. Modality Bridging:借纯文本R1造多模态CoT。 DeepSeek-R1能生成带自我反思、质疑的人类般推理,却看不懂图像,没法直接拿来标多模态数据。作者用一条"图像→文本→R1→CoT"的桥接管线绕开这个限制:先把图文对喂给MLLM生成一份含图像描述与初步推理的"伪CoT",逼模型把更多视觉细节显式写出来;再把这份伪CoT连同原图文一起回灌MLLM,提炼出一段尽量无损的纯文本描述,完成从视觉到语言的模态桥接;最后把这段纯文本送进DeepSeek-R1,换回一条高质量复杂CoT。经规则过滤后得到20万条Vision-R1-cold,其中反思标记"Wait"出现585K次,而对照的LLaVA-CoT只有2.3K次,自我反思密度高出两个数量级,这正是冷启动能"激发"而非仅"格式化"推理的关键。
2. 过度思考问题与硬格式奖励:先识别病灶再设计奖励。 冷启动虽然教会了模型反思,却带来一个副作用——它倾向于对所有问题都生成极长推理链,但实测正确答案大多集中在较短的链中。若直接用16K的长度上限做RL,模型会被引导生成更长却更易出错的推理,性能不升反降。为此RL阶段采用硬格式结果奖励函数(HFRRF):只有当输出格式合规且最终答案正确时奖励才为1,否则一律为0,不给"长而像样但答错"的推理任何可乘之机,把优化目标牢牢钉在"答对"上。
3. 渐进思维抑制训练(PTST):用长度约束分阶段逼出正确推理。 既然过度思考是病灶,PTST就反其道而行:早期严格压缩推理预算,迫使模型在短空间里先学会"想对",再随训练推进逐步放宽预算,让它把省下来的篇幅用在真正需要复杂推理的难题上。实现上分两阶段,Stage 1用4K×16、Stage 2用8K×8(推理长度×采样数),刻意让长度与采样数的乘积在各阶段保持恒定,从而在放宽长度的同时不改变每步的总计算预算,使训练信号可比。消融显示这种"短→长"的渐进约束比全程固定4K或固定16K都更优。
损失函数 / 训练策略¶
冷启动阶段在Vision-R1-cold上对基座模型(Qwen2.5-VL)做标准SFT。RL阶段的GRPO目标函数(叠加PTST的分阶段约束)为:
其中 \(s\) 标识PTST的阶段,裁剪系数 \(\varepsilon=0.2\)、KL系数 \(\beta=10^{-2}\),优势用组内归一化估计 \(A_i = \frac{r_i - \text{mean}(\{r_j\})}{\text{std}(\{r_j\})}\),奖励 \(r_i\) 即上文的HFRRF(0或1)。
实验关键数据¶
主实验¶
| 模型 | 参数量 | MathVista | MathVerse | MM-Math | DynaMath | 均分 |
|---|---|---|---|---|---|---|
| OpenAI O1 | - | 73.9 | - | - | - | - |
| GPT-4o | - | 63.8 | 37.6 | 31.8 | 64.9 | - |
| Qwen2.5-VL-7B | 7B | 68.1 | 46.7 | 34.1 | 50.7 | 49.9 |
| Qwen2.5-VL-72B | 72B | 73.5 | 51.3 | 45.6 | 61.2 | 57.9 |
| Vision-R1-7B | 7B | 73.5 | 52.4 | 40.2 | 56.3 | 55.6 |
| Vision-R1-32B | 32B | 76.4 | 62.1 | 55.3 | 65.6 | 64.9 |
| Vision-R1-72B | 72B | 78.2 | 63.2 | 59.3 | 66.4 | 66.8 |
Vision-R1-7B vs 基座Qwen2.5-VL-7B:GEO +13.4, ALG +10.3, GPS +16.4, MathVista整体 +5.4
消融实验¶
| 方法 | Cold Start | GRPO | PTST | 平均推理长度 | 均分(MathVista/MathVerse/MM-Math) |
|---|---|---|---|---|---|
| Vision-R1-Zero | ✗ | ✓ | ✗ | 1285 | 50.7 |
| Vision-R1-CI | ✓ | ✗ | ✗ | 3566 | 44.5 |
| Vision-R1-Long | ✓ | ✓ | ✗ | 3107 | 47.7 |
| Vision-R1 | ✓ | ✓ | ✓ | 2057 | 55.4 |
| PTST配置 | Stage1 | Stage2 | MathVista | 均分 | 说明 |
|---|---|---|---|---|---|
| 固定16K | 16K×4 | 16K×4 | 70.3 | 47.7 | 早期无约束严重过思考 |
| 固定4K | 4K×16 | 4K×16 | 72.6 | 54.3 | 有效但限制了复杂推理 |
| PTST 2阶段 | 4K×16 | 8K×8 | 73.5 | 55.4 | 最优,渐进放宽 |
| PTST 3阶段 | 4K×16 | 6K×12 → 8K×8 | 73.0 | 55.1 | 额外阶段无显著增益 |
关键发现¶
- 7B打败70B: Vision-R1-7B在MathVista上达73.5%,仅低于OpenAI O1 0.4%,超越Qwen2.5-VL-72B
- RL直接训练不够: Vision-R1-Zero仅50.7均分,无法激发有效推理
- 冷启动必不可少但不够: CI模型44.5均分(严重过度思考),必须配合PTST
- PTST简单有效: 两阶段(4K→8K)即达最优,额外阶段无益,说明策略稳健
- 数据质量关键: Vision-R1-cold中"Wait"出现586K次 vs LLaVA-CoT仅2.3K次,自我反思标记频率高2个数量级
- 在Llama-3.2-11B-V上验证跨模型泛化:Vision-R1-cold SFT在所有基准上超越LLaVA-CoT和Mulberry
亮点与洞察¶
- 首次系统探索R1式RL在MLLM上的应用,清晰揭示了直接RL、冷启动、PTST各自的作用
- Modality Bridging巧妙解决了DeepSeek-R1不能处理图像的限制
- PTST策略洞察深刻:先学会"正确思考"再"复杂思考",类比人类学习规律
- 仅用10K数据做RL即可获得~6%平均提升,数据效率极高
- "Aha moment"在MLLM中首次被观察到(如自我纠正和反思)
局限与展望¶
- RL训练仅使用数学数据,对通用推理任务的泛化有待验证
- PTST的阶段数和长度设置目前靠经验,缺乏理论指导
- Modality Bridging存在信息损失风险(视觉→文本转换)
- 32B和72B版本使用了额外数据,与7B不完全可比
- cold-start数据规模(200K)可能是瓶颈,更大规模数据的收益待探索
相关工作与启发¶
- 与DeepSeek-R1对应的多模态版本,指明了MLLM推理增强的可行路径
- PTST思想可应用到其他需要控制生成长度的RL场景
- Modality Bridging方法可推广到其他需要纯文本LLM处理多模态数据的场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将R1式推理范式成功迁移到MLLM,PTST策略原创
- 实验充分度: ⭐⭐⭐⭐⭐ 多基准(MathVista/MathVerse/MM-Math/DynaMath)、多规模(7B/32B/72B)、丰富消融
- 写作质量: ⭐⭐⭐⭐ 论述流畅,问题驱动的叙事结构好,但部分符号较密
- 价值: ⭐⭐⭐⭐⭐ 7B参数达到O1水平的多模态推理能力,对社区有重大启发意义