Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards¶
会议: NeurIPS 2025
arXiv: 2509.19003
代码: https://github.com/baaivision/CoS
领域: 多模态VLM / 视觉推理 / 过程奖励模型
关键词: chain-of-step, process reward model, step-level reasoning, iterative DPO, inference-time scaling
一句话总结¶
提出Chain-of-Step (CoS)推理框架,将VLM的推理链拆解为由Name+Thought+Reflection组成的结构化步骤,训练步骤级Process Reward Model (PRM)提供精细奖励信号,配合迭代DPO和step-level beam search系统性提升VLM推理能力——在InternVL-2.5-MPO-8B上6个benchmark平均73.4%(+4.0%),在LLaVA-NeXT-8B上平均64.2%(+12.1%),并揭示了"VLM推理中质量远比长度重要"这一与LLM领域相反的发现。
研究背景与动机¶
领域现状:Chain-of-Thought推理已在LLM领域取得巨大成功,OpenAI-o1和DeepSeek-R1通过大规模RL+CoT实现了推理能力的飞跃。VLM领域也在积极探索CoT推理(LLaVA-CoT、Insight-V、URSA等),但整体仍处于粗粒度阶段。
现有痛点:当前VLM的CoT推理输出是一大段缺乏结构的"thought"——没有统一格式、没有清晰的步骤划分,导致两个核心问题:①推理过程容易变得冗长混乱,难以执行系统化的结构化推理;②无法评估中间推理步骤的质量,使得RL训练和inference-time scaling都缺乏有效的reward信号。
核心矛盾:LLM领域的PRM(如Math-Shepherd、Let's Verify Step by Step)已证明步骤级reward的价值,但在VLM领域面临两个非平凡的挑战——如何定义"步骤"(将推理链分解为逻辑连贯的渐进步骤)以及如何评估"步骤"(提供精细的步骤级reward信号)。
本文目标:为VLM建立一套完整的步骤级推理框架:从结构化推理格式的定义、SFT数据构建、过程奖励模型训练,到基于精细reward的RL训练和推理时scaling。
切入角度:从推理链的结构化设计入手,用特殊token划分步骤边界,每步引入Reflection组件连接视觉内容以缓解幻觉,使得步骤拆分稳定可解析,从而为PRM训练和RL提供坚实基础。
核心 idea:通过将VLM推理链结构化为可评估的离散步骤,并训练PRM提供步骤级精细奖励,使RL训练和inference-time scaling都能从中间步骤质量中获益。
方法详解¶
整体框架¶
三阶段pipeline: 1. SFT on ShareGPT-Step-300K:在300K结构化步骤推理数据上做SFT,教模型输出步骤化推理链 2. 训练PRM:用Monte Carlo估计和GPT-4o-as-Judge两种方法标注步骤级数据(各100K),训练InternVL-2.5-MPO-38B作为过程奖励模型 3. Iterative DPO with PRM:用PRM对采样的推理路径评分,选择正负样本对做3轮迭代DPO,渐进增强推理能力
关键设计¶
-
结构化推理步骤模板(Structured Reasoning Template)
- 功能:将VLM的自由形式推理链分解为格式稳定、可解析、可评估的离散步骤
- 核心思路:每个推理步骤包含三个组件——Name(步骤概要,如"识别几何形状")、Thought(详细推理内容)、Reflection(与视觉内容和前序步骤建立关联以缓解幻觉)。用特殊token(
<|reasoning_start|>、<|reasoning_proceed|>、<|reasoning_end|>等)标记步骤边界,步骤数量和长度由模型自回归生成时自主决定 - 设计动机:基于prompt的格式控制不稳定且需要额外数据清洗,用特殊token嵌入格式保证输出稳定性;Reflection组件是专门为VLM设计的——LLM不需要回看视觉内容,但VLM容易生成与图像矛盾的内容,显式的反思步骤可以缓解这一问题
-
ShareGPT-Step-300K数据集构建
- 功能:为SFT阶段提供高质量的结构化步骤推理训练数据
- 核心思路:"从结果推理"策略——将问题和ground-truth答案一起提供给GPT-4o,让其逆向生成步骤化推理过程。覆盖17个数据集、4大类任务(数学推理、科学推理、图表文档分析、世界知识),经严格格式清洗后保留300K高质量样本
- 设计动机:直接让LLM生成推理过程容易出错,给定参考答案可大幅降低推理难度、显著提升生成质量;17个数据集的多样性确保模型学到的推理能力具有泛化性
-
过程奖励模型(Process Reward Model, PRM)
- 功能:对推理链的每个步骤给出质量评分,为RL训练和inference-time scaling提供精细reward信号
- 核心思路:双管齐下采集标注——Math-Shepherd方法(MC估计,每步采样16条后续路径验证正确率)和GPT-4o-as-Judge方法(Good/Neutral/Bad三级评分)各标注100K步骤级数据;以InternVL-2.5-MPO-38B为基座,BCE loss训练2 epochs得到PRM。评估时step score权重20% + answer score权重80%加权求和作为综合评分
- 设计动机:MC估计从统计角度客观评价步骤通向正确答案的概率,LLM-as-Judge从语义角度评价步骤的逻辑正确性——两者互补可训练更鲁棒的PRM;选择38B大模型做PRM(而非8B)是因为更大模型对步骤评估更准确(unseen data上step accuracy 87.3% vs 83.7%)
损失函数 / 训练策略¶
- SFT阶段:标准的next-token prediction loss,在ShareGPT-Step-300K上训练1 epoch
- PRM训练:Binary Cross Entropy loss,对每个步骤预测其正确性概率
- Iterative DPO:标准DPO loss,\(\mathcal{L}_{\text{DPO}}(\pi_\theta;\pi_{\text{ref}}) = -\mathbb{E}[\log\sigma(\beta\log\frac{\pi_\theta(y_+|x)}{\pi_{\text{ref}}(y_+|x)} - \beta\log\frac{\pi_\theta(y_-|x)}{\pi_{\text{ref}}(y_-|x)})]\),其中\(\beta=0.1\)。每轮从SFT模型初始化policy和reference,生成16条推理路径用PRM评分选正负对(分差须超过阈值\(t\)),每轮约20K pairs,共3轮迭代
- 训练成本:SFT约9小时/单节点A800,3轮DPO共约6小时/单节点A800
- Step-level Beam Search(推理时):每步采样N个候选→PRM打分→选最佳步骤→以此为基础继续采样下一步→重复直到输出答案。与Best-of-N计算量完全相同
实验关键数据¶
主实验¶
| 方法 | MathVista | MMStar | MMMU | M3CoT | AI2D | ChartQA | Avg |
|---|---|---|---|---|---|---|---|
| InternVL2.5-MPO-8B (baseline) | 65.0 | 60.7 | 53.8 | 67.5 | 84.2 | 85.0 | 69.4 |
| + CoS SFT | 65.9 | 61.0 | 53.7 | 75.7 | 81.6 | 88.3 | 71.0 |
| + CoS Iterative DPO | 67.8 | 63.5 | 55.5 | 81.0 | 84.9 | 87.4 | 73.4 |
| LLaVA-NeXT-8B (baseline) | 45.9 | 43.1 | 36.9 | 45.6 | 71.5 | 69.4 | 52.1 |
| + CoS SFT | 51.4 | 54.7 | 39.6 | 67.4 | 76.1 | 75.7 | 60.8 |
| + CoS Iterative DPO | 54.7 | 58.9 | 41.8 | 71.7 | 79.2 | 79.1 | 64.2 |
消融实验¶
RL reward策略消融(LLaVA-NeXT-SFT基础上):
| 方法 | MathVista | MMStar | M3CoT |
|---|---|---|---|
| LLaVA-NeXT-SFT | 51.4 | 54.7 | 67.4 |
| Answer Only (PRM) | 53.1 | 57.3 | 69.7 |
| Outcome (GT labels) | 53.5 | 58.1 | 70.0 |
| Step&Answer (PRM) | 54.7 | 58.9 | 71.7 |
推理模式消融(LLaVA-NeXT基础上):
| 方法 | Reward | MathVista | MMStar | M3CoT | Avg |
|---|---|---|---|---|---|
| No Reason SFT→RL | outcome | 51.5 | 56.4 | 63.4 | 57.1 (+2.1) |
| Direct Prompt SFT→RL | outcome | 53.1 | 58.2 | 69.3 | 60.2 (+2.7) |
| CoS SFT→RL | PRM | 54.7 | 58.9 | 71.7 | 61.8 (+4.0) |
GRPO验证:
| 方法 | MathVista | MMStar | M3CoT | Avg |
|---|---|---|---|---|
| Outcome GRPO | 54.3 | 57.9 | 71.4 | 61.2 |
| CoS GRPO (PRM) | 56.3 | 59.1 | 73.7 | 63.0 |
关键发现¶
- Step weight最优20%:纯step score或纯answer score都非最优,Best-of-16 accuracy在step权重20%时达到峰值,表明综合考量步骤和答案质量最有效
- Step-level beam search > Best-of-N:在N=64时PRM-BS比Self-Consistency高5%+,且与Best-of-N PRM计算量完全相同但更优
- 推理长度反直觉现象:PRM DPO训练初期模型主动缩短推理长度以提升质量,稳定后才缓慢增长;而Outcome DPO则持续增长长度。这表明VLM推理中质量远比长度重要——与LLM领域"更长=更强"的规律相反
- 强弱模型差异:弱模型(LLaVA-NeXT)SFT和DPO都大幅提升(+12.1%),强模型(InternVL2.5-MPO)SFT提升有限但DPO仍显著,说明RL对强模型更为关键
- Step-wise DPO失败:尝试在每步构造preference pair进行步骤级DPO,但因为chosen和rejected太相似导致模型拒绝输出——需要足够大的正负差异才能形成有效学习信号
亮点与洞察¶
- 结构化设计的实用性:Name+Thought+Reflection三组件分工明确——Name提供导航,Thought承载推理,Reflection专职连接视觉信息和前序推理。用特殊token而非prompt控制格式的决策非常务实
- "质量>长度"的洞察:这一发现具有重要指导意义——视觉推理更依赖视觉信息的有效利用和知识连接触发,而非像纯数学那样需要冗长的中间推导
- PRM的scale efficiency:38B PRM只需训练一次即可服务多个8B模型的RL训练和inference scaling,是一种高效的资源配置
- 全面的failure analysis:诚实报告了Step-wise DPO的失败案例,揭示了preference learning中正负样本差异性的重要性
- 框架的透明性和可复现性:数据集、PRM、代码全部开源,是VLM细粒度推理的solid baseline
局限与展望¶
- 数据构建依赖闭源模型:ShareGPT-Step-300K和GPT-4o-as-Judge标注都依赖GPT-4o,增加成本和不确定性
- 模型规模验证有限:仅在8B模型上全面验证,更大模型(如72B)上的效果和推理长度变化规律尚不明确
- Reflection组件的实际效果存疑:论文未提供Reflection组件移除的消融实验,无法定量验证其对缓解幻觉的贡献
- PRM推理成本:38B PRM在生产部署中inference成本偏高,可探索知识蒸馏至更小的PRM
- 步骤定义的通用性:当前的步骤划分方式主要针对QA和数学推理,对于更开放式的视觉任务(如创意生成、长文档理解)的适用性未验证
相关工作与启发¶
- vs LLaVA-CoT:LLaVA-CoT用粗粒度的SUMMARY/CAPTION/REASONING/CONCLUSION四段式,CoS用细粒度的Name/Thought/Reflection步骤+PRM——粒度差异直接影响了reward信号的精度和inference scaling的效果
- vs URSA:同样使用PRM但推理链仍是粗粒度的,CoS的结构化步骤使得PRM对每步的评估更准确,step-level beam search因此成为可能
- vs Insight-V:Insight-V用多agent系统(reasoning agent + summary agent),CoS用单模型+PRM的更简洁架构——提示我们复杂问题不一定需要复杂系统
- vs NoisyRollout/Sherlock:NoisyRollout增强exploration diversity,Sherlock做response-level自纠正——都与CoS的step-level精细reward互补,可以组合使用
- 与inference-time scaling方向的关系:PRM+step-level beam search为VLM提供了一种新的inference-time compute利用方式,与Self-Consistency和Best-of-N相比更高效
评分¶
- 新颖性: ⭐⭐⭐⭐ 理由:结构化步骤+PRM在VLM领域是较新的组合,Name+Thought+Reflection的三组件设计和step-level beam search有创新性,但各单独组件(PRM、iterative DPO、结构化推理)并非全新概念
- 实验充分度: ⭐⭐⭐⭐⭐ 理由:消融极其全面——覆盖step weight、PRM基座选择、推理长度动态、reasoning pattern对比、GRPO验证、step-wise DPO失败分析等,每个结论都有实验支撑
- 写作质量: ⭐⭐⭐⭐⭐ 理由:逻辑递进清晰(定义步骤→评估步骤→利用步骤),复杂设计用Figure 1一图概览,失败实验也诚实报告,论文结构紧凑信息密度高
- 对我的价值: ⭐⭐⭐⭐⭐ 理由:VLM推理后训练的complete framework(SFT+PRM+DPO+beam search全链路开源),"质量>长度"的insight对adaptive inference有直接指导价值,PRM+step-level beam search可作为VLM inference scaling的标准方案