Stable and Efficient Single-Rollout RL for Multimodal Reasoning¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://mssr-proj.github.io (项目页)
领域: 多模态VLM / 对齐RLHF
关键词: 多模态推理, RLVR, 单rollout, 熵塑形优势, GRPO
一句话总结¶
针对多模态 RLVR 中 GRPO 多 rollout 太贵、而单 rollout 又会熵塌缩崩溃的两难,本文提出 MSSR——用 Beta 共轭基线替代分组归一化、再叠加一个"基于熵的优势塑形"机制稳住训练,做到每个样本只采一条轨迹,却能用一半训练步数追平 GRPO,并在 5 个基准上平均超过它 2 个多点。
研究背景与动机¶
领域现状:用可验证奖励做强化学习(RLVR)已经成为提升多模态大模型(MLLM)推理能力的主流范式。答案对就给 1、错就给 0,奖励信号自动可验证,不再依赖人类偏好标注。当前最常用的算法是 GRPO 这类 group-based 方法:对同一个 prompt 采样一组(通常 8 条)rollout,用组内相对好坏来估计每条轨迹的优势(advantage)。
现有痛点:分组采样有两个硬伤。一是贵——每个输入要前向多次,而多模态模型的视觉编码器+语言编码器都要跑,对大模型来说重复前向的开销极其可观。二是浪费——当一组里所有 rollout 结果都一样(全对或全错)时,组内相对优势直接坍缩为 0,这一步白采了,没有任何学习信号。
核心矛盾:自然会想到"那每个输入只采一条轨迹不就省了"。文本域里确实已经有单 rollout 的成功实践,但作者实验发现,把这套直接搬到多模态会崩:高维稠密的视觉输入大幅放大了输入方差,跨模态的信用分配更难,没有了组内归一化来削峰,二元奖励的高随机性会让策略熵迅速塌缩、训练发散。于是问题变成一个 trade-off:单 rollout 省算力但不稳,多 rollout 稳但费算力。
本文目标:造一个既只用单 rollout(拿到算力效率)、又能稳定收敛(不熵塌缩)的多模态 RLVR 框架。
切入角度:作者先把文本域的单 rollout 公式泛化到多模态,得到一个朴素版本 MVSR——它仍然会塌缩;然后系统性地试了一圈常见稳定化手段(KL 正则、跨模态锚定、熵损失),发现都只能部分缓解;最后定位到真正管用的那一招——基于熵的优势塑形。
核心 idea:把策略输出熵直接揉进优势里——对那些奖励虽低但模型不确定(高熵)的回答,给它更高的有效优势,从而保住探索、防止模式坍缩。这个机制在 group-based 里只是"锦上添花",但在多模态单 rollout 设定下,作者论证它是生死攸关的必需品。
方法详解¶
整体框架¶
MSSR 是一个 group-free(无分组)的 RLVR 训练框架:对每个"图像+问题"的多模态输入,策略模型只生成一条 rollout,拿到二元可验证奖励后,用一个按样本维护的 Beta 分布来估计基线值、算出优势、做 batch 归一化,最后叠加熵塑形项再去更新策略。整条管线相比 GRPO 的区别只在两处——把"组内相对比较"换成"Beta 共轭基线",把"靠组归一化天然稳定"换成"靠熵塑形主动稳定"。朴素版(只有前者)叫 MVSR,加上熵塑形后的完整版叫 MSSR。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["多模态输入<br/>图像 + 问题"] --> B["策略模型<br/>单条 rollout"]
B --> C["可验证奖励 r∈{0,1}"]
C --> D["Beta 共轭基线<br/>估计期望奖励 v̂"]
D --> E["自适应折扣因子 η<br/>按 KL 调节遗忘速度"]
E --> F["优势 A = r − v̂ + batch 归一化"]
F --> G["基于熵的优势塑形<br/>Â = A + ψ"]
G --> H["策略梯度更新"]
H -->|下一步| B
关键设计¶
1. Beta 共轭基线:用一条轨迹也能估出靠谱的优势基线
单 rollout 最大的缺口是没有组内同伴可比,优势 \(A=r-v̂\) 里的基线 \(v̂\)(期望奖励)无从估起。作者注意到二元奖励 \(r(x,o)\in\{0,1\}\) 天然是伯努利分布,而伯努利的共轭先验正是 Beta 分布——于是为每个输入 \(x\) 维护一对形状参数 \(\alpha(x),\beta(x)\),基线取 Beta 的均值 \(v̂(x)=\frac{\alpha(x)}{\alpha(x)+\beta(x)}\)。每步观察到奖励后做共轭更新:\(\alpha\leftarrow\eta\cdot\alpha+r\),\(\beta\leftarrow\eta\cdot\beta+(1-r)\)。优势用的是上一步的基线 \(v̂_{-1}(x)\)(即 \(A=r-v̂_{-1}\))以避免偏差,再在 batch 内归一化降方差。这一招把"组内相对比较"替换成"单样本的贝叶斯期望基线",让单 rollout 也能算出有意义的优势,是省掉分组的前提。
2. 自适应折扣因子 η:让基线随策略变化快慢自动调遗忘速度
共轭更新里的 \(\eta\in[\eta_{\min},\eta_{\max}]\subset(0,1]\) 是个"遗忘因子"——它决定旧的奖励统计在 Beta 参数里衰减多快。如果固定不变,策略变快时旧基线就过时、策略稳定时又记不住历史。作者用一个长度 \(N\) 的滑动窗口跟踪相邻两次策略更新之间的 KL 散度均值 \(\overline{KL}_s\),并和目标 \(KL_\text{target}\) 比较:当 \(\overline{KL}_s>KL_\text{target}\)(策略变化剧烈)时,按 \(\eta_s=\eta_{\max}-\tau_s(\eta_{\max}-\eta_{\min})\) 线性调小 \(\eta\),加快遗忘、防止旧基线拖累;当 \(\overline{KL}_s\le KL_\text{target}\)(更新平稳)时反向调大 \(\eta\)、放慢遗忘、多保留历史信息。其中比例 \(\tau_s=\min(\overline{KL}_s/KL_\text{target},1.0)\)。这让基线估计能跟着策略演化自适应,是对设计 1 的稳态补强。
3. 基于熵的优势塑形:本文真正稳住训练的那一招
即便有了 Beta 基线,MVSR 仍会崩——因为只采一条轨迹,奖励信号高度随机(相似推理可能这次 r=1、下次 r=0),策略更新震荡、熵迅速塌缩、准确率随训练反而下滑(图 3 实测)。作者的补救是把策略熵直接塑进优势:定义熵 bonus
其中 \(H_t(\pi_\theta)=-\mathbb{E}_{o\sim\pi_\theta}[\log\pi_\theta(o_{<t}\mid x)]\) 是 token 级熵,\(\text{stopgrad}\) 只取熵的数值、不让它反传梯度,\(\gamma,\lambda\) 是缩放系数。塑形后的优势为 \(\hat A_t=A_t+\psi_t\)。直觉上,它给那些奖励低但模型不确定(高熵)的回答额外加权——这类回答可能正落在"接近正确却采样不足"的推理路径附近,softening 了对低奖励回答的惩罚,从而保住足够的策略熵、维持探索、阻止模式坍缩。论文强调:熵塑形在 group-based RLVR 里早被用过、只算有益;但在缺少组内归一化、不稳定被放大的单 rollout 多模态设定里,它从"有益"升级成"必需"。
损失函数 / 训练策略¶
基座为 Qwen2.5-VL-3B/7B,在 Vision-R1-RL 数据集(约 10K 多模态数学推理样本)上直接做 RL,输出格式要求推理包在 <think></think>、答案用 \boxed{},奖励是"答案精确匹配才给 1"的硬规则二元奖励。训练 120 步,AdamW,lr=1e-6,weight decay=0.01;熵塑形 \(\gamma=0.4,\lambda=2.0\);Beta 折扣 \(\eta_{\min}=0.875,\eta_{\max}=0.96\);KL 滑窗 \(N=20\),\(KL_\text{target}=0.01\),对参考策略的 KL 正则系数 0.01。实现基于 EasyR1 框架。公平起见,所有方法每步总 rollout 数都对齐到 2048(单 rollout 是 2048×1,GRPO 是 256×8)。
实验关键数据¶
主实验¶
五个多模态推理基准上的泛化对比(准确率 %,3B / 7B 两个规模;表头取自原文 Table 1):
| 模型 | MathVerse | MathVista | MMK12 | R1-OneVision | HallusionBench | 平均 |
|---|---|---|---|---|---|---|
| Qwen2.5-VL-3B(base) | 33.3 | 59.5 | 42.5 | 27.6 | 59.9 | 44.6 |
| + GRPO | 36.8 | 61.7 | 46.1 | 30.2 | 62.3 | 47.4 |
| + RLOO | 35.7 | 59.7 | 45.5 | 28.8 | 61.6 | 46.3 |
| + REINFORCE++ | 35.3 | 47.7 | 46.0 | 21.7 | 63.2 | 42.8 |
| + MSSR | 39.6 | 63.0 | 49.2 | 29.0 | 66.6 | 49.5 |
| Qwen2.5-VL-7B(base) | 45.8 | 67.2 | 48.1 | 34.6 | 68.4 | 52.8 |
| + GRPO | 48.5 | 70.0 | 55.8 | 37.7 | 69.7 | 56.3 |
| + RLOO | 47.8 | 69.2 | 56.0 | 38.5 | 68.5 | 56.0 |
| + REINFORCE++ | 42.7 | 68.5 | 51.3 | 34.0 | 69.2 | 53.1 |
| + MSSR | 49.8 | 71.1 | 62.5 | 39.2 | 70.6 | 58.6 |
MSSR 在两个规模上均超过所有 group-free / group-based baseline:3B 比 GRPO 高 2.1 个点、7B 高 2.3 个点,7B+MSSR 取得全表最强平均(58.6)。值得注意的是单 rollout 的 REINFORCE++ 在两个规模都低于 base,印证了"朴素单 rollout 不稳"。
消融实验¶
作者逐一替换稳定化手段,验证熵塑形不可替代(基于 7B,图 3/4 趋势):
| 配置 | 训练稳定性 | 验证准确率 | 说明 |
|---|---|---|---|
| MVSR(朴素单 rollout,仅 KL 正则) | 熵塌缩、发散 | 随训练下滑 | 仅有对参考策略的 KL 正则远不足以稳住 |
| + 跨模态正则(text-only 锚定分支) | 部分稳定 | 训练升、验证仍降 | 用纯文本分支当 anchor policy 做 KL 约束,只能部分缓解 |
| + 熵损失(系数 0.01) | 部分保熵 | 验证仍降 | 末期训练准确率有改善,但熵保不住,加大系数 {0.05,0.10,0.15} 最终仍塌缩 |
| + 熵塑形(MSSR) | 稳定、熵不塌 | 稳步上升 | 比最强单 rollout 变体最终验证准确率高约 5% |
关键发现¶
- 熵塑形是唯一管用的稳定器:KL 正则、跨模态锚定、熵损失都只能"部分救场",唯有把熵塑进优势才能全程保熵、稳定收敛——这是本文最核心的实证结论。
- 算力效率:每步开销仅略增(6.9 vs 6.1 min/step,多出的来自 Beta 基线估计),但只用 一半训练步数就追平 GRPO 的验证准确率,等预算下还反超;换 30K 的 MMRL30K 数据集结论一致。
- 推理更细粒度(Table 2):MMK12 上 MSSR 平均产生 3.3 个关键推理步(按 markdown 加粗对计数),高于 GRPO 的 1.9 和 base 的 3.1;平均回答长度 511.6 也长于 GRPO 的 439.7——说明 GRPO 倾向收敛到更短解,而 MSSR 保留了更结构化的分步推理。
- 超参鲁棒:滑窗 \(N=20\)、\(KL_\text{target}=0.01\) 在末期验证准确率最佳;自适应 η 比固定 η 略好但两者都稳,说明对基线更新规则不敏感。
亮点与洞察¶
- 共轭分布配二元奖励,干净又自洽:奖励是伯努利、基线用其共轭先验 Beta,更新规则就是简单的参数累加,省掉了分组采样还保留了概率解释——是个很优雅的"用一条轨迹估基线"方案。
- "给高熵低奖励回答加权"这个直觉很迁移:它本质是在说"别急着惩罚那些不确定但可能接近正确的探索",这套保熵思路对任何容易模式坍缩的单样本/稀疏奖励 RL 都有借鉴价值。
- 方法论上的诚实:作者没有一上来就卖熵塑形,而是先试遍 KL/跨模态/熵损失这些更"显然"的手段、逐一证明它们不够,再反衬出熵塑形的必需性——这种"消去法"叙事让结论更有说服力。
- 同一机制在不同设定下角色不同:熵塑形在 group-based 里只是 nice-to-have,在单 rollout 多模态里却是 must-have,提醒我们稳定化技巧的价值高度依赖于是否还有别的方差抑制来源(这里少了组归一化)。
局限与展望¶
- 任务域偏窄:训练与评测都聚焦多模态数学/推理类(图表、几何、视觉数学),奖励是"答案精确匹配"的硬规则二元奖励,是否能推广到开放式生成、需要部分分/过程奖励的任务尚未验证。
- 规模仅到 7B:只在 Qwen2.5-VL-3B/7B 上验证,更大模型上"分组归一化缺失被熵塑形补偿"这一权衡是否依旧成立未知。
- 熵塑形的超参敏感性:\(\gamma=0.4,\lambda=2.0\) 沿用他人设置,论文对这两个核心系数本身没做系统扫描(只扫了 \(N\) 和 \(KL_\text{target}\)),其稳健边界不清晰。
- 关键步数的度量较粗:用"markdown 加粗对的个数"近似推理粒度,是个易受输出格式影响的代理指标,"更多关键步=更鲁棒推理"的因果仍偏经验。
相关工作与启发¶
- vs GRPO / RLOO(group-based):它们靠每个 prompt 采一组 rollout 做组内相对优势,稳但贵、且全同结果时优势归零浪费采样;MSSR 只采一条、用 Beta 基线替代组归一化,半数步数追平、等预算反超,核心优势是算力效率。
- vs REINFORCE++(group-free 单 rollout):同样是单 rollout,但缺乏针对多模态高方差的稳定化,实测两个规模都低于 base;MSSR 的差异点正是加了熵塑形,把"不稳的单 rollout"救成"稳定且更强"。
- vs 文本域单 rollout 方法(如 [35]):本文把它们的 Beta 基线 + batch 归一化公式泛化到多模态,但发现 batch 归一化这类文本域有效的手段在视觉高维输入下失效,必须额外引入熵塑形——这是"文本 RLVR 经验不能直接搬到多模态"的一个具体例证。
- vs 跨模态正则 / 双分支熵损失类工作:这些被作者当作对照基线证明其"只能部分稳定",反衬熵塑形的核心地位。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个把单 rollout RLVR 做稳的多模态方法,Beta 基线+熵塑形组合清晰,但单个组件(共轭基线、熵塑形)均源自已有工作。
- 实验充分度: ⭐⭐⭐⭐ 5 基准 × 2 规模主结果 + 系统消除法消融 + 换数据集复现 + 超参敏感性,证据链完整;规模和任务域偏窄。
- 写作质量: ⭐⭐⭐⭐ 动机—朴素版崩—消去法定位熵塑形的叙事顺畅,公式与图表呼应清楚。
- 价值: ⭐⭐⭐⭐ "半数步数追平 GRPO"对算力敏感的多模态 RL 训练很实用,保熵思路可迁移到其他稀疏奖励单样本 RL。