Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning¶
会议: ICLR 2026
arXiv: 2602.20197
代码: https://github.com/zhh6425/CalibRL
领域: 多模态VLM / 强化学习
关键词: RLVR, 混合策略优化, 多模态推理, 熵崩溃, 可控探索
一句话总结¶
CalibRL 将专家数据重新定义为分布校准基线(而非严格模仿目标),通过 LeakyReLU 不对称激活 + 优势加权实现对 MLLM 推理训练中探索-利用平衡的精细控制,解决 RLVR 中的熵崩溃问题,在几何推理等任务上大幅超越 GRPO/DAPO。
研究背景与动机¶
领域现状:RLVR 已成为提升 MLLM 推理能力的主流范式(如 DeepSeek-R1),但性能提升往往伴随策略熵的显著下降——熵枯竭成为进一步改进的瓶颈。
现有痛点: - 传统熵正则化鼓励随机性但无方向性→探索效率低 - SFT-then-RL 范式中 SFT 将策略固定在静态演示分布→削弱后续 RL 探索 - 混合策略框架中直接注入 SFT 监督→当前策略与专家轨迹的分布不匹配→高偏差方差→加速熵崩溃
核心矛盾:专家数据是双刃剑——提供有用指导但也压缩策略分布。将专家轨迹的概率 \(\pi_\theta(\tau^{expert})\) 最大化必然降低其他轨迹概率→总熵下降
切入角度:不应"模仿"专家(绝对目标),而应以专家为"参考基线"做相对校准——欠表示的正确推理路径被强化,过度自信的错误预测被抑制。
核心 idea:将专家监督从刚性模仿信号转为精细化校准机制,通过 log-probability gap + LeakyReLU 不对称门控实现有方向、受管制的探索。
方法详解¶
整体框架¶
CalibRL 要解决的是 RLVR 训练 MLLM 时的熵崩溃:以往无论是 SFT-then-RL 还是把专家监督直接塞进 RL 的混合策略框架,本质都在最大化专家轨迹的对数似然,逼着策略向专家分布单向收拢——专家轨迹概率一抬高,其他轨迹概率必然被压低,总熵随之下降、探索枯竭。CalibRL 的破局点是换一个视角:不把专家当"必须达到的模仿目标",而当成"衡量当前策略偏到哪一侧的参考坐标",在 GRPO 之上挂一个可控探索项 \(\mathcal{L}_{exploration}\) 做相对校准。
对一个 prompt 采样出的 group 里的每条响应,这套机制分三步走:先算模型对自己答案相对专家答案的偏好(log-probability gap \(\Delta\ell_i\)),判断模型相对专家是过自信还是欠自信;再结合答案对错,用不对称的 LeakyReLU 门控决定这条响应该往上推(强化)还是往下压(抑制)、并在它跨过专家基线后自动收力;最后按组内优势的绝对值加权,让罕见却有信息量的响应主导更新。三步分别管"信号""方向与力度""权重",合成一个探索项后并入 GRPO 目标。
关键设计¶
1. Log-Probability Gap:用模型自身 vs 专家的相对信心当探索信号
熵正则化只鼓励随机性、没有方向,在 MLLM 巨大的状态空间里探索效率很低。CalibRL 想要"有方向的探索",于是先定义一个相对量:
\(\Delta\ell_i\) 为正说明模型已经更偏好自己生成的轨迹、相对专家更自信;为负说明模型对自身响应的信心还低于专家基线。后续要强化还是抑制,全部由这个相对信号驱动——这就是把专家从"模仿目标"降级为"参考基线"的关键:模型不需要逼近专家的概率,只需要知道自己相对专家偏到了哪一侧。
2. LeakyReLU 不对称激活:跨过专家基线后就松手,避免过度自信
有了信号还要决定方向与力度。CalibRL 先用一个独立的对错符号 \(s_i\) 标记响应(正确 \(s_i=+1\)、错误 \(s_i=-1\),单独定义而非直接用归一化奖励,是因为含格式奖励的实际 reward 可能超出 \([0,1]\))。探索项写成:
把 \(s_i\) 乘进去保证优化方向始终和正确性对齐:对正确但模型还不够自信的响应(\(\Delta\ell_i\) 偏负)要强化,对错误却被模型过度自信的响应(\(\Delta\ell_i\) 偏正)要抑制。LeakyReLU 的不对称正好刻画"力度该多大"——输入为正时梯度为 1(响应还在专家基线的"该管"那一侧,全力推/压),输入为负时梯度缩放成 \(\alpha\in(0,1)\)(响应概率一旦跨过专家基线,就减弱进一步的强化/抑制,防止把策略再次推向过度自信)。这里特意没用纯 ReLU(输入为负直接切断梯度会丢掉有用信号),也没用线性激活(无法区分"还需要管"和"已经够了"两个区域),LeakyReLU 在两者之间取了平衡。
3. 优势加权:让罕见但有信息量的响应主导更新
最后用 group-wise 的优势绝对值 \(|\hat{A}_i|\) 给每条响应的探索项加权。GRPO 的优势本身就是组内归一化的,当一个 group 里多数响应都错、只有少数正确时,那条罕见正确响应的 \(|\hat{A}_i|\) 会很大,于是它获得更大权重、被当成宝贵的探索信号重点强化;反过来在多数都对的组里出现一条罕见错误响应时,加权也会放大对它的抑制;大家都对/都错时权重小、更新温和。这样更新幅度就和"这条响应有多稀有、多有信息量"挂钩,把探索集中在真正能学到东西的偏差上。
损失函数 / 训练策略¶
- 最终目标把探索项并入 GRPO(论文式 10):\(\mathcal{J}(\theta) = \mathcal{J}_{GRPO}(\theta) - \lambda\,\mathcal{L}_{exploration}\),\(\lambda\) 平衡标准 PPO 式优化与专家引导的探索(长 CoT 训练下 GRPO 的 KL 项通常省略)
- 关键超参:\(\alpha=0.5\)(LeakyReLU 斜率,消融里是 sweet spot),\(\lambda\) 控制探索权重
- 专家数据来自 ViRL39K 几何题用 GPT-4o 生成的 CoT(经正确性/格式/逻辑三重校验,约 9.7K 条);消融证实专家基线优于参考策略基线
实验关键数据¶
主实验(几何推理,任务内基准)¶
| 方法 | GeoEval↑ | Geo3K↑ | GeoQA↑ | 平均↑ |
|---|---|---|---|---|
| GRPO | 26.15 | 39.77 | 52.52 | 39.48 |
| SFT+GRPO | 6.00 | 18.64 | 40.98 | 21.87 |
| DAPO | 25.19 | 40.93 | 52.52 | 39.55 |
| CalibRL | 33.44 | 40.60 | 60.74 | 44.93 |
消融实验¶
| LeakyReLU \(\alpha\) | 效果 |
|---|---|
| 0.3 | 早期激进探索但不稳定,熵波动 |
| 0.5 | 平衡的熵增长,无震荡 |
| 0.8 | 过度约束,快速熵衰减 |
关键发现¶
- SFT+GRPO 反而最差:直接混合 SFT 和 RL 导致严重熵崩溃——支持"模仿→校准"范式转换的必要性
- CalibRL 在任务内和任务外均最优:平均超 GRPO +5.45%(任务内),泛化也更好
- 熵曲线稳定:CalibRL 训练过程中策略熵平稳增长,其他方法则持续下降
- \(\alpha=0.5\) 是 sweet spot:过小→不稳定,过大→探索受限
亮点与洞察¶
- "校准而非模仿"是对混合策略 RL 的深刻重新理解——专家数据不应被视为必须达到的目标,而应是衡量当前策略偏差的参考坐标。
- LeakyReLU 提供了优雅的梯度门控机制——一个简单的激活函数选择就实现了"需要时强化、足够时减弱"的自适应控制。
- "SFT+GRPO 反而最差"的发现对实践有重要警示——简单叠加 SFT 和 RL 可能互相抵消。
局限与展望¶
- 仅在几何推理上验证——数学/代码推理等场景待探索
- LeakyReLU 的 \(\alpha\) 需要调优——更自适应的激活函数设计可能更好
- 专家数据质量影响校准基线的可靠性
- 未探索与其他 RL 变体(Dr.GRPO, CPPO)的结合
相关工作与启发¶
- vs GRPO/DAPO: 标准策略优化不处理熵崩溃;CalibRL 通过校准机制维持探索
- vs LUFFY: 也是混合策略框架但仍用模仿式监督→仍有分布不匹配
- vs SFT+GRPO: 直接串联导致灾难性干扰;CalibRL 的校准范式避免了这个问题
评分¶
- 新颖性: ⭐⭐⭐⭐ "校准而非模仿"的范式有洞察力,LeakyReLU 应用巧妙
- 实验充分度: ⭐⭐⭐⭐ 消融充分但任务范围偏窄(主要是几何推理)
- 写作质量: ⭐⭐⭐⭐ 问题分析深入,理论动机清晰
- 价值: ⭐⭐⭐⭐ 解决 RLVR 熵崩溃的实用方案,对混合策略训练有启发