Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning¶
会议: ICLR 2026
arXiv: 2602.20197
代码: https://github.com/zhh6425/CalibRL
领域: 多模态VLM / 强化学习
关键词: RLVR, 混合策略优化, 多模态推理, 熵崩溃, 可控探索
一句话总结¶
CalibRL 将专家数据重新定义为分布校准基线(而非严格模仿目标),通过 LeakyReLU 不对称激活 + 优势加权实现对 MLLM 推理训练中探索-利用平衡的精细控制,解决 RLVR 中的熵崩溃问题,在几何推理等任务上大幅超越 GRPO/DAPO。
研究背景与动机¶
领域现状:RLVR 已成为提升 MLLM 推理能力的主流范式(如 DeepSeek-R1),但性能提升往往伴随策略熵的显著下降——熵枯竭成为进一步改进的瓶颈。
现有痛点: - 传统熵正则化鼓励随机性但无方向性→探索效率低 - SFT-then-RL 范式中 SFT 将策略固定在静态演示分布→削弱后续 RL 探索 - 混合策略框架中直接注入 SFT 监督→当前策略与专家轨迹的分布不匹配→高偏差方差→加速熵崩溃
核心矛盾:专家数据是双刃剑——提供有用指导但也压缩策略分布。将专家轨迹的概率 \(\pi_\theta(\tau^{expert})\) 最大化必然降低其他轨迹概率→总熵下降
切入角度:不应"模仿"专家(绝对目标),而应以专家为"参考基线"做相对校准——欠表示的正确推理路径被强化,过度自信的错误预测被抑制。
核心 idea:将专家监督从刚性模仿信号转为精细化校准机制,通过 log-probability gap + LeakyReLU 不对称门控实现有方向、受管制的探索。
方法详解¶
整体框架¶
在 GRPO 基础上加入可控探索损失项 \(\mathcal{L}_{exploration}\)。核心创新:用 log-probability gap \(\Delta\ell_i = \log\pi_\theta(\tau_i^{policy}) - \log\pi_\theta(\tau_i^{expert})\) 衡量模型对自身 vs 专家响应的相对偏好,通过 LeakyReLU 不对称激活控制强化/抑制的力度。
关键设计¶
-
Log-Probability Gap:
- 功能:衡量模型对自身响应 vs 专家响应的相对信心
- 核心思路:\(\Delta\ell_i = \log\frac{\pi_\theta(\tau_i^{policy})}{\pi_\theta(\tau_i^{expert})}\)。正值→模型偏好自身答案;负值→相对于专家低信心。用此信号决定是强化还是抑制。
-
LeakyReLU 不对称激活:
- 功能:非对称地控制强化/抑制的梯度
- 核心思路:\(\mathcal{L}_{exploration} = |\hat{A}_i| \cdot \text{LeakyReLU}(-s_i \cdot \Delta\ell_i, \alpha)\),其中 \(s_i = +1\)(正确)或 \(-1\)(错误)。当输入为负时梯度缩放为 \(\alpha < 1\)→一旦响应概率跨越专家基线,进一步强化/抑制的力度减弱。
- 设计动机:纯 ReLU 完全切断梯度→丢失有用信号;线性激活→无法区分需要/不需要强化的区域;LeakyReLU 在两者之间取平衡。
-
优势加权 (Advantage Weighting):
- 功能:按 group-wise 稀有度缩放更新
- 核心思路:\(|\hat{A}_i|\)(优势绝对值)作为权重。当多数响应错误时的罕见正确响应→大权重→强化为探索信号。通过调节更新幅度,强调罕见但有信息量的偏差。
损失函数 / 训练策略¶
- 总目标 = GRPO clipped surrogate + \(\lambda \cdot \mathcal{L}_{exploration}\)
- 关键超参:\(\alpha=0.5\)(LeakyReLU 斜率),\(\lambda=0.1\)(探索权重)
- 专家基线 > 参考策略基线(消融证实)
实验关键数据¶
主实验(几何推理,任务内基准)¶
| 方法 | GeoEval↑ | Geo3K↑ | GeoQA↑ | 平均↑ |
|---|---|---|---|---|
| GRPO | 26.15 | 39.77 | 52.52 | 39.48 |
| SFT+GRPO | 6.00 | 18.64 | 40.98 | 21.87 |
| DAPO | 25.19 | 40.93 | 52.52 | 39.55 |
| CalibRL | 33.44 | 40.60 | 60.74 | 44.93 |
消融实验¶
| LeakyReLU \(\alpha\) | 效果 |
|---|---|
| 0.3 | 早期激进探索但不稳定,熵波动 |
| 0.5 | 平衡的熵增长,无震荡 |
| 0.8 | 过度约束,快速熵衰减 |
关键发现¶
- SFT+GRPO 反而最差:直接混合 SFT 和 RL 导致严重熵崩溃——支持"模仿→校准"范式转换的必要性
- CalibRL 在任务内和任务外均最优:平均超 GRPO +5.45%(任务内),泛化也更好
- 熵曲线稳定:CalibRL 训练过程中策略熵平稳增长,其他方法则持续下降
- \(\alpha=0.5\) 是 sweet spot:过小→不稳定,过大→探索受限
亮点与洞察¶
- "校准而非模仿"是对混合策略 RL 的深刻重新理解——专家数据不应被视为必须达到的目标,而应是衡量当前策略偏差的参考坐标。
- LeakyReLU 提供了优雅的梯度门控机制——一个简单的激活函数选择就实现了"需要时强化、足够时减弱"的自适应控制。
- "SFT+GRPO 反而最差"的发现对实践有重要警示——简单叠加 SFT 和 RL 可能互相抵消。
局限与展望¶
- 仅在几何推理上验证——数学/代码推理等场景待探索
- LeakyReLU 的 \(\alpha\) 需要调优——更自适应的激活函数设计可能更好
- 专家数据质量影响校准基线的可靠性
- 未探索与其他 RL 变体(Dr.GRPO, CPPO)的结合
相关工作与启发¶
- vs GRPO/DAPO: 标准策略优化不处理熵崩溃;CalibRL 通过校准机制维持探索
- vs LUFFY: 也是混合策略框架但仍用模仿式监督→仍有分布不匹配
- vs SFT+GRPO: 直接串联导致灾难性干扰;CalibRL 的校准范式避免了这个问题
评分¶
- 新颖性: ⭐⭐⭐⭐ "校准而非模仿"的范式有洞察力,LeakyReLU 应用巧妙
- 实验充分度: ⭐⭐⭐⭐ 消融充分但任务范围偏窄(主要是几何推理)
- 写作质量: ⭐⭐⭐⭐ 问题分析深入,理论动机清晰
- 价值: ⭐⭐⭐⭐ 解决 RLVR 熵崩溃的实用方案,对混合策略训练有启发