跳转至

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

会议: ICLR 2026
arXiv: 2602.20197
代码: https://github.com/zhh6425/CalibRL
领域: 多模态VLM / 强化学习
关键词: RLVR, 混合策略优化, 多模态推理, 熵崩溃, 可控探索

一句话总结

CalibRL 将专家数据重新定义为分布校准基线(而非严格模仿目标),通过 LeakyReLU 不对称激活 + 优势加权实现对 MLLM 推理训练中探索-利用平衡的精细控制,解决 RLVR 中的熵崩溃问题,在几何推理等任务上大幅超越 GRPO/DAPO。

研究背景与动机

领域现状:RLVR 已成为提升 MLLM 推理能力的主流范式(如 DeepSeek-R1),但性能提升往往伴随策略熵的显著下降——熵枯竭成为进一步改进的瓶颈。

现有痛点: - 传统熵正则化鼓励随机性但无方向性→探索效率低 - SFT-then-RL 范式中 SFT 将策略固定在静态演示分布→削弱后续 RL 探索 - 混合策略框架中直接注入 SFT 监督→当前策略与专家轨迹的分布不匹配→高偏差方差→加速熵崩溃

核心矛盾:专家数据是双刃剑——提供有用指导但也压缩策略分布。将专家轨迹的概率 \(\pi_\theta(\tau^{expert})\) 最大化必然降低其他轨迹概率→总熵下降

切入角度:不应"模仿"专家(绝对目标),而应以专家为"参考基线"做相对校准——欠表示的正确推理路径被强化,过度自信的错误预测被抑制。

核心 idea:将专家监督从刚性模仿信号转为精细化校准机制,通过 log-probability gap + LeakyReLU 不对称门控实现有方向、受管制的探索。

方法详解

整体框架

在 GRPO 基础上加入可控探索损失项 \(\mathcal{L}_{exploration}\)。核心创新:用 log-probability gap \(\Delta\ell_i = \log\pi_\theta(\tau_i^{policy}) - \log\pi_\theta(\tau_i^{expert})\) 衡量模型对自身 vs 专家响应的相对偏好,通过 LeakyReLU 不对称激活控制强化/抑制的力度。

关键设计

  1. Log-Probability Gap:

    • 功能:衡量模型对自身响应 vs 专家响应的相对信心
    • 核心思路:\(\Delta\ell_i = \log\frac{\pi_\theta(\tau_i^{policy})}{\pi_\theta(\tau_i^{expert})}\)。正值→模型偏好自身答案;负值→相对于专家低信心。用此信号决定是强化还是抑制。
  2. LeakyReLU 不对称激活:

    • 功能:非对称地控制强化/抑制的梯度
    • 核心思路:\(\mathcal{L}_{exploration} = |\hat{A}_i| \cdot \text{LeakyReLU}(-s_i \cdot \Delta\ell_i, \alpha)\),其中 \(s_i = +1\)(正确)或 \(-1\)(错误)。当输入为负时梯度缩放为 \(\alpha < 1\)→一旦响应概率跨越专家基线,进一步强化/抑制的力度减弱。
    • 设计动机:纯 ReLU 完全切断梯度→丢失有用信号;线性激活→无法区分需要/不需要强化的区域;LeakyReLU 在两者之间取平衡。
  3. 优势加权 (Advantage Weighting):

    • 功能:按 group-wise 稀有度缩放更新
    • 核心思路:\(|\hat{A}_i|\)(优势绝对值)作为权重。当多数响应错误时的罕见正确响应→大权重→强化为探索信号。通过调节更新幅度,强调罕见但有信息量的偏差。

损失函数 / 训练策略

  • 总目标 = GRPO clipped surrogate + \(\lambda \cdot \mathcal{L}_{exploration}\)
  • 关键超参:\(\alpha=0.5\)(LeakyReLU 斜率),\(\lambda=0.1\)(探索权重)
  • 专家基线 > 参考策略基线(消融证实)

实验关键数据

主实验(几何推理,任务内基准)

方法 GeoEval↑ Geo3K↑ GeoQA↑ 平均↑
GRPO 26.15 39.77 52.52 39.48
SFT+GRPO 6.00 18.64 40.98 21.87
DAPO 25.19 40.93 52.52 39.55
CalibRL 33.44 40.60 60.74 44.93

消融实验

LeakyReLU \(\alpha\) 效果
0.3 早期激进探索但不稳定,熵波动
0.5 平衡的熵增长,无震荡
0.8 过度约束,快速熵衰减

关键发现

  • SFT+GRPO 反而最差:直接混合 SFT 和 RL 导致严重熵崩溃——支持"模仿→校准"范式转换的必要性
  • CalibRL 在任务内和任务外均最优:平均超 GRPO +5.45%(任务内),泛化也更好
  • 熵曲线稳定:CalibRL 训练过程中策略熵平稳增长,其他方法则持续下降
  • \(\alpha=0.5\) 是 sweet spot:过小→不稳定,过大→探索受限

亮点与洞察

  • "校准而非模仿"是对混合策略 RL 的深刻重新理解——专家数据不应被视为必须达到的目标,而应是衡量当前策略偏差的参考坐标。
  • LeakyReLU 提供了优雅的梯度门控机制——一个简单的激活函数选择就实现了"需要时强化、足够时减弱"的自适应控制。
  • "SFT+GRPO 反而最差"的发现对实践有重要警示——简单叠加 SFT 和 RL 可能互相抵消。

局限与展望

  • 仅在几何推理上验证——数学/代码推理等场景待探索
  • LeakyReLU 的 \(\alpha\) 需要调优——更自适应的激活函数设计可能更好
  • 专家数据质量影响校准基线的可靠性
  • 未探索与其他 RL 变体(Dr.GRPO, CPPO)的结合

相关工作与启发

  • vs GRPO/DAPO: 标准策略优化不处理熵崩溃;CalibRL 通过校准机制维持探索
  • vs LUFFY: 也是混合策略框架但仍用模仿式监督→仍有分布不匹配
  • vs SFT+GRPO: 直接串联导致灾难性干扰;CalibRL 的校准范式避免了这个问题

评分

  • 新颖性: ⭐⭐⭐⭐ "校准而非模仿"的范式有洞察力,LeakyReLU 应用巧妙
  • 实验充分度: ⭐⭐⭐⭐ 消融充分但任务范围偏窄(主要是几何推理)
  • 写作质量: ⭐⭐⭐⭐ 问题分析深入,理论动机清晰
  • 价值: ⭐⭐⭐⭐ 解决 RLVR 熵崩溃的实用方案,对混合策略训练有启发