Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning¶

会议: ICLR 2026
arXiv: 2602.20197
代码: https://github.com/zhh6425/CalibRL
领域: 多模态VLM / 强化学习
关键词: RLVR, 混合策略优化, 多模态推理, 熵崩溃, 可控探索

一句话总结¶

CalibRL 将专家数据重新定义为分布校准基线（而非严格模仿目标），通过 LeakyReLU 不对称激活 + 优势加权实现对 MLLM 推理训练中探索-利用平衡的精细控制，解决 RLVR 中的熵崩溃问题，在几何推理等任务上大幅超越 GRPO/DAPO。

研究背景与动机¶

领域现状：RLVR 已成为提升 MLLM 推理能力的主流范式（如 DeepSeek-R1），但性能提升往往伴随策略熵的显著下降——熵枯竭成为进一步改进的瓶颈。

现有痛点： - 传统熵正则化鼓励随机性但无方向性→探索效率低 - SFT-then-RL 范式中 SFT 将策略固定在静态演示分布→削弱后续 RL 探索 - 混合策略框架中直接注入 SFT 监督→当前策略与专家轨迹的分布不匹配→高偏差方差→加速熵崩溃

核心矛盾：专家数据是双刃剑——提供有用指导但也压缩策略分布。将专家轨迹的概率 \(\pi_\theta(\tau^{expert})\) 最大化必然降低其他轨迹概率→总熵下降

切入角度：不应"模仿"专家（绝对目标），而应以专家为"参考基线"做相对校准——欠表示的正确推理路径被强化，过度自信的错误预测被抑制。

核心 idea：将专家监督从刚性模仿信号转为精细化校准机制，通过 log-probability gap + LeakyReLU 不对称门控实现有方向、受管制的探索。

方法详解¶

整体框架¶

在 GRPO 基础上加入可控探索损失项 \(\mathcal{L}_{exploration}\)。核心创新：用 log-probability gap \(\Delta\ell_i = \log\pi_\theta(\tau_i^{policy}) - \log\pi_\theta(\tau_i^{expert})\) 衡量模型对自身 vs 专家响应的相对偏好，通过 LeakyReLU 不对称激活控制强化/抑制的力度。

关键设计¶

Log-Probability Gap:
- 功能：衡量模型对自身响应 vs 专家响应的相对信心
- 核心思路：\(\Delta\ell_i = \log\frac{\pi_\theta(\tau_i^{policy})}{\pi_\theta(\tau_i^{expert})}\)。正值→模型偏好自身答案；负值→相对于专家低信心。用此信号决定是强化还是抑制。
LeakyReLU 不对称激活:
- 功能：非对称地控制强化/抑制的梯度
- 核心思路：\(\mathcal{L}_{exploration} = |\hat{A}_i| \cdot \text{LeakyReLU}(-s_i \cdot \Delta\ell_i, \alpha)\)，其中 \(s_i = +1\)（正确）或 \(-1\)（错误）。当输入为负时梯度缩放为 \(\alpha < 1\)→一旦响应概率跨越专家基线，进一步强化/抑制的力度减弱。
- 设计动机：纯 ReLU 完全切断梯度→丢失有用信号；线性激活→无法区分需要/不需要强化的区域；LeakyReLU 在两者之间取平衡。
优势加权 (Advantage Weighting):
- 功能：按 group-wise 稀有度缩放更新
- 核心思路：\(|\hat{A}_i|\)（优势绝对值）作为权重。当多数响应错误时的罕见正确响应→大权重→强化为探索信号。通过调节更新幅度，强调罕见但有信息量的偏差。

损失函数 / 训练策略¶

总目标 = GRPO clipped surrogate + \(\lambda \cdot \mathcal{L}_{exploration}\)
关键超参：\(\alpha=0.5\)（LeakyReLU 斜率），\(\lambda=0.1\)（探索权重）
专家基线 > 参考策略基线（消融证实）

实验关键数据¶

主实验（几何推理，任务内基准）¶

方法	GeoEval↑	Geo3K↑	GeoQA↑	平均↑
GRPO	26.15	39.77	52.52	39.48
SFT+GRPO	6.00	18.64	40.98	21.87
DAPO	25.19	40.93	52.52	39.55
CalibRL	33.44	40.60	60.74	44.93

消融实验¶

LeakyReLU \(\alpha\)	效果
0.3	早期激进探索但不稳定，熵波动
0.5	平衡的熵增长，无震荡
0.8	过度约束，快速熵衰减

关键发现¶

SFT+GRPO 反而最差：直接混合 SFT 和 RL 导致严重熵崩溃——支持"模仿→校准"范式转换的必要性
CalibRL 在任务内和任务外均最优：平均超 GRPO +5.45%（任务内），泛化也更好
熵曲线稳定：CalibRL 训练过程中策略熵平稳增长，其他方法则持续下降
\(\alpha=0.5\) 是 sweet spot：过小→不稳定，过大→探索受限

亮点与洞察¶

"校准而非模仿"是对混合策略 RL 的深刻重新理解——专家数据不应被视为必须达到的目标，而应是衡量当前策略偏差的参考坐标。
LeakyReLU 提供了优雅的梯度门控机制——一个简单的激活函数选择就实现了"需要时强化、足够时减弱"的自适应控制。
"SFT+GRPO 反而最差"的发现对实践有重要警示——简单叠加 SFT 和 RL 可能互相抵消。

局限与展望¶

仅在几何推理上验证——数学/代码推理等场景待探索
LeakyReLU 的 \(\alpha\) 需要调优——更自适应的激活函数设计可能更好
专家数据质量影响校准基线的可靠性
未探索与其他 RL 变体（Dr.GRPO, CPPO）的结合

评分¶

新颖性: ⭐⭐⭐⭐ "校准而非模仿"的范式有洞察力，LeakyReLU 应用巧妙
实验充分度: ⭐⭐⭐⭐ 消融充分但任务范围偏窄（主要是几何推理）
写作质量: ⭐⭐⭐⭐ 问题分析深入，理论动机清晰
价值: ⭐⭐⭐⭐ 解决 RLVR 熵崩溃的实用方案，对混合策略训练有启发