Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2602.11779
代码: 无
领域: LLM推理
关键词: 温度调节, 元策略, GRPO, 自适应探索, 数学推理
一句话总结¶
提出 TAMPO(Temperature Adaptive Meta Policy Optimization),将采样温度重新定义为可学习的元策略,通过双层循环在内环做 LLM 策略优化、外环根据轨迹优势信号自适应更新温度分布,无需额外 rollout,在数学推理基准上一致超越固定温度基线。
研究背景与动机¶
- 温度是 LLM 采样中控制探索-利用权衡的核心参数
- 高温鼓励多样性但引入噪声,低温提高聚焦但可能过早收敛
- 现有 RL 训练(GRPO 等)将温度视为固定超参数,忽略了训练过程中的动态需求
- 熵正则化和 KL 惩罚虽也影响探索,但温度直接调制采样分布,更透明可控
- 核心论点:温度应当是可学习的决策变量,而非手动调节的超参数
方法详解¶
整体框架¶
TAMPO 采用层级双循环结构:
- 内循环:用选定温度 \(T_s\) 生成 rollout,通过 GRPO 更新 LLM 策略 \(\pi_\theta\)
- 外循环:复用内循环 rollout,根据轨迹优势信号更新温度元策略 \(\pi(T)\)
关键观察¶
每条轨迹隐式编码其"偏好温度"——使该轨迹最可能被生成的温度:
\[T^* = \arg\max_{T_k \in \mathcal{T}} \ell_{T_k}(\tau_i)\]
其中 \(\ell_T(\tau_i) = \frac{1}{|\tau_i|} \sum_{t=1}^{|\tau_i|} \log \pi_{\theta,T}(o_{i,t} | s_{i,t})\) 为平均对数似然。
温度特定优势¶
对每条轨迹 \(\tau_i\) 和虚拟候选温度 \(T_k\):
- 计算 \(\ell_{T_k}(\tau_i)\):轨迹在温度 \(T_k\) 下的似然
- 用 sparsemax 归一化得 \(\hat{\ell}_{T_k}(\tau_i)\)(跨 \(K\) 个候选温度求和=1)
- 温度特定优势:\(\mathcal{A}_i^{(T_k)} = \hat{\ell}_{T_k}(\tau_i) \cdot A_i\)
直觉: - 正优势轨迹 → 强化其最可能生成温度 - 负优势轨迹 → 惩罚其最可能生成温度
元策略更新¶
- 批次聚合:\(\mathcal{A}_\mathcal{B}^{(T_k)} = \frac{1}{|\mathcal{B}|G} \sum_b \sum_i \mathcal{A}_{b,i}^{(T_k)}\)
- EMA 平滑:\(\bar{\mathcal{A}}_s^{(T_k)} = (1-\alpha)\bar{\mathcal{A}}_{s-1}^{(T_k)} + \alpha \mathcal{A}_\mathcal{B}^{(T_k)}\)
- Min-max 归一化得概率分布:\(\pi_s(T_k) = \frac{\tilde{\mathcal{A}}_s^{(T_k)}}{\sum_j \tilde{\mathcal{A}}_s^{(T_j)}}\)
温度采样¶
使用 nucleus sampling(top-p)从元策略中采样温度,\(p=0.7\) 提供最佳探索-利用平衡。
设计特点¶
- 零额外 rollout:完全复用内循环的轨迹数据
- 非可微优化:温度在 LLM RL 中不可微,TAMPO 通过似然信号绕过此限制
- 可忽略开销:元策略仅维护温度优势列表,推理时丢弃
实验关键数据¶
主实验:数学推理基准(DS-Qwen-1.5B)¶
| 方法 | Average | AIME24 | MATH-500 | AMC23 | Minerva | OlympiadBench |
|---|---|---|---|---|---|---|
| DS-Qwen-1.5B (无 RL) | 39.1 | 13.3 | 76.2 | 45.0 | 22.8 | 38.4 |
| GRPO (\(T_s\):0.9) | 42.0 | 20.0 | 75.2 | 50.0 | 26.1 | 38.7 |
| GRPO (\(T_s\):1.5) | 42.6 | 23.3 | 75.4 | 52.5 | 22.8 | 39.0 |
| GRPO (\(T_s\):0.9→1.5) | 42.8 | 16.7 | 76.6 | 55.0 | 24.6 | 41.0 |
| TAMPO | 44.5 | 23.3 | 76.8 | 55.0 | 27.9 | 39.6 |
消融:EMA 系数 \(\alpha\)¶
| \(\alpha\) | Average | AIME24 | MATH-500 | AMC23 | Minerva | OlympiadBench |
|---|---|---|---|---|---|---|
| 0.01 | 41.6 | 20.0 | 75.2 | 50.0 | 25.4 | 37.5 |
| 0.05 | 44.5 | 23.3 | 76.8 | 55.0 | 27.9 | 39.6 |
| 0.10 | 43.6 | 23.3 | 75.4 | 57.5 | 23.2 | 38.8 |
消融:元策略采样策略¶
| top-p | Average |
|---|---|
| 0.9 | 43.0 |
| 0.7 | 44.5 |
| 0.5 | 42.2 |
| 0 (greedy) | 40.9 |
跨任务泛化(Qwen2.5-3B-Instruct → ECQA)¶
| 方法 | Pass@1 | Pass@8 |
|---|---|---|
| 无 RL | 73.06% | 77.76% |
| GRPO | 75.07% | 78.94% |
| TAMPO | 76.12% | 79.67% |
关键发现¶
- TAMPO 平均超越最优固定温度基线 +1.9%(Pass@1)和 +1.7%(Pass@8)
- 元策略学到的温度动态:warmup 后偏好高温 (~1.3) 鼓励探索,随训练逐渐降低
- 贪心采样(\(p=0\))导致最差结果 → 温度探索本身也需要探索
- 训练耗时与基线完全相同(~9h54min on 8×V100)
- 在常识推理任务上同样有效
亮点与洞察¶
- 将温度从超参数提升为决策变量:新颖的问题形式化
- 无需额外 rollout:通过虚拟温度似然计算巧妙复用已有数据
- 学到的温度策略与直觉一致:先高后低的探索-利用切换
- 与现有 RL 完美兼容:可插入 GRPO/DAPO/REINFORCE++ 等任意 critic-free 方法
- 计算开销可忽略:仅维护 \(K\) 个温度的优势估计
局限性¶
- 候选温度集 \(\mathcal{T}\) 仍需手动设定范围和粒度
- 轨迹似然 w.r.t. 温度的 unimodal 性质在某些情况下可能不成立
- 仅在 1.5B 模型上做主实验,更大模型验证不足
- 温度元策略在不同 prompt 间共享,未探索 prompt 级别的自适应
相关工作¶
- Critic-free RL:GRPO、DAPO、REINFORCE++
- 探索-利用:ε-greedy、温度退火、UCB、熵正则化
- 元策略:MLSH(层级 RL)、Meta-SAC(自动熵系数)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 温度作为元策略的问题形式化新颖
- 技术深度: ⭐⭐⭐⭐ — 理论推导清晰,虽方法本身简洁
- 实验充分性: ⭐⭐⭐⭐ — 5 基准 + 消融全面,但模型规模有限
- 实用性: ⭐⭐⭐⭐⭐ — 零额外成本即可提升 RL 训练效果