Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2602.11779
代码: 无
领域: LLM推理
关键词: 温度调节, 元策略, GRPO, 自适应探索, 数学推理

一句话总结¶

提出 TAMPO（Temperature Adaptive Meta Policy Optimization），将采样温度重新定义为可学习的元策略，通过双层循环在内环做 LLM 策略优化、外环根据轨迹优势信号自适应更新温度分布，无需额外 rollout，在数学推理基准上一致超越固定温度基线。

研究背景与动机¶

温度是 LLM 采样中控制探索-利用权衡的核心参数
- 高温鼓励多样性但引入噪声，低温提高聚焦但可能过早收敛
现有 RL 训练（GRPO 等）将温度视为固定超参数，忽略了训练过程中的动态需求
熵正则化和 KL 惩罚虽也影响探索，但温度直接调制采样分布，更透明可控
核心论点：温度应当是可学习的决策变量，而非手动调节的超参数

方法详解¶

整体框架¶

TAMPO 采用层级双循环结构：

内循环：用选定温度 \(T_s\) 生成 rollout，通过 GRPO 更新 LLM 策略 \(\pi_\theta\)
外循环：复用内循环 rollout，根据轨迹优势信号更新温度元策略 \(\pi(T)\)

关键观察¶

每条轨迹隐式编码其"偏好温度"——使该轨迹最可能被生成的温度：

\[T^* = \arg\max_{T_k \in \mathcal{T}} \ell_{T_k}(\tau_i)\]

其中 \(\ell_T(\tau_i) = \frac{1}{|\tau_i|} \sum_{t=1}^{|\tau_i|} \log \pi_{\theta,T}(o_{i,t} | s_{i,t})\) 为平均对数似然。

温度特定优势¶

对每条轨迹 \(\tau_i\) 和虚拟候选温度 \(T_k\)：

计算 \(\ell_{T_k}(\tau_i)\)：轨迹在温度 \(T_k\) 下的似然
用 sparsemax 归一化得 \(\hat{\ell}_{T_k}(\tau_i)\)（跨 \(K\) 个候选温度求和=1）
温度特定优势：\(\mathcal{A}_i^{(T_k)} = \hat{\ell}_{T_k}(\tau_i) \cdot A_i\)

直觉： - 正优势轨迹 → 强化其最可能生成温度 - 负优势轨迹 → 惩罚其最可能生成温度

元策略更新¶

批次聚合：\(\mathcal{A}_\mathcal{B}^{(T_k)} = \frac{1}{|\mathcal{B}|G} \sum_b \sum_i \mathcal{A}_{b,i}^{(T_k)}\)
EMA 平滑：\(\bar{\mathcal{A}}_s^{(T_k)} = (1-\alpha)\bar{\mathcal{A}}_{s-1}^{(T_k)} + \alpha \mathcal{A}_\mathcal{B}^{(T_k)}\)
Min-max 归一化得概率分布：\(\pi_s(T_k) = \frac{\tilde{\mathcal{A}}_s^{(T_k)}}{\sum_j \tilde{\mathcal{A}}_s^{(T_j)}}\)

温度采样¶

使用 nucleus sampling（top-p）从元策略中采样温度，\(p=0.7\) 提供最佳探索-利用平衡。

设计特点¶

零额外 rollout：完全复用内循环的轨迹数据
非可微优化：温度在 LLM RL 中不可微，TAMPO 通过似然信号绕过此限制
可忽略开销：元策略仅维护温度优势列表，推理时丢弃

实验关键数据¶

主实验：数学推理基准（DS-Qwen-1.5B）¶

方法	Average	AIME24	MATH-500	AMC23	Minerva	OlympiadBench
DS-Qwen-1.5B (无 RL)	39.1	13.3	76.2	45.0	22.8	38.4
GRPO (\(T_s\):0.9)	42.0	20.0	75.2	50.0	26.1	38.7
GRPO (\(T_s\):1.5)	42.6	23.3	75.4	52.5	22.8	39.0
GRPO (\(T_s\):0.9→1.5)	42.8	16.7	76.6	55.0	24.6	41.0
TAMPO	44.5	23.3	76.8	55.0	27.9	39.6

消融：EMA 系数 \(\alpha\)¶

\(\alpha\)	Average	AIME24	MATH-500	AMC23	Minerva	OlympiadBench
0.01	41.6	20.0	75.2	50.0	25.4	37.5
0.05	44.5	23.3	76.8	55.0	27.9	39.6
0.10	43.6	23.3	75.4	57.5	23.2	38.8

消融：元策略采样策略¶

top-p	Average
0.9	43.0
0.7	44.5
0.5	42.2
0 (greedy)	40.9

跨任务泛化（Qwen2.5-3B-Instruct → ECQA）¶

方法	Pass@1	Pass@8
无 RL	73.06%	77.76%
GRPO	75.07%	78.94%
TAMPO	76.12%	79.67%

关键发现¶

TAMPO 平均超越最优固定温度基线 +1.9%（Pass@1）和 +1.7%（Pass@8）
元策略学到的温度动态：warmup 后偏好高温 (~1.3) 鼓励探索，随训练逐渐降低
贪心采样（\(p=0\)）导致最差结果 → 温度探索本身也需要探索
训练耗时与基线完全相同（~9h54min on 8×V100）
在常识推理任务上同样有效

亮点与洞察¶

将温度从超参数提升为决策变量：新颖的问题形式化
无需额外 rollout：通过虚拟温度似然计算巧妙复用已有数据
学到的温度策略与直觉一致：先高后低的探索-利用切换
与现有 RL 完美兼容：可插入 GRPO/DAPO/REINFORCE++ 等任意 critic-free 方法
计算开销可忽略：仅维护 \(K\) 个温度的优势估计

局限性¶

候选温度集 \(\mathcal{T}\) 仍需手动设定范围和粒度
轨迹似然 w.r.t. 温度的 unimodal 性质在某些情况下可能不成立
仅在 1.5B 模型上做主实验，更大模型验证不足
温度元策略在不同 prompt 间共享，未探索 prompt 级别的自适应

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 温度作为元策略的问题形式化新颖
技术深度: ⭐⭐⭐⭐ — 理论推导清晰，虽方法本身简洁
实验充分性: ⭐⭐⭐⭐ — 5 基准 + 消融全面，但模型规模有限
实用性: ⭐⭐⭐⭐⭐ — 零额外成本即可提升 RL 训练效果