Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents¶

会议: ICLR 2026
arXiv: 2509.09265
代码: Project Page
领域: LLM Agent
关键词: 策略梯度, 熵调制, 长序列代理, 信用分配, 强化学习

一句话总结¶

提出 EMPG 框架，通过步级熵（uncertainty）动态调制策略梯度的幅度，解决长序列 LLM Agent 任务中稀疏奖励下的信用分配问题，在 WebShop、ALFWorld 和 Deep Search 三个基准上显著超越 GRPO 和 DAPO。

研究背景与动机¶

在长序列任务（web 导航、软件工程、深度搜索等）中，LLM Agent 面临的根本挑战是稀疏奖励下的信用分配：反馈仅在整个生成结束后才可获得，难以识别哪些中间步骤是关键的。

现有方法主要有两条路线：

隐式奖励引导：奖励塑形、内在动机（好奇心/新颖性）、逆强化学习等——难以扩展到 LLM 的巨大状态-动作空间

显式步级监督：过程奖励模型（PRM）——标注成本高、合成数据噪声大、泛化性差，且在交互式 Agent 任务中定义"正确步骤"本身就极具挑战

本文的核心观察是：标准策略梯度的梯度幅度与策略熵本质耦合。具体来说，对 softmax 策略，score function 的期望范数是策略 Renyi-2 熵的单调函数（Proposition 1）。这带来双重问题： - 自信且正确的步骤本应被强烈强化，但其自然梯度很小，限制了学习速度 - 不确定的探索步骤产生大梯度，引入噪声并破坏训练稳定性

方法详解¶

整体框架¶

EMPG（Entropy-Modulated Policy Gradients）是一个对策略梯度进行双重重新校准的框架，包含两个互补组件：

自校准梯度缩放（Self-Calibrating Gradient Scaling）：根据当前步不确定性重新校准梯度幅度
未来清晰度奖励（Future Clarity Bonus）：鼓励 Agent 寻找可预测的解决方案路径

关键设计¶

步级不确定性量化：对一个"思考-行动"步骤内的 m 个 token，计算平均 token 级熵作为步级熵 H_t。

调制优势函数：对轨迹中的步骤 t，定义调制后的优势估计：A_mod(i,t) = A^(i) * g(H_t^(i)) + zeta * f(H_{t+1}^(i))，其中第一项为自校准梯度缩放，第二项为未来清晰度奖励。

自校准缩放函数 g(H) 使用指数函数并在 mini-batch 内归一化（均值约束为 1）。调制行为： - 自信且正确的步骤（H_t 低）：g > 1，放大梯度 - 不确定的步骤（H_t 高）：g < 1，衰减梯度 - 自信但错误的步骤（A < 0, H_t 低）：强惩罚信号

未来清晰度奖励 f(H) 鼓励选择导致下一步低熵状态的动作。

损失函数 / 训练策略¶

EMPG 作为优势调制模块直接应用于 GRPO 或 DAPO 等基线之上。Agent 使用 ReAct 范式（先生成思考再产生动作），整个框架不需要额外的价值模型，属于 value-free 范式。

归一化包含两步： 1. 批次级熵归一化：对步级熵做 min-max 缩放 2. 最终优势归一化：计算 A_mod 后做零均值归一化（方差减小）

实验关键数据¶

主实验¶

ALFWorld 和 WebShop（表1，平均成功率 %）：

方法	基座模型	ALFWorld All	WebShop Succ.
GRPO	Qwen2.5-1.5B	65.6	58.2
+ EMPG	Qwen2.5-1.5B	73.7 (+8.1)	60.8 (+2.6)
DAPO	Qwen2.5-1.5B	80.8	73.2
+ EMPG	Qwen2.5-1.5B	88.1 (+7.3)	73.8 (+0.6)
GRPO	Qwen2.5-7B	74.8	65.6
+ EMPG	Qwen2.5-7B	78.5 (+3.7)	69.3 (+3.7)
DAPO	Qwen2.5-7B	90.0	79.6
+ EMPG	Qwen2.5-7B	91.6 (+1.6)	82.7 (+3.1)

Deep Search（表2，Qwen2.5-32B-Instruct）：

方法	ID Avg.	OOD Avg.	Overall
DAPO	63.5	59.8	62.0
+ EMPG	66.6 (+3.1)	63.7 (+3.9)	65.3 (+3.3)

注意 EMPG 在 OOD 上的提升（+3.9）大于 ID（+3.1），说明泛化能力增强。

消融实验¶

在 Deep Search（Qwen2.5-32B）上拆解两个组件：

变体	ID Avg.	OOD Avg.	Overall
DAPO 基线	63.5	59.8	62.0
+ Gradient Scaling only	63.7	63.7 (+3.9)	63.7
+ Future Bonus only	66.1 (+2.6)	61.4	64.2
+ EMPG (full)	66.6	63.7	65.3

关键发现¶

两个组件互补：Future Clarity Bonus 主要提升域内性能（exploitation），Gradient Scaling 主要提升域外泛化（regularization）
训练稳定性：DAPO 基线在约 240 步后 KL Loss 剧烈波动（policy collapse），EMPG 全程保持稳定
步级 vs token 级：与 token 级分析不同，即使低熵步骤也会经历显著的熵变化，验证了步级分析的必要性
突破性能瓶颈：基线在 ALFWorld 和 WebShop 上到达性能平台后停滞，EMPG 能突破这个上限持续提升

亮点与洞察¶

理论洞察深刻：首次形式化证明策略梯度幅度与策略熵的固有耦合问题（Proposition 1），从梯度动力学角度揭示了长序列 RL 学习效率低下的根本原因
即插即用：作为优势调制模块，EMPG 可以直接叠加在 GRPO、DAPO 等任何策略梯度方法之上
不需要额外模型：利用 Agent 自身的策略熵作为内在信号，不需要额外的价值模型或过程奖励模型
双重校准设计精妙：梯度缩放处理"学多少"，未来清晰度处理"往哪探索"
跨任务跨规模一致有效：从 1.5B 到 32B 模型，从 web 导航到深度搜索均稳定提升

局限与展望¶

熵估计的粗糙性：使用平均 token 级熵作为步级不确定性的代理，可能忽略了步内不同 token 的重要性差异
超参数敏感性：缩放因子 k、k' 和 zeta 的选择需要调优，论文未充分讨论敏感性
任务类型有限：仅在 web 导航、文本环境交互和搜索任务上验证，缺少代码生成、数学推理等其他长序列任务
与 PRM 的结合：EMPG 和过程奖励模型是正交的，未来可以探索两者结合
多智能体场景：论文提到但未验证在多 Agent 协作中的效果

评分¶

维度	评分
理论深度	⭐⭐⭐⭐⭐
新颖性	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐⭐
总体评价	⭐⭐⭐⭐⭐