Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks¶

会议: ICLR 2026
arXiv: 2602.22817
代码: 待确认
领域: LLM对齐
关键词: group-relative RL, advantage estimation, long-horizon agent, bias-variance tradeoff, context consistency

一句话总结¶

揭示了 stepwise group-based RL（如 GRPO/GiGPO）中的「历史上下文不一致」问题——同一 group 内的 step 可能具有不同历史上下文导致 advantage 估计偏差，提出 HGPO 通过层次化分组和自适应加权实现低偏差、平衡方差的 advantage 估计，在 ALFWorld 和 WebShop 上以极低额外开销（<0.001%）取得显著提升。

研究背景与动机¶

领域现状：基于 RL 的 LLM Agent 训练（如 GRPO、GiGPO）在长 horizon 任务中表现突出，核心思想是将同一 rollout 中的多个 step 分到一个 group，用 group 内的相对信号估计 advantage。

现有痛点：在长 horizon 任务中，同一 rollout 的不同 step 虽然来自同一 episode，但其历史上下文可能完全不同（例如第 3 步和第 10 步面对的是不同的环境状态组合）。将这些不一致上下文的 step 混在一起计算 advantage 会引入系统偏差。

核心矛盾：step-level 的 advantage 估计无偏但高方差；group-level 估计低方差但有偏。如何在两者之间找到最优平衡？

本文要解决：设计一种层次化的 advantage 估计方法，按历史上下文一致性构建嵌套 group 结构，实现可控的 bias-variance 权衡。

切入角度：定义 k-step 上下文算子 \(\mathcal{C}_k\)，按共享 0 到 K 步历史上下文构建嵌套 group \(G_0^H \supseteq G_1^H \supseteq \cdots \supseteq G_K^H\)。

核心idea：上下文越一致的 group，其 advantage 估计越准确（低偏差），应获得更大权重。

方法详解¶

整体框架¶

HGPO 想解决的是 group-based RL 里一个被忽视的偏差来源：同一 rollout 的不同 step 被塞进一个 group 算相对 advantage，但它们面对的历史上下文其实可能天差地别，混在一起算均值 baseline 就把偏差带了进来。它的做法是在标准 GRPO/GiGPO pipeline 里插一个层次化 advantage 估计模块——拿到一条 rollout 的所有 step 后，先按历史上下文一致性把它们切成从粗到细的多层嵌套 group，在每一层各算一份 advantage，再用一组随层级递增的自适应权重把这些估计聚合成最终值，最后把这个 advantage 喂回原有的策略更新。整条链路不引入任何额外模型、额外 rollout 或前向传播，分组与查找全靠一个离线 hashmap 完成，因此每迭代只多花约 0.5 秒（不到总训练时间 0.001%），而且只改「advantage 怎么算」、不动 rollout 和模型，能即插即用地挂到 GRPO、GiGPO、DAPO 等任何 group-based 方法上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["一条 rollout 的<br/>所有 step"] --> B["Context-Aware<br/>Hierarchical Grouping<br/>(上下文算子 C_k 哈希分组)"]
    B --> C["嵌套 group<br/>G_0 ⊇ G_1 ⊇ … ⊇ G_K<br/>(每层各算一份 advantage)"]
    C --> D["Adaptive Weighting<br/>Advantage Estimation<br/>(幂律权重 w_k 聚合)"]
    D --> E["最终 advantage"]
    E --> F["挂回 GRPO / GiGPO<br/>策略更新"]

关键设计¶

1. Context-Aware Hierarchical Grouping：按历史上下文一致性把 step 分成嵌套的多层 group

痛点很直接：把整个 rollout 的所有 step 当成一个 group，会把历史上下文完全不同的 step 当成可比对象。HGPO 的对策是定义 k-step 上下文算子 \(\mathcal{C}_k\)，构造一串嵌套 group \(G_0^H \supseteq G_1^H \supseteq \cdots \supseteq G_K^H\)：\(G_k^H\) 只收那些共享前 k 步相同历史的 step。\(k=0\) 时所有 step 都「共享空历史」，于是 \(G_0^H\) 就是整个 rollout（退化回 GiGPO）；\(k=K\) 时是约束最强、粒度最细的 group。k 越大，组内 step 的历史上下文越一致，用组内均值当 baseline 的偏差就越小。实现上把每个 step 的状态序列哈希后存进 hashmap，分组与查找都是 \(O(1)\)，不需要任何前向传播——这也是整套机制几乎零开销的原因。

2. Adaptive Weighting Advantage Estimation：用一组随层级递增的权重聚合各层 advantage，显式控制 bias-variance

光有多层 group 还不够，得决定信谁多一点。HGPO 在每一层 \(G_k^H\) 上各算一份 advantage，再用幂律权重聚合：

\[w_k = \frac{(k+1)^\alpha}{\sum_k (k+1)^\alpha}\]

层级越高（k 越大、上下文越一致、偏差越低）拿到的权重越大。指数 \(\alpha\) 就是那个旋钮：\(\alpha \to 0\) 时权重趋于均匀，相当于平摊各层估计；\(\alpha \to \infty\) 时权重压到最细粒度那一层。这正好把开头那对矛盾收进一个可调参数——step-level 估计无偏但高方差、粗粒度 group 估计低方差但有偏，论文给出理论保证：这样聚合出来的 advantage 恰好落在 step-level（无偏高方差）和 Oracle 估计之间做插值，于是偏差和方差之间的取舍变成一条连续可调的谱。

实验关键数据¶

主实验¶

方法	ALFWorld In-Succ	ALFWorld Out-Succ	WebShop Score	WebShop Succ
GiGPO (1.5B)	93.29%	91.53%	86.80%	73.24%
HGPO (1.5B, K=4)	94.85%	92.12%	90.64%	78.12%
GiGPO (7B)	95.43%	92.79%	88.44%	72.50%
HGPO (7B, K=4)	95.96%	93.75%	90.49%	79.29%
GPT-4o	—	48.0%	—	—
Gemini-2.5-Pro	—	60.3%	—	—

消融实验¶

配置	WebShop Score
HGPO K=0 (=GiGPO)	86.80%
HGPO K=1	87.32%
HGPO K=2	88.92%
HGPO K=4	90.64%

关键发现¶

小模型（1.5B）收益更大：平均提升 3.41%（K=2），大模型（7B）提升 0.74%
K 值越大效果越好，但收益递减
HGPO 超越 GPT-4o 和 Gemini-2.5-Pro 等闭源模型（在 ALFWorld 上）
计算开销可忽略不计（<0.001% 时间增加）

亮点与洞察¶

问题发现有价值："历史上下文不一致"是 group-based RL 的一个真实且被忽视的问题
零成本改进：不需要额外模型、额外 rollout、额外 GPU，仅靠 hashmap 和加权就能提升
即插即用：与 GRPO、GiGPO、DAPO 等任何 group-based 方法兼容
理论分析证明 HGPO 在 bias-variance 谱上严格优于纯 step-level 和纯 group-level

局限与展望¶

仅在 ALFWorld 和 WebShop 两个 benchmark 验证，覆盖范围可更广
大模型（7B）提升有限，K=4 时仅提升 0.13%——大模型 advantage 估计已较准
依赖环境状态可哈希比较，连续状态空间适用性未讨论
未与 value-based advantage 估计（如 GAE）深入比较

补充技术细节¶

上下文一致性的影响示例¶

在 ALFWorld 中，一个“找到苹果并放到冰箱”的任务可能有多步，第 3 步（打开抽屉）和第 8 步（打开冰箱）可能在同一个 rollout group 中，但它们面对的环境状态完全不同，直接用 group 内均值作 baseline 会引入偏差。

与 GAE 的概念对比¶

GAE（Generalized Advantage Estimation）通过 \(\lambda\) 参数在 TD(0) 和 MC 之间插值，控制 bias-variance tradeoff。HGPO 的理念类似但操作在 group 层面而非时间步层面，且不需要额外的 value function 近似。

评分¶

新颖性: ⭐⭐⭐⭐ 问题发现有价值，解决方案优雅且零成本
实验充分度: ⭐⭐⭐ 两个 benchmark 足够说明效果但可更广
写作质量: ⭐⭐⭐⭐ 动机链清晰，理论分析严谨
价值: ⭐⭐⭐⭐ 即插即用改进，对 group-based RL 社区有实际意义