Tree Search for LLM Agent Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZpQwAFhU13
代码: https://github.com/AMAP-ML/Tree-GRPO
领域: Agent / 强化学习
关键词: 智能体RL, 树搜索, 过程监督, GRPO, 多轮工具调用

一句话总结¶

把多轮智能体 RL 的「链式独立采样」换成「智能体步级树搜索采样」，靠共享前缀在固定 token/工具调用预算下采到约 1.5× 的轨迹，并利用树的分支结构把稀疏的结果奖励自动转成步级过程监督信号（理论上等价于步级 DPO），在 11 个 QA 数据集上全面超过链式 GRPO。

研究背景与动机¶

领域现状：RL 已经成为 LLM 后训练的主流范式，只用结果奖励（outcome reward）就能在数学、代码这类单轮任务上练出强推理能力。近期工作把这套范式推广到多轮智能体场景——让 LLM 以 ReAct 的「思考-行动-观察」（Thought-Action-Observation）循环和环境交互、调用工具来完成长程任务。主流做法是 GRPO 这类基于分组的算法：对每个 prompt 独立采 $N$ 条完整轨迹，用组内均值当 baseline 估优势。

现有痛点：把链式 GRPO 直接搬到智能体上有两个硬伤。其一是采样预算极重：智能体轨迹动辄上万 token、还伴随多次工具调用（有的搜索 API 很贵），而独立采样的多条轨迹彼此高度冗余，rollout 阶段直接主导了整个训练耗时。其二是监督极度稀疏：轨迹随交互轮数线性变长，但奖励仍然只在最终结果处给一个标量，整条多步轨迹里每一步拿到的 credit 完全相同（见公式 $A(H)=A(\{\tau_0,\alpha_0,o_0\})=\dots=A(\{\tau_T,\alpha_T,o_T\})$）。哪一步对成功/失败有贡献根本分不清，导致学习信号严重失衡、甚至训练崩溃。

核心矛盾：即使猛加采样预算，采到的更多轨迹仍然被同样稀少的结果信号监督——「预算」和「监督粒度」两件事被链式采样绑死了，加预算不解决稀疏，省预算又没法探索。

本文目标：在只用结果奖励、且预算受限的前提下，为智能体 RL 同时做到「省采样预算」和「造细粒度过程信号」两件事。

切入角度：智能体任务天然有清晰的步结构——一个完整的 (思考, 行动, 观察) 元组就是一个语义自洽的决策单元。如果把采样组织成树、让不同轨迹共享公共前缀，那么固定预算下能多采轨迹（省预算）；更关键的是，树的每个分支点天然就是一次「同前缀、不同后续」的对照，分支间结果奖励的差异本身就是一个步级偏好信号（造监督）。

核心 idea：用智能体步级的树搜索采样替代链式独立采样，并在树结构上做「树内 + 树间」两级分组优势估计，把结果奖励隐式转成步级偏好学习目标——即 Tree-GRPO。

方法详解¶

整体框架¶

Tree-GRPO 在标准 GRPO 的「采样—估优势—更新策略」三段流程上动手术，但每一段都换成树结构版本。给定一个 prompt（问题），整体流程是：先用初始化-再扩展的方式为它建起 $M$ 棵树（每个树节点是一个完整智能体步），靠随机扩展在固定预算下采到比链式更多的 rollout；然后在树上做两级分组优势估计——树内分组在分支点构造过程/偏好信号、树间分组提供稳定 baseline；最后把合并后的优势喂进 GRPO 式的裁剪目标更新策略。理论分析进一步表明，树内分组优势的梯度结构和步级 DPO 等价，这解释了为什么纯结果奖励能产生步级监督。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["Prompt / 问题"] --> A["1. 智能体步级树搜索<br/>初始化M棵树 → 采样N个节点 → 扩展L次"]
    A -->|"共享前缀<br/>固定预算多采 ~1.5× rollout"| B["2. 树结构分组优势<br/>树内偏好信号 + 树间稳定基线"]
    B --> C["3. 隐式步级偏好学习<br/>树内GRPO梯度 ≡ 步级DPO"]
    C --> D["Tree-GRPO 裁剪目标<br/>更新策略 πθ"]

关键设计¶

1. 智能体步级树搜索采样：用共享前缀把固定预算榨出更多 rollout

针对「采样预算重、轨迹冗余」这个痛点，作者把链式独立采样换成树搜索。难点在于经典 MCTS 依赖多轮顺序展开，和并行 LLM 推理引擎不匹配、吞吐被卡死。本文用初始化-再扩展（initialize-then-expand）规避：① 初始化——对每个 prompt $x_i$ 先并行采 $M$ 条完整链式轨迹，作为 $M$ 棵树的初始主干；② 采样——从每棵树里随机挑 $N$ 个非叶节点（叶节点是已给出答案的终点）；③ 扩展——对每个被选节点，把从根到它的整段上下文 $H^i_{<t}$ 连同原 prompt 一起喂回策略模型，续生成剩余部分，作为新分支插回树里。把②③重复 $L$ 次，单个 prompt 最终得到 $M\times(L\times N+1)$ 条 rollout 作为组规模 $G$。

关键是节点单元的选取：现有树式 RL 多用 token/句子级节点，而智能体任务有清晰的步结构，于是这里每个节点对应一个完整的 $(\tau,\alpha,o)$ 步，上下文切分语义自洽，且能在 token 和工具调用两个维度上同时约束预算。由于一次随机扩展选中节点的期望深度是最大深度的一半、对应期望开销约 $B/2$（$B$ 为单条完整轨迹的期望预算），树搜索的总期望预算为 $$E[B_{\text{tree}}] = M\cdot B + L\cdot N\cdot B/2.$$ 同等预算下树搜索能比链式多采约 1.5×（随树形而变）的轨迹。减小树数 $M$、增大扩展数 $N,L$ 可进一步提升 rollout 数，但会让更多轨迹共享前缀、收窄探索面，是个需要权衡的旋钮。

2. 树内 + 树间两级分组优势：让稀疏结果奖励在分支点变成过程信号

针对「监督稀疏、credit 分不清」这个痛点，作者利用树结构本身造过程监督。核心观察是：在树的每个分支点，从各自子树叶节点反传上来的结果奖励之间的差异，天然构成一个针对不同子树的偏好学习目标——而且子树越深、过程信号粒度越细；由于扩展是随机的，自然就产出了不同粒度的过程信号。具体实现是在每棵树内做分组优势估计 $\hat{A}_{\text{Intra-tree}}$，用同一棵树内的 rollout 集合做组内标准化： $$\hat{A}_{\text{Intra/Inter-tree}}(H_i) = \big(R(H_i) - \text{mean}(\{R(H_j)\})\big) / \text{std}(\{R(H_j)\}).$$ 但单棵树内分支数往往太少，导致 $\hat{A}_{\text{Intra-tree}}$ 方差高、baseline 不稳，RL 极易崩溃。于是再跨所有树做一次树间分组 $\hat{A}_{\text{Inter-tree}}$ 当稳定的后备 baseline，二者相加得到最终优势 $$\hat{A}_{\text{tree}}(H_i) = \hat{A}_{\text{Intra-tree}}(H_i) + \hat{A}_{\text{Inter-tree}}(H_i),$$ 再代入 token 级重要性采样比 $r_{i,t}(\theta)$ 的 GRPO 裁剪目标（带 $\beta D_{KL}$ 正则）优化。这样既拿到了树内的步级偏好信号，又靠树间分组保住了训练稳定性。

3. 隐式步级偏好学习：证明树内 GRPO 与步级 DPO 同构

这是为设计 2「为什么纯结果奖励能产生步级监督」给出的理论支撑。作者在二元偏好假设下（每个中间节点 $(x,H_{<t})$ 的后续轨迹按奖励分成 win/loss 两类、奖励 $\{1,0\}$）推导发现：步级 DPO 的梯度和树内 GRPO 的梯度可以写成同一个统一形式 $$\nabla_\theta J_{\text{unified}}(\theta) = \underbrace{w}_{\text{权重}}\cdot\underbrace{\big(\nabla_\theta\log p_\theta(H^{\text{win}}_{\ge t}) - \nabla_\theta\log p_\theta(H^{\text{loss}}_{\ge t})\big)}_{\text{偏好优势梯度}},$$ 唯一区别只在权重项 $w$ 的选择上。这说明树内 GRPO 实质上是在在线 rollout 设定下隐式做步级偏好优化，因而继承了步级 DPO 的细粒度优化性质，却不需要离线构造正负样本对、也不增加训练管线复杂度。

损失函数 / 训练策略¶

最终目标是 GRPO 式的 token 级裁剪目标，把组内优势换成 $\hat{A}_{\text{tree}}$，并保留 $\beta D_{KL}(\pi_\theta\|\pi_{\text{ref}})$ 正则： $$J_{\text{Tree-GRPO}}(\theta) = \mathbb{E}\Big[\tfrac{1}{G}\sum_i \tfrac{1}{|H_i|}\sum_t \min\big(r_{i,t}\hat{A}_{\text{tree}}, \text{clip}(r_{i,t},1-\epsilon,1+\epsilon)\hat{A}_{\text{tree}}\big) - \beta D_{KL}\Big].$$ 工具统一用搜索引擎：多跳/单跳 QA 用 E5 本地检索（Wikipedia dump），Web-Agent QA 用真实 web 搜索 API。默认每个 prompt 训练预算为 4 条完整轨迹的开销。

实验关键数据¶

在 11 个数据集、3 类 QA 任务上评测，模型覆盖 Qwen2.5（Base/Instruct）与 Llama3.2，参数量 1.5b/3b/7b/14b。指标：单跳/多跳 QA 用 EM，Web-Agent QA 用 F1。

主实验¶

多跳 QA（需要多轮交互）上，Tree-GRPO 相对链式 GRPO 的提升在小模型上最显著：

模型	任务	链式 GRPO	Tree-GRPO	相对提升
Qwen2.5-1.5b	多跳 QA Avg	11.3	19.1	+69%
Qwen2.5-1.5b	单跳 QA Avg	43.4	47.5	+9.5%
Llama3.2-3b	多跳 QA Avg	26.7	36.8	+38%
Qwen2.5-3b	多跳 QA Avg	31.8	36.8	+16%
Qwen2.5-14b	多跳 QA Avg	41.8	45.3	+8.4%

小模型（<7b）在 ReAct 提示下几乎没有提升，说明光靠提示不足以完成长程智能体任务；而 Tree-GRPO 即便在 Qwen2.5-1.5b 上也能激发多轮工具使用，链式方法则学不起来。单跳 QA 因为多数题目一轮检索即可解决、树深通常只有 2，过程信号收益有限。Web-Agent QA 上提升受限于训练数据质量，但仍稳定优于链式，GAIA 上平均提升约 28%。

预算 / 优势消融¶

预算消融（Qwen2.5-3b，多跳 QA Avg）显示极限低预算下树搜索优势最大，且 Tree-GRPO 用 1/4 预算即可超过链式：

每 prompt 预算	链式	树式	相对提升
≈2	14.9	31.6 (M=1,N=2,L=1)	+112%
≈4	31.8	36.8 (M=2,N=2,L=1)	+16%
≈8	31.4	36.4 (M=2,N=6,L=1)	+16%
≈16	33.9	37.3 (M=4,N=5,L=1)	+10%

优势估计消融（预算≈4，多跳 QA Avg）验证了「树内造信号 + 树间稳基线」的必要性：

优势配置	多跳 Avg	说明
Chain-based	31.8	基线
仅 $\hat{A}_{\text{Intra-tree}}$ (M=2,N=2)	collapse	树内分支太少，方差高、训练崩溃
仅 $\hat{A}_{\text{Inter-tree}}$ (M=2,N=2)	33.8 (+6.3%)	只用全局 baseline，已超链式
$\hat{A}_{\text{Intra}}+\hat{A}_{\text{Inter}}$ (M=2,N=2)	36.8 (+16%)	完整版，最稳最好

关键发现¶

分支数不足时树内优势会崩：单棵树内 rollout 太少（N=2）时仅用 $\hat{A}_{\text{Intra-tree}}$ 直接 collapse，必须靠 $\hat{A}_{\text{Inter-tree}}$ 兜底；当分支充足（N=6）时树内优势单独也能用。即便只用 $\hat{A}_{\text{Inter-tree}}$，因树搜索同预算采样更高效，也已超过链式 GRPO。
预算越紧、树式越赢：≈2 预算时相对提升高达 112%；随预算增大、单跳场景的「更多轨迹」红利逐渐消退，但多跳场景的「细过程信号」红利持续存在。
鼓励更长交互：多跳 QA 上树式把平均工具调用/动作数从 2.4 提到 3.0，更愿意做长程探索而非走捷径，这对真正需要长程交互的任务很有价值。
对超参更鲁棒：在所有学习率 warmup 比例与 KL 系数设置下树式都优于链式，小模型（<3b）训练对 LR warmup 尤其敏感，而树式更稳。

亮点与洞察¶

「省预算」和「造监督」用同一个机制一次解决：树的共享前缀既减少了 rollout 冗余（省 token/工具调用），又在分支点天然提供了过程信号——一石二鸟，且整套东西只依赖结果奖励、即插即用、不需要训 PRM 或离线造 DPO 数据。
节点选在「智能体步」而非 token/句子：这是和已有树式 RL（VinePPO、SPO 等）最本质的区别。智能体步是语义自洽的决策单元，切分清晰、能同时约束 token 与工具调用预算，让树搜索第一次真正适配智能体任务。
理论把在线 RL 和步级 DPO 接上了：证明树内 GRPO 与步级 DPO 梯度同构，相当于「在线、免造对」地拿到 DPO 的细粒度好处，这个等价性视角可迁移到其他想把结果奖励变成过程奖励的场景。
initialize-then-expand 解决了树搜索与并行推理引擎的矛盾：先并行建主干、再批量扩展节点，避免了 MCTS 顺序展开拖垮吞吐，是把树搜索塞进在线 RL 的工程关键。

局限与展望¶

作者承认 Web-Agent QA 提升有限，主因是开源 web-agent 基准多为测试集、缺高质量训练集，收集到的训练数据难度/质量配不上 BrowseComp 这类极难基准。
单跳/浅树场景收益小：树深只有 2 时过程信号几乎退化成轨迹信号，方法的价值高度依赖任务本身的多轮深度。
树形超参敏感：$M,N,L$ 之间存在「rollout 数 ↔ 探索面」的权衡，减小 $M$ 增大 $N,L$ 虽能多采但会因前缀重叠收窄探索，不同配置效果差异明显，需要按预算调。
二元偏好假设（win/loss、奖励 $\{1,0\}$）是理论等价性的前提，连续/稠密奖励下的等价关系还需进一步分析。
改进方向：把工具从单一搜索引擎扩到更丰富的工具集、为难基准补高质量训练数据、自适应选择扩展节点（而非随机）以更精准地分配过程信号粒度。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把「智能体步级树搜索」和「树内 GRPO≡步级 DPO」的理论等价结合，角度新且落地
实验充分度: ⭐⭐⭐⭐⭐ 11 数据集 × 多模型多尺度，预算/优势/超参消融齐全
写作质量: ⭐⭐⭐⭐ 动机—方法—理论—实验链条清晰，公式与图配合到位
价值: ⭐⭐⭐⭐⭐ 同预算多采 + 免标过程信号，对昂贵多轮智能体 RL 训练实用价值高