T\(^2\)PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning¶
会议: ICML 2026
arXiv: 2605.02178
代码: https://github.com/WillDreamer/T2PO (有)
领域: LLM 推理 / Agentic RL / 多轮强化学习
关键词: 多轮 RL、训练崩溃、自校准不确定性、token-level 思考干预、turn-level 动态重采样
一句话总结¶
T\(^2\)PO 把多轮 agentic RL 的训练崩溃归因为"hesitation(犹豫)"——token 层过思考、turn 层重复无效——并用一个融合 entropy+confidence 的自校准不确定性信号 \(M_t\) 同时驱动 token-level Thinking Intervention(动态截断 think 段)和 turn-level Dynamical Sampling(重采样无效 turn),在 WebShop / ALFWorld / Search QA 上稳定超越 PPO/GRPO/GiGPO。
研究背景与动机¶
领域现状:多轮 agentic RL(agent 在 WebShop、ALFWorld 这种环境里多次交互 + 自进化)是构建推理型 LLM agent 的核心范式。主流方法包括 PPO、GRPO、GiGPO(group-based critic-free),并配合 rejection-FT 冷启动 + 长度惩罚等技巧。
现有痛点:所有 SOTA baseline 都被"训练崩溃"困扰——随机种子换一下,success rate 突然暴跌、KL 散度和 gradient norm 同时爆炸,整个训练失败。已有缓解策略(细粒度 credit assignment、internal reward shaping、轨迹过滤)要么粒度太粗(trajectory-level filter),要么靠 reward shaping 间接控制,结果就是训练动力学对超参极其敏感。
核心矛盾:现有工作把"训练效率"和"训练稳定性"当作 trade-off——加速 rollout 会引入 off-policy drift / stale policy;做密集 reward shaping 又破坏 RL 目标。本文主张这俩根本不矛盾——只要找到崩溃的真正成因。
本文目标:1) 解释为何稳定性差——找到统一的失败机制;2) 设计 token-level + turn-level 双尺度干预;3) 不引入额外 reward shaping,效率与稳定性同步提升。
切入角度:分析训练轨迹后发现,崩溃源于探索效率低——具体表现为两种 hesitation:(i) token-level over-thinking——思考链很长但信息增益早就饱和;(ii) turn-level 重复无效——agent 在错误动作空间里反复试同样的 turn。这正是探索-利用权衡的系统性违背。
核心 idea:用一个能同时捕捉"分布尖锐度"和"top-1 置信度"的自校准信号 \(M_t=\alpha\tilde H_t+(1-\alpha)(1-\tilde C_t)\),监控 token 间 \(M_t\) 的变化率:变化率太小(信息饱和)就在 token 层强制截断 think;turn 之间 \(\Phi^k\) 的变化太小就重采样这个 turn。
方法详解¶
整体框架¶
T\(^2\)PO 在标准多轮 RL pipeline(base LLM + RFT 冷启动 + SOTA policy update)之上插入两个 uncertainty-guided 干预模块:TTI(Token-level Thinking Intervention) 在 rollout 时动态截断思考段;TDS(Turn-level Dynamical Sampling) 在 rollout 时识别并重采样无效 turn。两个干预的共同基础是 \(M_t\)。最后用 memory context window(只看最近 \(P\) turn)+ turn-level discounted return \(R(\tau^k)=\sum_{j=k}^K\beta^{j-k}r^j\) + 严格格式惩罚 + GRPO 类策略更新做训练。
关键设计¶
-
自校准不确定性信号 \(M_t\):
- 功能:在大词表(如 Qwen3 的 152K)下提供一个既能分辨"几乎均匀"与"高度尖锐"分布,又对尾部概率敏感的标量信号,作为 TTI/TDS 的统一驱动量。
- 核心思路:单独用 Shannon entropy \(H_t=-\sum_i p_t^{(i)}\log p_t^{(i)}\) 在极端处区分度差("(1,0,0,...)" 与 "(0.5,0.5,0,...)" 在 152K 词表下 entropy 差距仅 \(\log 2\),相对总量级几乎不可见);单独用 top-\(j\) confidence \(C_t=-\frac{1}{j}\sum_{i=1}^j\log p_t^{(i)}\) 又只看 arg-max 忽略尾部。先做轨迹归一化 \(\tilde H_t=(H_t-H_{\min})/(H_{\max}-H_{\min})\)、\(\tilde C_t=(C_t-C_{\min})/(C_{\max}-C_{\min})\),再融合 \(M_t=\alpha\tilde H_t+(1-\alpha)(1-\tilde C_t)\)。论文用 contour 图说明 \(M_t\) 在等高线几何上同时保留 entropy 的尾部敏感性和 confidence 的 top-1 分层。
- 设计动机:单一指标各有盲区;融合后的 \(M_t\) 是"局部分布稳定性"的可靠 scalar,能让阈值规则在不同 token / turn 上有一致语义。
-
TTI(Token-level Thinking Intervention)—— 在 think 段停得恰到好处:
- 功能:动态判断"思考已经饱和"的时刻,强制把 reasoning 终止符
</think>注入到 logits 里,停止过思考。 - 核心思路:从最小前缀长度 \(L_{\min}\) 之后开始监控相邻变化 \(\Delta_t^k=|M_t^k-M_{t-1}^k|\)。当窗口大小 \(N\) 内的平均变化低于阈值 \(\varepsilon\)(\(\frac{1}{N+1}\sum_{i=0}^N\Delta_{t-i}^k<\varepsilon\)),认为非犹豫事件触发,在 \(t^*+1\) 步把
</think>的 token 153668 的 logit 设 \(+\infty\)、其余 \(-\infty\),让 \(p_\theta(y_{t^*+1}=\texttt{</think>}\mid y_{\le t^*})=1\)。随后按固定 queue \(\mathcal{Q}=[\texttt{</think>},\backslash n,\texttt{<action>}]\) 注入,保证结构化输出。关键 trick 是不在 \(M_t\) 峰值处截断(那里恰是 task-specific token,截了反伤性能),而在峰值之后的"收敛区"截。还附加 one-time activation(每条生成最多触发一次)和全局 \(L_{\max}\) 兜底。 - 设计动机:过去工作要么不截、要么按固定长度截(粗暴)、要么按 reward 隐式控制(间接);TTI 是直接的、自适应的、token-level 的硬截断,且通过 sliding window 平滑掉单点 spike,避免在关键 task token 处误截。
- 功能:动态判断"思考已经饱和"的时刻,强制把 reasoning 终止符
-
TDS(Turn-level Dynamical Sampling)—— 重采样无效 turn:
- 功能:在 turn 层检测"和上一个 turn 几乎没区别"的无效交互,丢弃当前 turn 的生成并重采,避免浪费 rollout 预算。
- 核心思路:先把 turn 内所有 token 的 \(M_t\) 几何平均得到 turn-level 信号 \(\Phi^k=(\prod_{t=1}^T M_t)^{1/T}\),然后看相邻 turn 的变化 \(\Gamma^k=|\Phi^k-\Phi^{k-1}|\)。当 \(\Gamma^k<\eta\)(agent 内部 belief 几乎没改变)时触发 regeneration:把 \(\mathbf{a}^k\) 抛弃,在同样的 state 下重新 rollout,直到 \(\Gamma^k\ge\eta\) 或达到重采上限 \(B_{\max}\)。关键设计是不能直接把单轮 RL 的 DAPO-style filter 搬过来——多轮 RL 缺乏 dense per-turn reward,所以 TDS 用 turn-level 的内部不确定性变化作为"代理 accuracy"。
- 设计动机:agent 在错误轨迹上反复试很多无效 turn 是 multi-turn RL 训练崩溃的另一主因;TDS 直接在 rollout 阶段切掉它们,既省算力又稳定梯度信号。
损失函数 / 训练策略¶
RFT 冷启动 + memory context window(只看最近 \(P\) turn 节省显存)+ turn-level discounted return \(R(\tau^k)=\sum_{j=k}^K\beta^{j-k}r^j\) + 严格格式惩罚(强制 think/action 标签)+ GRPO 类 critic-free 策略更新。TTI / TDS 在 rollout 阶段干预,不改 policy update。
实验关键数据¶
主实验¶
在 WebShop 和 ALFWorld 双 benchmark(5 seed 平均 ± std)上对比,base 模型为 Qwen3-4B + RFT 冷启动:
| 方法 | WebShop Task Score | WebShop Success Rate | ALFWorld Success Rate |
|---|---|---|---|
| GPT-4o (Prompting) | 31.8 | 23.7 | 48.0 |
| Gemini-2.5-Pro (Prompting) | 42.5 | 35.9 | 60.3 |
| Claude Sonnet 4 (Prompting) | 45.6 | 39.8 | 63.7 |
| Qwen3-4B + SFT | 70.91 | 26.56 | 64.06 |
| PPO | 70.34 ± 8.63 | 61.93 ± 5.93 | 75.39 ± 3.81 |
| GRPO | 80.02 ± 7.94 | 68.56 ± 4.11 | 77.35 ± 0.62 |
| GiGPO | 86.03 ± 4.18 | 73.83 ± 3.04 | 80.47 ± 2.43 |
| T\(^2\)PO(本文) | 最高且 std 最小 | 最高 | 最高 |
关键指标:T\(^2\)PO 在 WebShop / ALFWorld / Search QA 三任务上均最佳,且跨 seed 方差显著小于 baseline(直接缓解训练崩溃)。
消融实验¶
| 配置 | 关键现象 | 说明 |
|---|---|---|
| Full T\(^2\)PO | 最优且训练稳定 | TTI + TDS 共同生效 |
| 仅 TTI | 单轮 think 段短了,平均稳定性改善 | 控 token-level hesitation |
| 仅 TDS | 无效 turn 减少,rollout 效率高 | 控 turn-level hesitation |
| 用纯 entropy \(H_t\) 替 \(M_t\) | 阈值规则失效,因为大词表下区分度差 | 验证 \(M_t\) 必要 |
| 用纯 confidence \(C_t\) 替 \(M_t\) | 尾部信息丢失,TTI 容易在错位 | 验证融合必要 |
| 在 \(M_t\) 峰值处截断 | 性能反降——截掉了 task-specific 关键 token | 验证 sliding-window 设计 |
关键发现¶
- \(M_t\) 沿响应长度的轨迹呈"先升后降"的 hump 形状,峰值附近多是 task-specific token(如 WebShop 里的商品名),过峰后才是真正可以剪掉的冗余思考——这条经验性发现是 TTI 设计的灵魂。
- One-time activation + \(L_{\min}\) 前缀保护 + sliding window 这三件套是 TTI 在工程上不会误伤的关键。
- TDS 的 \(\Phi^k\) 用几何平均而非算术平均,是因为内部不确定性常常被极少数高 entropy token 拉偏,几何平均更稳定地反映 turn 整体 belief 状态。
- 完全不引入外部 reward shaping,效率和稳定性都提升,验证了"hesitation 才是崩溃根本"的核心论点。
亮点与洞察¶
- 用一个自校准不确定性统一两个尺度的干预(TTI / TDS),是个非常优雅的统一视角——以前 token-level 与 turn-level 控制总是各搞各的,本文证明同一个 \(M_t\) 就够了。
- "用 stop-gradient 的硬截断 + 注入 token queue"代替"软惩罚"是工程上的 sharp tool——直接在 rollout 阶段把"该停就停"做成确定性操作,比加 length penalty 这种间接信号简洁有效得多。
- "不在 \(M_t\) 峰值处截"这一反直觉细节体现了对 reasoning trace 的细致分析:峰值处对应"高信息密度"而非"过思考",截了就毁了任务相关性——这是教科书级别的 ablation 教训。
- TDS 的"belief shift 不够大就重采"机制可以迁移到任何 multi-turn RL(包括 tool-use、多轮对话、code agent),是个通用的轨迹质量控制器。
局限与展望¶
- TTI / TDS 的阈值 \(\varepsilon, \eta, L_{\min}, N, B_{\max}\) 较多,跨任务自适应仍需调参,没给出自动 tuning 方法。
- 自校准信号依赖归一化范围 \(H_{\min}, H_{\max}\) 等估计,长 horizon 下统计可能漂移。
- 实验集中在 4B 量级 Qwen + 三个环境,更大模型(70B+)和更复杂工具调用环境(如 SWE-Bench)上的扩展性未测。
- 与 off-policy RL 算法(如 KL-controlled importance sampling)的组合未探索;与 async rollout 加速的兼容性也待验证。
相关工作与启发¶
- vs SimpleTIR / rStar2-Agent(trajectory-level filter):他们事后过滤含 void turn 的整条轨迹;T\(^2\)PO 在 rollout 阶段就重采单个 turn,粒度更细且不丢有效数据。
- vs GiGPO / DAPO(group-based critic-free):他们改 advantage 估计;T\(^2\)PO 改 rollout 本身,二者正交可以叠加,本文也直接用 GRPO 类 update 做了组合。
- vs SEED-GRPO / DeepConf(internal reward 用 entropy/confidence):他们把 internal signal 喂回 reward;T\(^2\)PO 把 internal signal 用于显式截断/重采,避免 reward shaping 引入的训练动力学污染,逻辑上更干净。
评分¶
- 新颖性: ⭐⭐⭐⭐ 双尺度 hesitation 视角 + 自校准信号 + 硬截断/重采机制,组合思路鲜明。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 WebShop / ALFWorld / Search QA + 多 baseline + 多 seed 方差对比,崩溃缓解有数据支撑。
- 写作质量: ⭐⭐⭐⭐ "hesitation is defeat" 的论述链一气呵成,图 1-4 把现象、机制、效果递进呈现。
- 价值: ⭐⭐⭐⭐ 给 agentic RL 提供了一个可即插即用的稳定化工具,开源代码会让社区跟进很快。