ICLR 2026 LLM Agent active reasoning reinforcement-learning LLM agent belief tracking POMDP credit assignment

Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents¶

会议: ICLR 2026
arXiv: 2510.12264
代码: https://github.com/unimpor/T3
领域: LLM Agent
关键词: active reasoning, reinforcement-learning, LLM agent, belief tracking, POMDP, credit assignment

一句话总结¶

提出 T³（Truncating Belief-Trapped Trajectories），基于 POMDP 理论分析 LLM 智能体在多轮主动推理中的"信念陷阱"现象，通过检测信念偏离并截断无信息尾部轨迹来修正 RL 训练中的信用分配错误，在 5 个挑战性任务上获得最高 30 分的性能提升并节省 34% 的 token 开销。

背景与动机¶

主动推理的核心挑战：LLM 智能体在多轮交互中需要策略性地提问和主动获取信息来完成任务，这要求精确的信念追踪——维护对底层状态和不确定性的准确表示。
信念偏离问题：由于 LLM 推理能力有限，其内部信念会偏离真实问题状态，导致状态感知丧失和无信息/重复动作，形成"信念偏离"。
RL 训练的恶性循环：信念偏离产生的无信息轨迹尾部会污染强化学习中的信用分配，使早期有价值的探索动作被错误地惩罚，优势估计甚至可能被反转。
LLM 智能体的多轮困境：实践中 LLM 智能体经常在多轮推理中生成冗余、无关或无信息的动作，甚至陷入无效循环，RL 训练本身并未完全解决这些问题。
POMDP 中的不完美信念更新：经典 POMDP 假设完美的贝叶斯信念更新，但 LLM 智能体的信念更新本质上是不完美且有误差的，导致累积偏差。
现有 RL 方法的不足：标准策略优化（PPO、GRPO 等）未考虑信念陷阱动态，学到的策略在分布外场景中仍表现脆弱，泛化能力不足。

方法详解¶

理论基础：POMDP 建模¶

将主动推理形式化为 POMDP \((S, A, O, T, O, R, \gamma)\)。智能体基于信念状态 \(b_t \in \Delta(S)\) 选择动作 \(a_t\)，环境返回观测 \(o_t\)。引入真值锚定势函数 \(\Psi(b) = -\log b(s^*)\) 衡量任务进展：\(\Psi = 0\) 表示任务完成，值越小表示对真实状态 \(s^*\) 的置信度越高。

核心概念：信念陷阱区域（BTR）¶

定理 1（非正式）：在非退化观测、Lipschitz 策略和信念更新误差增长假设下，LLM 智能体的信念轨迹将在有限步后进入一个吸收区域（BTR），在该区域内期望任务进展变为非正值：\(\mathbb{E}[\Psi_{t+1} | b_t] \geq \Psi_t\)。

假设 1（更新误差增长）：存在常数 \(m_\theta > 0\)，使得在高不确定性区域，LLM 的信念更新误差至少线性增长于偏差本身。直觉上，偏差越大，校正越困难，形成正反馈放大。

信用分配失败机制¶

定理 2（非正式）：一旦轨迹进入 BTR，无信息尾部会污染早期探索动作的广义优势估计（GAE）。当尾部足够长时，负漂移可以主导正贡献，使早期动作的优势估计为负，导致梯度方向反转——本应鼓励的有价值探索反而被惩罚。

推论 1（截断的价值）：在 BTR 入口处截断轨迹可消除无信息尾部的不良效应，产生偏差更小的梯度估计。

T³ 方法设计¶

T³ 条件（定义 2）：若在窗口 \([t-k, t)\) 内，假设空间的精炼度量 \(d(H_\tau, H_{\tau+1}) \leq \Delta_{\min}\) 对所有步骤持续成立，则在步骤 \(t\) 处截断轨迹。

具体任务实例化： - GuessNumbers (GN)：\(H_t\) 为一致候选数字集合，\(d = |H_\tau| - |H_{\tau+1}|\)，若猜测超出候选集（\(k=1\)）则截断 - SituationPuzzles (SP)：以评判者反馈"unknown"作为未精炼代理，连续 \(k=5\) 步则截断 - CircuitDecoding (CD)：与 GN 类似，若候选集连续 \(k=3\) 步未缩减则截断 - PreferenceEstimation (PE) / MovieRecommendation (MR)：监控估计向量与真实偏好的相似度变化，连续 \(k=2\) 步下降则截断

关键设计特点¶

T³ 作为元包装器（meta-wrapper）无缝集成到 PPO、GRPO、GSPO 等标准策略优化框架中，无需修改底层算法，是即插即用的解决方案。

实验结果¶

实验 1：主实验（5 个任务，3 种 RL 算法）¶

方法	CD (EM)	SP (F1-word)	GN (EM)	PE (Binary Sim)	MR (EM)	平均排名
o3-mini	92.67	20.64	95.28	44.67	83.33	4.67
Gemini-2.5-Pro	92.23	24.12	90.84	16.67	83.00	5.67
PPO	61.67	28.77	91.62	42.00	24.33	6.50
PPO + T³	77.83 (+16.2)	36.85 (+8.1)	93.98 (+2.4)	49.00 (+7.0)	38.00 (+13.6)	4.50
GRPO	79.33	36.46	61.26	51.67	12.00	5.50
GRPO + T³	81.33 (+2.0)	39.45 (+3.0)	91.36 (+30.1)	52.33 (+0.7)	32.67 (+20.7)	3.17
GSPO	77.67	36.63	96.07	59.00	14.67	4.33
GSPO + T³	81.00 (+3.3)	36.96 (+0.3)	99.74 (+3.7)	62.00 (+3.0)	55.67 (+41.0)	2.50

T³ 在 18 个指标中的 14 个取得非边际提升。最大提升：GSPO+T³ 在 MR 上 +41.0 分，GRPO+T³ 在 GN 上 +30.1 分。GSPO+T³ 在 GN 上接近完美（99.74）。

实验 2：分布外（OOD）泛化¶

PE 任务 (PPO)	Vanilla	+ T³	CD 任务 (PPO)	Vanilla	+ T³
参考集 S=5	40.0	44.3 (+4.3)	候选集 S=10	67.8	86.3 (+18.5)
S=10	42.0	49.0 (+7.0)	S=15	61.7	74.7 (+13.0)
S=20	41.0	53.7 (+12.7)	S=20	48.2	55.8 (+7.7)
S=30	42.3	46.3 (+4.0)	S=30	31.5	35.7 (+4.2)

在所有 OOD 设置下 T³ 均一致性提升，证明方法学到了可泛化的主动推理策略。

训练效率分析¶

T³ 通过早期截断减少每次 rollout 的平均 token 数，实现更高的训练效率。在 PPO+CD 上达到 reward 0.65 仅需原始方法 66.4% 的 token；GSPO+GN 上达到 0.96 仅需 76.3% 的 token。训练曲线更稳定，奖励单调或近单调增长，减少了剧烈下降。

亮点¶

理论驱动：从 POMDP 理论严谨推导信念陷阱和信用分配失败机制，定理-假设-推论链条完整
即插即用：T³ 无需修改底层 RL 算法即可集成到 PPO/GRPO/GSPO，实用性极强
多维度改善：同时提升最终性能（最高+41分）、训练稳定性、token 效率（节省34%），以及 OOD 鲁棒性
实验验证理论：对关键理论假设（更新误差增长 Asmp.1、优势漂移 Thm.2）进行了实证验证
对前沿模型的启示：在无界假设空间任务上（SP、PE），RL+T³ 训练的 7B 模型可超越 o3-mini 和 Gemini-2.5-Pro

局限性¶

任务特定代理信号：T³ 条件需要为每个任务设计可观测代理信号（假设空间精炼度量），通用性有待提升
假设空间构造：对于连续或无界假设空间的任务，精确构建 \(H_t\) 和度量 \(d(\cdot, \cdot)\) 仍然困难
理论假设的局限：假设 1（更新误差线性增长）在实际中可能仅近似成立，且阈值 \(U\) 无法直接测量
评估任务范围：主要在信息获取型推理任务上验证，对于更复杂的开放式智能体场景（如网页浏览、代码生成）的适用性待验证

评分¶

⭐⭐⭐⭐⭐ 创新性：从 POMDP 理论推导出信念陷阱→信用分配失败→截断解法的完整链条，概念新颖且理论完备
⭐⭐⭐⭐ 实验充分度：5 个任务、3 种 RL 算法、OOD 分析、消融实验、理论验证实验，覆盖面广
⭐⭐⭐⭐ 实用价值：即插即用特性使其可直接应用于现有 RL 训练流程，token 节省具有工程价值
⭐⭐⭐⭐ 清晰度：理论推导与实践设计衔接自然，代理信号的任务实例化描述清晰

Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents¶

一句话总结¶

背景与动机¶

方法详解¶

理论基础：POMDP 建模¶

核心概念：信念陷阱区域（BTR）¶

信用分配失败机制¶

T³ 方法设计¶

关键设计特点¶

实验结果¶

实验 1：主实验（5 个任务，3 种 RL 算法）¶

实验 2：分布外（OOD）泛化¶

训练效率分析¶

亮点¶

局限性¶

相关工作对比¶

vs. 标准 RL for LLM（GRPO / PPO without truncation）¶

vs. 前沿推理模型（o3-mini, Gemini-2.5-Pro）¶

vs. 自我修正/反思方法（Self-Refine, Reflexion）¶

评分¶

Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents¶

一句话总结¶

背景与动机¶

方法详解¶

理论基础：POMDP 建模¶

核心概念：信念陷阱区域（BTR）¶

信用分配失败机制¶

T³ 方法设计¶

关键设计特点¶

实验结果¶

实验 1：主实验（5 个任务，3 种 RL 算法）¶

实验 2：分布外（OOD）泛化¶

训练效率分析¶

亮点¶

局限性¶

相关工作对比¶

vs. 标准 RL for LLM（GRPO / PPO without truncation）¶

vs. 前沿推理模型（o3-mini, Gemini-2.5-Pro）¶

vs. 自我修正/反思方法（Self-Refine, Reflexion）¶

评分¶

相关论文¶