Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search¶
会议: ICML 2025
arXiv: 2506.09171
代码: 待确认
领域: LLM Agent
关键词: LLM Agent, Atomic Facts, Lookahead Search, in-context learning, world model
一句话总结¶
提出 LWM-Planner,从交互轨迹中提取"原子事实"增强 LLM 世界模型模拟,结合递归前瞻搜索实现纯 in-context 的 Agent 规划改进,在 ALFWorld 等任务上显著优于 ReAct 和 Reflexion。
研究背景与动机¶
LLM Agent 规划的核心挑战¶
- 无法高效利用历史经验(靠整条轨迹塞入上下文效率低)
- 缺乏显式世界模型来模拟未来状态
现有方法不足¶
- ReAct:无跨 episode 学习能力
- Reflexion:只产出高层建议,不够结构化
- RAP(MCTS):需要环境交互展开搜索树,代价大
核心洞察¶
LLM 拥有大量关于世界动态的先验知识,如果能从经验中提取简洁的"原子事实"(如"物体 X 在容器 Y 中"),显著提升模拟和规划能力。
方法详解¶
整体框架:LWM-Planner¶
维护短期交互历史 + 长期原子事实集合,通过递归前瞻搜索选择动作。
关键设计 1:原子事实提取¶
每 episode 结束后从轨迹中提取形如"obstacle_at(3,0)"的最小知识单元,加入长期事实库。
关键设计 2:LLM 作为潜在世界模型¶
LLM 同时充当三个角色(均接收原子事实增强): - Action Proposer:生成候选动作 - World Model:预测下一状态+奖励+终止 - Value Estimator:估计叶节点长期价值
关键设计 3:递归前瞻搜索¶
- 深度限制 d=3,分支因子 b=4
- \(Q(o,a) = r' - \lambda_{step} + \gamma \cdot \hat{V}(o')\)
- 结果缓存减少重复 LLM 调用,temperature=0 保证确定性
理论动机¶
框架形式化为基于事实的状态抽象 MDP,性能损失由 \(\epsilon_{sim}\)、\(\delta_{model}\)、\(\epsilon_{plan}\) 三误差控制。
实验关键数据¶
主实验(归一化累积回报)¶
| 方法 | TextFrozenLake | CrafterMini | ALFWorld-A | ALFWorld-B | ALFWorld-C |
|---|---|---|---|---|---|
| LWM-Planner | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
| ReAct + FEC | 89.6 | 99.9 | 22.0 | 67.7 | 54.4 |
| ReAct | -165.7 | 86.7 | 59.1 | 55.9 | 64.1 |
步数效率(每次成功所需步数)¶
| 方法 | TextFrozenLake | CrafterMini | ALFWorld-A |
|---|---|---|---|
| LWM-Planner | 6.0 | 46.5 | 8.4 |
| ReAct + FEC | — | 41.4 | 14.6 |
| ReAct | — | 50.7 | 24.7 |
关键发现¶
- LWM-Planner 在所有环境上达到最高回报且步数接近最优
- 消融 ReAct+FEC 说明事实提取有效,前瞻搜索进一步提升
- 完全 in-context learning,无需权重更新
- 原子事实随 episode 积累,Agent 持续自我改进
亮点与洞察¶
- "原子事实"概念精炼优雅:比整条轨迹检索高效,比高层反思更精确。
- LLM 同时当 world model + value function + policy 的统一设计。
- 搜索+经验的组合比纯反思(Reflexion)或纯搜索都更鲁棒。
- 纯 in-context 学习意味着对新环境的适应完全不需要训练。
局限与展望¶
- LLM 推理调用量大,每步多次 LLM 调用成本高。
- 原子事实质量完全依赖 LLM 反思能力。
- 实验环境相对简单,更复杂真实环境效果待验证。
- 事实集合的长期增长管理可能成为瓶颈。
相关工作与启发¶
- vs ReAct (Yao et al. 2023):ReAct 交替推理和执行但无世界模型;本文用原子事实增强 LLM 做多步仿真
- vs Reflexion (Shinn et al. 2023):Reflexion 产出高层反思建议,本文提取结构化原子事实用于 world model,信息粒度更细
- vs RAP (Kagaya et al. 2024):RAP 检索完整历史轨迹做 MCTS,上下文长且冗余;本文用精炼事实做 LLM 前瞻搜索,更高效
- vs Dyna 架构 (Sutton 1990):本文是 Dyna 的 LLM 实现——用事实集替代传统参数化世界模型,用 LLM 仿真做规划
- 启发:原子事实可与符号推理系统结合,或扩展到多 Agent 协作场景中的共享世界知识
- 潜在方向:将原子事实与 RAG 结合,在大规模环境中做分层事实管理
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 原子事实 + LLM 世界模型 + 前瞻搜索的三位一体设计高度原创
- 实验充分度: ⭐⭐⭐⭐ TextFrozenLake 和 ALFWorld 验证充分,但更多复杂环境待测
- 写作质量: ⭐⭐⭐⭐ 理论动机和算法描述清晰,Dyna 类比自然
- 价值: ⭐⭐⭐⭐⭐ 为 LLM Agent 的在线纯上下文学习提供了系统性解决方案