Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search¶

会议: ICML 2025
arXiv: 2506.09171
代码: 待确认
领域: LLM Agent
关键词: LLM Agent, Atomic Facts, Lookahead Search, in-context learning, world model

一句话总结¶

提出 LWM-Planner，从交互轨迹中提取"原子事实"增强 LLM 世界模型模拟，结合递归前瞻搜索实现纯 in-context 的 Agent 规划改进，在 ALFWorld 等任务上显著优于 ReAct 和 Reflexion。

研究背景与动机¶

LLM Agent 规划的核心挑战¶

无法高效利用历史经验（靠整条轨迹塞入上下文效率低）
缺乏显式世界模型来模拟未来状态

现有方法不足¶

ReAct：无跨 episode 学习能力
Reflexion：只产出高层建议，不够结构化
RAP(MCTS)：需要环境交互展开搜索树，代价大

核心洞察¶

LLM 拥有大量关于世界动态的先验知识，如果能从经验中提取简洁的"原子事实"（如"物体 X 在容器 Y 中"），显著提升模拟和规划能力。

方法详解¶

整体框架：LWM-Planner¶

维护短期交互历史 + 长期原子事实集合，通过递归前瞻搜索选择动作。

关键设计 1：原子事实提取¶

每 episode 结束后从轨迹中提取形如"obstacle_at(3,0)"的最小知识单元，加入长期事实库。

关键设计 2：LLM 作为潜在世界模型¶

LLM 同时充当三个角色（均接收原子事实增强）： - Action Proposer：生成候选动作 - World Model：预测下一状态+奖励+终止 - Value Estimator：估计叶节点长期价值

关键设计 3：递归前瞻搜索¶

深度限制 d=3，分支因子 b=4
\(Q(o,a) = r' - \lambda_{step} + \gamma \cdot \hat{V}(o')\)
结果缓存减少重复 LLM 调用，temperature=0 保证确定性

理论动机¶

框架形式化为基于事实的状态抽象 MDP，性能损失由 \(\epsilon_{sim}\)、\(\delta_{model}\)、\(\epsilon_{plan}\) 三误差控制。

实验关键数据¶

主实验（归一化累积回报）¶

方法	TextFrozenLake	CrafterMini	ALFWorld-A	ALFWorld-B	ALFWorld-C
LWM-Planner	100.0	100.0	100.0	100.0	100.0
ReAct + FEC	89.6	99.9	22.0	67.7	54.4
ReAct	-165.7	86.7	59.1	55.9	64.1

步数效率（每次成功所需步数）¶

方法	TextFrozenLake	CrafterMini	ALFWorld-A
LWM-Planner	6.0	46.5	8.4
ReAct + FEC	—	41.4	14.6
ReAct	—	50.7	24.7

关键发现¶

LWM-Planner 在所有环境上达到最高回报且步数接近最优
消融 ReAct+FEC 说明事实提取有效，前瞻搜索进一步提升
完全 in-context learning，无需权重更新
原子事实随 episode 积累，Agent 持续自我改进

亮点与洞察¶

"原子事实"概念精炼优雅：比整条轨迹检索高效，比高层反思更精确。
LLM 同时当 world model + value function + policy 的统一设计。
搜索+经验的组合比纯反思（Reflexion）或纯搜索都更鲁棒。
纯 in-context 学习意味着对新环境的适应完全不需要训练。

局限与展望¶

LLM 推理调用量大，每步多次 LLM 调用成本高。
原子事实质量完全依赖 LLM 反思能力。
实验环境相对简单，更复杂真实环境效果待验证。
事实集合的长期增长管理可能成为瓶颈。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 原子事实 + LLM 世界模型 + 前瞻搜索的三位一体设计高度原创
实验充分度: ⭐⭐⭐⭐ TextFrozenLake 和 ALFWorld 验证充分，但更多复杂环境待测
写作质量: ⭐⭐⭐⭐ 理论动机和算法描述清晰，Dyna 类比自然
价值: ⭐⭐⭐⭐⭐ 为 LLM Agent 的在线纯上下文学习提供了系统性解决方案