Experience-based Knowledge Correction for Robust Planning in Minecraft¶
会议: ICLR 2026
arXiv: 2505.24157
代码: 无
领域: 机器人
关键词: LLM planning, knowledge correction, Minecraft, embodied agent, self-correction failure
一句话总结¶
证明 LLM 无法通过 prompting 自我纠正其错误的规划先验知识(物品依赖关系),提出 XENON——通过算法化的知识管理(自适应依赖图 ADG + 失败感知动作记忆 FAM)从二值反馈中学习,使 7B LLM 在 Minecraft 长期规划中超越使用 GPT-4V + oracle 知识的 SOTA。
研究背景与动机¶
领域现状:LLM 驱动的 Agent 在 Minecraft 等长期规划任务中需要准确的物品依赖知识(如钻石镐需要钻石+木棍),但 LLM 的参数化知识常有错误。
现有痛点:自我纠正(self-correction)——即用 prompt 让 LLM 反思并修正知识——在参数化知识错误上无效。LLM 会反复犯同样的错误,因为错误编码在权重中,prompt 无法改变。
核心矛盾:LLM 的语言理解能力强但事实知识不可靠,需要外部机制而非 prompting 来纠正知识。
本文目标 如何在仅有二值反馈(成功/失败)的情况下,算法化地修正 LLM 的规划知识?
切入角度:将知识纠正从"让 LLM 自己修正"转为"用算法修改外部知识库"。
核心 idea:算法化知识管理(用成功经验修正依赖图 + 用失败经验过滤无效动作)优于 LLM 自我纠正。
方法详解¶
整体框架¶
XENON = Adaptive Dependency Graph (ADG) + Failure-Aware Action Memory (FAM) + Context-aware Reprompting (CRe)。ADG 学习物品依赖关系,FAM 学习有效/无效动作,CRe 帮助低层控制器脱离卡住状态。
关键设计¶
-
自适应依赖图 (ADG):
- 功能:从成功经验中修正 LLM 的错误物品依赖关系。
- 核心算法——RevisionByAnalogy:当 agent 成功获取物品 X 时,观察其背包物品集合,与已知依赖对比,通过类比推理修正/确认依赖边。
- 对 hallucinated 物品:RevisionByAnalogy 能通过实际经验识别不存在的物品并从图中移除。
- 效果:400 轮后 Mineflayer 上准确率达 ~0.90。
-
失败感知动作记忆 (FAM):
- 功能:从二值反馈中学习哪些动作有效/无效。
- 核心思路:每个动作维护成功/失败计数,超过阈值后分类为"经验有效"或"经验无效"。
- 无效动作在后续规划中被过滤,防止重复失败。
-
Context-aware Reprompting (CRe):
- 功能:当控制器(如 STEVE-1)在执行中卡住时重新 prompt。
- 检测环境状态停滞后主动中断并重新规划。
实验关键数据¶
长期规划成功率(学习知识 vs oracle)¶
| 目标类型 | Oracle 知识 SR | 学习知识 SR |
|---|---|---|
| Gold items | 0.83 | 0.74 |
| Diamond items | 0.82 | 0.64 |
| Redstone items | 0.75 | 0.28 |
| 总体 | 0.80 | 0.54 |
依赖学习准确率(EGA)¶
| 平台 | 400 轮后 |
|---|---|
| MineRL | ~0.60 |
| Mineflayer | ~0.90 |
模型对比¶
- 7B Qwen2.5-VL + XENON > Optimus-1 (GPT-4V + oracle) 在多个目标类别上。
关键发现¶
- 准确的依赖知识是成功规划的关键——oracle 知识达 0.75 SR 的 Redstone,学习知识降至 0.00(controller 能力限制)。
- XENON 对 LLM 生成的幻觉物品具有鲁棒性(通过 RevisionByAnalogy 识别并移除)。
- LLM 自我纠正(通过 prompting)在所有基线中均失败——无法修正参数化知识错误。
亮点与洞察¶
- "LLM 不能自我纠正参数化知识"的实证:这一发现对 LLM Agent 设计有重要启示——不要依赖 prompt-based self-correction 来修正事实知识。
- 算法 > Prompting 的范式:当问题的本质是知识错误而非推理错误时,算法化修正(外部记忆+统计更新)远优于自然语言反思。
- 小模型 + 好知识管理 > 大模型 + 差知识:7B 模型 + XENON 打败 GPT-4V + oracle,说明知识管理策略比模型规模更重要。
局限与展望¶
- 性能受底层控制器能力限制——STEVE-1 无法执行某些复杂动作导致 Redstone 类完全失败。
- RevisionByAnalogy 有多个超参数需调优。
- 仅在 Minecraft 验证(附录有家务任务初步实验)。
- 假设依赖关系形成 DAG(无环)。
相关工作与启发¶
- vs Optimus-1:用 GPT-4V + oracle 依赖,XENON 用 7B + 学习依赖在多类别上更优。
- vs Voyager/DEPS:使用 LLM prompting 的 Minecraft agent,但不修正知识错误。
评分¶
- 新颖性: ⭐⭐⭐⭐ "算法替代自我纠正"的理念新颖且有力
- 实验充分度: ⭐⭐⭐⭐ 多平台 × 多目标类型 × 详细消融
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰
- 价值: ⭐⭐⭐⭐ 对 LLM Agent 知识管理有重要范式启示