Experience-based Knowledge Correction for Robust Planning in Minecraft¶

会议: ICLR 2026
arXiv: 2505.24157
代码: 无
领域: 机器人
关键词: LLM planning, knowledge correction, Minecraft, embodied agent, self-correction failure

一句话总结¶

证明 LLM 无法通过 prompting 自我纠正其错误的规划先验知识（物品依赖关系），提出 XENON——通过算法化的知识管理（自适应依赖图 ADG + 失败感知动作记忆 FAM）从二值反馈中学习，使 7B LLM 在 Minecraft 长期规划中超越使用 GPT-4V + oracle 知识的 SOTA。

研究背景与动机¶

领域现状：LLM 驱动的 Agent 在 Minecraft 等长期规划任务中需要准确的物品依赖知识（如钻石镐需要钻石+木棍），但 LLM 的参数化知识常有错误。

现有痛点：自我纠正（self-correction）——即用 prompt 让 LLM 反思并修正知识——在参数化知识错误上无效。LLM 会反复犯同样的错误，因为错误编码在权重中，prompt 无法改变。

核心矛盾：LLM 的语言理解能力强但事实知识不可靠，需要外部机制而非 prompting 来纠正知识。

本文目标 如何在仅有二值反馈（成功/失败）的情况下，算法化地修正 LLM 的规划知识？

切入角度：将知识纠正从"让 LLM 自己修正"转为"用算法修改外部知识库"。

核心 idea：算法化知识管理（用成功经验修正依赖图 + 用失败经验过滤无效动作）优于 LLM 自我纠正。

方法详解¶

整体框架¶

XENON = Adaptive Dependency Graph (ADG) + Failure-Aware Action Memory (FAM) + Context-aware Reprompting (CRe)。ADG 学习物品依赖关系，FAM 学习有效/无效动作，CRe 帮助低层控制器脱离卡住状态。

关键设计¶

自适应依赖图 (ADG)：
- 功能：从成功经验中修正 LLM 的错误物品依赖关系。
- 核心算法——RevisionByAnalogy：当 agent 成功获取物品 X 时，观察其背包物品集合，与已知依赖对比，通过类比推理修正/确认依赖边。
- 对 hallucinated 物品：RevisionByAnalogy 能通过实际经验识别不存在的物品并从图中移除。
- 效果：400 轮后 Mineflayer 上准确率达 ~0.90。
失败感知动作记忆 (FAM)：
- 功能：从二值反馈中学习哪些动作有效/无效。
- 核心思路：每个动作维护成功/失败计数，超过阈值后分类为"经验有效"或"经验无效"。
- 无效动作在后续规划中被过滤，防止重复失败。
Context-aware Reprompting (CRe)：
- 功能：当控制器（如 STEVE-1）在执行中卡住时重新 prompt。
- 检测环境状态停滞后主动中断并重新规划。

实验关键数据¶

长期规划成功率（学习知识 vs oracle）¶

目标类型	Oracle 知识 SR	学习知识 SR
Gold items	0.83	0.74
Diamond items	0.82	0.64
Redstone items	0.75	0.28
总体	0.80	0.54

依赖学习准确率（EGA）¶

平台	400 轮后
MineRL	~0.60
Mineflayer	~0.90

模型对比¶

7B Qwen2.5-VL + XENON > Optimus-1 (GPT-4V + oracle) 在多个目标类别上。

关键发现¶

准确的依赖知识是成功规划的关键——oracle 知识达 0.75 SR 的 Redstone，学习知识降至 0.00（controller 能力限制）。
XENON 对 LLM 生成的幻觉物品具有鲁棒性（通过 RevisionByAnalogy 识别并移除）。
LLM 自我纠正（通过 prompting）在所有基线中均失败——无法修正参数化知识错误。

亮点与洞察¶

"LLM 不能自我纠正参数化知识"的实证：这一发现对 LLM Agent 设计有重要启示——不要依赖 prompt-based self-correction 来修正事实知识。
算法 > Prompting 的范式：当问题的本质是知识错误而非推理错误时，算法化修正（外部记忆+统计更新）远优于自然语言反思。
小模型 + 好知识管理 > 大模型 + 差知识：7B 模型 + XENON 打败 GPT-4V + oracle，说明知识管理策略比模型规模更重要。

局限与展望¶

性能受底层控制器能力限制——STEVE-1 无法执行某些复杂动作导致 Redstone 类完全失败。
RevisionByAnalogy 有多个超参数需调优。
仅在 Minecraft 验证（附录有家务任务初步实验）。
假设依赖关系形成 DAG（无环）。

评分¶

新颖性: ⭐⭐⭐⭐ "算法替代自我纠正"的理念新颖且有力
实验充分度: ⭐⭐⭐⭐ 多平台 × 多目标类型 × 详细消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰
价值: ⭐⭐⭐⭐ 对 LLM Agent 知识管理有重要范式启示