UniDomain: Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Task Planning¶
会议: NeurIPS 2025
arXiv: 2507.21545
代码: https://roboticsjtu.github.io/UniDomain/
领域: 机器人 / 任务规划
关键词: PDDL, 任务规划, 机器人操作, 知识蒸馏, 大规模演示学习
一句话总结¶
UniDomain 从 12,393 个真实机器人操作视频中预训练统一的 PDDL 规划域(含 3,137 个算子和 2,875 个谓词),通过层级融合构建元域,实现零样本跨任务符号规划,比最强基线高出 58% 成功率和 160% 计划最优性。
研究背景与动机¶
机器人任务规划需要在自然语言指令和视觉观测中推理隐含约束。例如,"将积木按奇偶分组并升序排列"隐含了拆栈、排序、放置的长程依赖;"泡杯茶"需要开柜子、找茶杯、烧水等一系列前置步骤。这些任务需要对动作前提条件、时序依赖和物理约束进行结构化推理。
现有方法的局限: - LLM/VLM 直接规划(如 Code-as-Policies、ReAct):强大的常识先验,但无法准确建模动作前后条件,长程规划容易出错 - LLM + PDDL 混合方法(如 LLM+P、ISR-LLM):依赖手工制作的 PDDL 域或 LLM 从语言直接生成域,域质量有限 - 从演示学习 PDDL 域:已有工作仅从单个或少量演示学习窄域,需要任务特定先验
核心矛盾:高质量的 PDDL 域是符号规划的关键,但手工制作代价高且泛化受限;LLM 直接生成的域质量不足;从少量演示学习的域覆盖范围太窄。
本文切入角度:借鉴基础模型的"预训练-后训练-推理"范式,从大规模机器人操作数据集(DROID)中预训练通用 PDDL 域,然后通过域融合进行"后训练"以适配特定任务类别。
方法详解¶
整体框架¶
UniDomain 包含三个阶段: 1. 域预训练(Domain Pretraining):从视频演示中提取原子域,构建统一域 2. 域融合(Domain Fusion):检索相关原子域,层级融合为元域 3. 在线规划(Online Planning):用元域构建 PDDL 问题并求解
关键设计¶
-
基于能量的关键帧提取:提出了一种简单高效的无域关键帧提取方法。计算灰度帧的像素能量 \(E(I_t) = \sum_{i,j} I_t(i,j)^2\),通过滑动窗口检测能量序列的局部极值来选取关键帧。相比基于 CLIP/SigLIP 嵌入的方法,处理速度从 47.8 秒/视频降至 0.6 秒/视频,且准确率更高(28% vs 15% 的单次成功率)。
-
闭环原子域生成:给定关键帧序列和任务指令,VLM 推断每个帧转换的算子(前提条件和效果),LLM 进行整体修订确保语法正确和谓词一致性。然后进行两层嵌套验证:
- 可解性检查:LLM 生成 K=5 个测试问题,PDDL求解器检查是否可解,可解性分数 \(S(D_r) = \frac{1}{K}\sum_k \mathbb{I}[\text{solver solves } P_k]\),阈值 θ=0.6
- 解验证:另一个 LLM 检查最难测试问题的解是否符合物理和常识约束 两层检查迭代最多 L=5 次。
-
层级二叉树域融合:将检索到的原子域沿二叉树递归合并。每次融合两步:
- 谓词合并:计算语义嵌入的余弦相似度(阈值 τ_p=0.3),LLM 验证语义等价性后合并
- 算子合并:类似地计算名称嵌入相似度(阈值 τ_o=0.3),合并功能等价的算子,继承前提条件和效果的并集
层级融合避免了直接 LLM 合并的结构错误问题。
- 任务相关过滤:在线规划时,先用 VLM 生成初始 PDDL 问题提取相关谓词集 P₀,再根据 P₀ 从元域中提取相关算子 O' = O_pre ∪ O_eff,构建紧凑域 D_new 进行规划。
损失函数 / 训练策略¶
本文不涉及传统神经网络训练。核心的"训练"是通过 LLM/VLM 的闭环验证来迭代优化 PDDL 域的质量。评估指标包括:可解性分数 S(D)、方案验证通过率、以及下游任务成功率。
实验关键数据¶
主实验¶
| 方法 | 类型 | 成功率(SR)↑ | SPL↑ | OR(K=0)↑ |
|---|---|---|---|---|
| Code-as-Policies | LLM直接 | 51% | - | 低 |
| ReAct | LLM+反馈 | 较高 | - | 低 |
| VLM-CoT | VLM | 中等 | - | 中等 |
| ISR-LLM | LLM+PDDL | 最高(基线中) | - | 低 |
| BoN-iVML | LLM+PDDL | 中等 | - | 中等 |
| UniDomain | 预训练域+PDDL | 85% | 最高 | 83% |
UniDomain 比最强基线高 58% 成功率,160% 计划最优性提升。83% 的任务中产生了最优计划。
消融实验¶
| 消融配置 | 成功率 | 关键观察 |
|---|---|---|
| 完整 UniDomain | 85% | 最佳性能 |
| w/o 闭环验证 (w/o CL) | 显著下降 | 单次 LLM 生成域质量差 |
| w/o 域融合 | 19% | 单个原子域无法组合泛化 |
| w/o 结构化融合 | 0% (语法错误) | 直接 LLM 合并完全失败 |
| w/o 谓词分组 | 下降(尤其组合域) | LLM 难以理解扁平谓词列表 |
| w/o 算子过滤 | 下降(尤其积木域) | 无关符号干扰长程推理 |
关键发现¶
- 预训练统一域 + 域融合 + 在线过滤的三阶段流水线至关重要,每个阶段移除都导致显著性能下降
- 基于能量的关键帧提取比基于视觉模型的方法快 80 倍且更准确
- 直接 LLM 合并多个域会产生结构错误,层级融合是必要的
- 83% 的任务通过组合已学算子产生最优计划,展现了强大的组合泛化能力
- UniDomain 的 LLM 调用次数和思考时间均为最优方法中最低
亮点与洞察¶
- 领域首创:首个从大规模真实演示预训练通用 PDDL 域的框架,类比 LLM 的预训练范式
- 设计巧妙的闭环验证:用 PDDL 求解器本身作为域质量的验证器,无需人类反馈
- 组合泛化:通过连接独立的操作行为(如 pick、pour、stir),解决复合长程任务
- 实用性强:生成的计划可直接转化为自然语言指令输入 VLA 模型执行
局限与展望¶
- 自动检索的原子域可能冗余,元域构建耗时
- 仅支持 PDDL 1.0,缺少时序约束、数值流和代价敏感规划
- 实验假设完全可观测,未处理遮挡和感知噪声
- 评估使用人类遥操作作为低级控制,未端到端验证完整机器人系统
- 关键帧提取基于简单像素能量,可能遗漏语义上重要的细微变化
相关工作与启发¶
UniDomain 巧妙地将 LLM 时代的预训练-后训练-推理范式引入符号规划领域。与 ISR-LLM 和 NL2Plan 等从语言直接生成域的方法不同,UniDomain 从视觉演示中获取接地的操作知识。与 BLADE 等从单一演示学习窄域的方法不同,UniDomain 从大规模数据中学习覆盖广泛任务空间的统一域。域融合方法类似于知识图谱合并,但专门针对 PDDL 的结构化特性设计。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首创从大规模演示预训练 PDDL 域的范式,视角独到
- 实验充分度: ⭐⭐⭐⭐ 100个真实任务评估+充分消融,但缺少端到端机器人验证
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,三阶段结构易于理解
- 价值: ⭐⭐⭐⭐⭐ 为机器人任务规划提供了可扩展的新范式,实际意义重大