ICLR 2026 机器人场景图具身任务规划移动操作空间-功能关系强化学习 Graph-then-Plan

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Models for Embodied Task Planning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=3eTr9dGwJv
项目主页: https://HybridRobotics.github.io/MomaGraph/
代码: 待确认
领域: 机器人 / 具身智能、场景图、视觉语言模型
关键词: 场景图、具身任务规划、移动操作、空间-功能关系、强化学习、Graph-then-Plan

一句话总结¶

MomaGraph 把空间关系、功能关系和部件级交互节点统一进一张任务导向的场景图，并用强化学习训练一个 7B VLM 先"画图"再"规划"，在自建基准上以 71.6% 准确率超过最强基线 11.4 个点。

研究背景与动机¶

领域现状：家用移动操作机器人既要导航又要操作，需要一种紧凑、语义丰富的场景表示来回答"物体在哪、怎么用、哪些部件能动"。场景图（scene graph）天然适合这个任务，已在导航、操作、空间智能等下游任务中展现潜力。

现有痛点：作者指出已有场景图有三处硬伤。其一，边只编码单一类型关系——要么纯空间（几何布局），要么纯功能（遥控器控制电视、旋钮调参数）；只看空间忽略了可操作性，只看功能又丢了空间约束，导致表示不完整、不可执行。其二，多数方法只建模静态快照，无法适应物体位置或状态变化的动态环境。其三，缺乏任务相关性，不区分哪些信息对当前任务真正有用，规划效率低下。

核心矛盾：认知科学表明人类在新环境里的感知是动态且任务导向的——像在 iPad 上看地图，先粗看定位再放大看细节，而现有场景图把所有信息一视同仁、且彼此割裂。如何让一张图同时兼顾"空间布局 + 功能可操作性 + 部件粒度 + 任务对齐 + 状态更新"，是核心矛盾。

本文目标：构造一种统一空间-功能关系、含部件级交互节点、紧凑、可随交互动态更新、且高度对齐任务指令的场景表示，并据此完成具身任务规划。

核心idea： - 统一场景图表示：首次把空间关系与功能关系合并到同一张图，并引入部件级（handle/knob/button）交互节点，产出更细粒度、紧凑、任务相关的结构。 - Graph-then-Plan 范式：让单个 VLM 先生成任务导向场景图作为中间结构表示，再基于该图做高层规划，提升推理可靠性与可解释性。 - RL 训练 + 图对齐奖励：用强化学习（DAPO）配合专门设计的图对齐奖励，教 VLM 主动"探索-推理"出准确的任务导向图，而非死记模板。

方法详解¶

整体框架¶

给定一组多视角图像 \(\{I_i\}_{i=1}^n\) 和自然语言指令 \(T\)，MomaGraph 要构造一张指令条件下的任务导向场景图 \(G_T=(N_T, E^T_s, E^T_f)\)：\(N_T\) 是与任务 \(T\) 相关的物体节点（必要时含部件级交互节点），\(E^T_s\) 编码空间关系，\(E^T_f\) 编码功能关系，两类边都是从"触发物体"指向"被影响物体"的有向边。整条管线分三步：先用 RL 训练好的 7B VLM（MomaGraph-R1）从多视角观测预测这张图，再以图为中间表示做 Graph-then-Plan 规划，最后在执行过程中根据观测到的状态变化动态更新图。

flowchart LR
    A[多视角图像 + 指令 T] --> B[MomaGraph-R1<br/>7B VLM]
    B --> C[任务导向场景图 G_T<br/>节点+空间边+功能边]
    C --> D[Graph-then-Plan<br/>高层任务规划]
    D --> E[执行动作 a_t]
    E --> F[观测新状态 s_t+1]
    F --> G[状态感知动态更新 U·<br/>剪枝错误假设/确认对应]
    G --> C

关键设计¶

1. 统一空间-功能任务导向场景图：把"在哪"和"怎么用"放进同一张图。 MomaGraph 的核心是节点不再只是粗粒度物体，而是按任务 \(T\) 选出最小够用的相关物体，并在需要交互特定部件时纳入 handle/knob/button 等部件级节点（如"开冰箱"既含 fridge 又含其 handle）。边同时承载两套语义：功能关系定义为"一个物体改变另一个物体状态的能力"，划分为 [OPEN OR CLOSE]、[ADJUST]、[CONTROL]、[ACTIVATE]、[POWER BY]、[PAIR WITH] 共 6 类（其中 [PAIR WITH] 不改内部状态而改空间构型，专为装配任务设计）；空间关系含方向型（左/右/前/后/高/低）与距离型（近/远/接触）共 9 类。指令本身刻意不点名所有相关物体（如"装满浴缸"需模型自己推断出浴缸、水龙头、按钮），迫使模型学会把自然语言落地到正确的物体与关系集合上，而非依赖物体名被显式给出。

2. 强化学习 + 图对齐奖励：用结果反馈教 VLM "画对图"。 开源 VLM 直接生成准确任务图能力有限，作者用 DAPO 算法在 MomaGraph-Scenes 上训练 Qwen2.5-VL-7B-Instruct，关键是设计了三段式图对齐奖励 \(R(G^{pred}_T, G^{gt}_T)\)。动作类型项确保预测对动作 \(R_{action}=\mathbb{I}[a^{pred}=a^{gt}]\)；边的空间-功能整合项以语义相似度对齐预测边与真值边 \(R_{edges}=\frac{1}{|E^T_{gt}|}\sum_{e_j\in E^T_{gt}}\max_{e_i\in E^T_{pred}}S_{edge}(e_i,e_j)\)，其中 \(S_{edge}\) 同时看空间和功能标签的相似度；节点完整性项用 IoU 衡量任务相关节点集合的重合度 \(R_{nodes}=\frac{|N^{pred}_T\cap N^{gt}_T|}{|N^{pred}_T\cup N^{gt}_T|}\)。最终奖励再叠加 JSON 格式校验 \(R_{format}\) 与长度惩罚 \(R_{length}\)：\(R=w_a\cdot(R_{action}+R_{edges}+R_{nodes})+w_f\cdot R_{format}+w_l\cdot R_{length}\)。这套奖励把"图必须同时抓住空间布局、功能关系并紧扣任务需求"这一核心洞察直接编码进训练信号，RL 的探索-迭代特性让模型发现构图策略而非复刻记忆模式。

3. 状态感知动态更新：让一对多的歧义边随交互收敛成唯一对应。 真实环境里同类物体常并存且功能对应初始不确定——一个灶台有多个旋钮，但只有一个控制当前任务所需的火头，靠外观无法判定。作者不关心交互策略本身，而专注于把观测到的状态变化吸收进图来消歧。时刻 \(t\) 的图 \(G^{(t)}_T=(N^{(t)}_T, E^{T,(t)}_s, E^{T,(t)}_f)\) 中功能边可能含一对多的假设映射；当智能体执行动作 \(a_t\)、观测到新状态 \(s_{t+1}\) 后，更新函数 \(G^{(t+1)}_T=U(G^{(t)}_T, a_t, s_{t+1})\) 会剔除不一致假设、强化已确认对应。例如转动某个旋钮点燃了火头而其他无效，那条旋钮→火头的 [control] 边被确立，其余旋钮的边被剪枝，从而把模糊的一对多假设演化成紧凑、状态感知、唯一可靠的对应关系。

实验关键数据¶

主实验表格（MomaGraph-Bench 各 Tier 准确率 %，w/ Graph 设置）¶

类型	模型	T1	T2	T3	T4	Overall
闭源	Claude-4.5-Sonnet	83.7	70.3	72.3	69.5	73.9
闭源	GPT-5	79.8	68.2	75.0	63.6	71.6
闭源	Gemini-2.5-Pro	79.0	69.5	72.7	65.2	71.6
开源	DeepSeek-VL2 (4.5B)	56.9	53.6	61.3	45.4	54.3
开源	MomaGraph-R1 (7B)	76.4	71.9	70.1	68.1	71.6

MomaGraph-R1 以 7B 规模在开源模型中达到 SOTA，Overall 71.6%（比最好基线 +11.4），追平甚至接近 GPT-5、Gemini-2.5-Pro 等闭源大模型。全表所有模型在 w/ Graph 设置下都优于 w/o Graph，验证 Graph-then-Plan 的普适收益。

消融实验表格（统一 vs 单一关系，Overall %）¶

模型	空间-only	功能-only	统一(Unified)
MomaGraph-R1	59.9	64.9	71.6
LLaVA-Onevision	54.0	57.0	66.0

在固定图拓扑、只限制边类型的公平对比下，统一空间-功能表示在两个不同基座上都显著优于任一单一关系变体（MomaGraph-R1 上统一比功能-only +6.7、比空间-only +11.7），证明"统一表示"而非"某一特定架构"是性能来源。

关键发现¶

Graph-then-Plan 普遍有效：即便强如 GPT-5 直接规划也会漏前置步骤（如忘了"先插电再开机""先过滤再煮水"），先生成结构化图再规划能稳定产出与真值逻辑一致的完整动作序列。
单一关系图不够用：只空间或只功能都不足以支撑具身规划，必须统一建模。
RL > 模仿：DAPO + 图对齐奖励让 7B 开源模型获得跨环境、跨任务配置的鲁棒泛化，并迁移到真实机器人实验。
数据集 MomaGraph-Scenes 含约 1,050 个任务子图、6,278 张多视角图、覆盖 350+ 家庭场景与 93 条指令；基准 MomaGraph-Bench 含 294 个室内场景、352 个任务图、1,446 张图，按 6 种推理能力 × 4 个难度 Tier 组织，全部来自未见环境以测真泛化。

亮点与洞察¶

把割裂的两套图统一是真正的概念性贡献：空间 + 功能 + 部件级节点三合一，让场景图第一次"既知道东西在哪，又知道东西怎么用，还知道哪个零件能动"，直接对齐了移动操作"导航 + 操作"的双重需求。
Graph-then-Plan 的解耦思想漂亮：把"理解场景"和"生成动作"拆成两步，用显式中间结构提升可靠性与可解释性，且让单个 VLM 同时承担构图与规划，避免了 SayPlan 等方法假设已有可靠 3D 图的不现实前提。
状态感知动态更新抓住了现实痛点——多个同类物体的功能歧义只能靠交互反馈消解，把"试错-剪枝"形式化进图更新函数，思路简洁且贴近机器人闭环。
数据 + 基准 + 模型一条龙：补齐了该方向长期缺失的数据与评测基础设施，6 能力 × 4 Tier 的基准设计对后续工作有参考价值。

局限与展望¶

不涉及底层交互策略：状态更新依赖"动作已执行 + 状态被正确观测"，论文明确不管 manipulation policy 本身，真实部署中观测噪声、动作失败如何反馈进图更新仍是开口。
数据规模偏小：约 1,050 个子图、93 条指令，且部分来自 AI2-THOR 仿真与再标注数据，指令多样性与真实场景覆盖仍有限。
基准为多选 VQA 形式：用 multiple-choice 评估规划与场景理解便于打分，但与开放式真实规划之间仍有 gap，刷分能力未必等价于闭环执行能力。
状态更新函数 \(U(\cdot)\) 的实现细节（如何判定一致/不一致、置信度如何累积）在正文较简略，鲁棒性与可扩展性待进一步验证。

评分¶

新颖性: ⭐⭐⭐⭐ — 统一空间-功能 + 部件节点 + 状态感知更新的场景图表示是清晰的概念性创新，Graph-then-Plan 让单 VLM 联合构图与规划也有新意；不过场景图、graph-then-plan、RL 训练 VLM 各自都有先例，更多是巧妙整合。
实验充分度: ⭐⭐⭐⭐ — 自建数据 + 基准 + 闭源/开源多基线对比 + 单一/统一关系消融 + 真机迁移，证据链完整；扣分在数据规模偏小、基准为多选 VQA 形式、状态更新模块的独立消融较薄。
写作质量: ⭐⭐⭐⭐ — 动机用认知科学类比讲得清楚，三处痛点-三处设计对应工整，公式与定义规范；部分实现细节（更新函数 \(U\)）偏简。
价值: ⭐⭐⭐⭐ — 补齐了统一场景图的数据/基准/模型基础设施，7B 开源追平闭源大模型且能上真机，对具身规划社区实用价值高。