Learning Interactive World Model for Object-Centric Reinforcement Learning¶
会议: NeurIPS 2025
arXiv: 2511.02225
代码: 无
领域: Reinforcement Learning
关键词: world model, Object-Centric RL, Interaction Learning, Hierarchical Policy, Compositional Generalization
一句话总结¶
提出 FIOC-WM,通过对象级和属性级的两层分解学习世界模型中的物体交互结构,并基于交互原语训练层级策略,在多个机器人控制任务上实现了更高效的策略学习和组合泛化能力。
研究背景与动机¶
现有的强化学习世界模型从高维观测中学习状态抽象与动力学,但大多将场景整体编码为单一潜在向量,缺乏关于物体及其交互的结构化建模。尽管 Object-Centric RL 将状态分解为独立的物体表示,但交互关系仍然是隐式的——模型无法显式知道哪些物体在何时发生了交互。
真实环境中,碰撞、堆叠、摩擦等物体交互是动力学演化的核心驱动因素。如果能显式建模交互,不仅能提高预测精度,还能将长时任务分解为一系列交互原语,从而实现更高效的规划与控制。此外,每个物体的状态可以进一步分解为静态属性(颜色、形状)和动态变量(位置、速度),这种分解能减少冗余并聚焦于控制所需的最小充分信息。
论文的核心问题是:哪种类型和程度的分解结构才能使潜在表示对高效且可泛化的策略学习最为有效? 答案是需要同时建模物体级交互和属性级分解。
方法详解¶
整体框架¶
FIOC-WM 分为两个阶段: 1. 离线模型学习:从预训练视觉特征中学习物体中心的潜在表示,分离静态/动态属性,建模交互图,并训练低级交互策略 2. 在线层级策略学习:高级策略选择交互图序列,低级策略执行对应的交互
关键设计¶
-
Factored Interactive Object-Centric POMDP (FIOC-POMDP):
- 将每个物体 \(i\) 的状态分解为动态变量 \(\mathbf{d}_t^i\)(位置、速度)和静态属性 \(\mathbf{c}^i\)(颜色、质量)
- 引入时变交互图 \(G_t\) 建模物体间的交互,每条边表示两个物体在该时刻存在交互
- 状态转移分为自转移 \(f_{\text{self}}\)(物体自身演化)和交互转移 \(f_{\text{inter}}\)(物体间影响),交互只改变动态变量
- 转移公式:\(\mathbf{d}_{t+1}^i = f_{\text{self}}(\mathbf{d}_t^i, \mathbf{c}^i, \mathbf{a}_t) + \sum_{j \in \mathcal{N}_t(i)} f_{\text{inter}}(\mathbf{d}_t^i, \mathbf{d}_t^j, \mathbf{c}^j)\)
-
两层分解的潜在表示学习:
- 使用预训练视觉编码器(DINO-v2/R3M)提取特征,再通过 Slot Attention 聚类得到物体级表示
- 通过 VAE 将 slot 表示映射为潜在状态,由两个编码器分别提取静态特征 \(f_c\) 和动态特征 \(f_d\)
- 静态特征用时间一致性损失 \(\mathcal{L}_{\text{static}}\) 约束跨时步不变,用对比损失 \(\mathcal{L}_{\text{con}}\) 确保不同物体的静态属性可区分
- 动态特征用 GRU 建模时间演化,通过交互图 \(G_t\) 条件化的先验分布建模动力学
-
交互图学习:
- 引入代理潜变量 \(\mathbf{u}_t\) 参数化交互图的分布
- 对每对物体 \((i,j)\),用 GRU 编码它们的潜在状态得到 pairwise embedding \(\mathbf{u}_t^{ij}\)
- 交互结构通过变分掩码(可微分类别分布采样)或条件独立性检验两种方式学习
损失函数 / 训练策略¶
离线阶段的总损失包括: - 重建损失 \(\mathcal{L}_{\text{recon}}\):重建当前观测 - 预测损失 \(\mathcal{L}_{\text{pred}}\):预测下一步观测 - KL 散度 \(\mathcal{L}_{\text{KL}}\):对齐后验与先验 - 奖励损失 \(\mathcal{L}_{\text{rew}}\):预测奖励 - 静态损失 \(\mathcal{L}_{\text{static}}\) + 对比损失 \(\mathcal{L}_{\text{con}}\):属性分解
层级策略:高级策略选择目标交互图 \(G_t^g\),低级策略 \(\pi^l(\mathbf{a}_t | \mathbf{s}_t, G_t^g)\) 通过 MPC 或 PPO 执行交互。高级策略使用任务奖励和多样性奖励 \(r_{\text{div}} = 1/\sqrt{|G_{\text{visited}}|}\) 联合优化。
实验关键数据¶
主实验¶
| 环境 | 泛化类型 | FIOC | DreamerV3 | EIT | TD-MPC2 |
|---|---|---|---|---|---|
| i-Gibson | 属性泛化 | 0.79 | 0.62 | 0.70 | 0.65 |
| Libero | 属性泛化 | 0.76 | 0.59 | 0.73 | 0.69 |
| Push&Switch | 组合泛化 | 0.86 | 0.81 | 0.83 | 0.79 |
| Libero | 组合泛化 | 0.70 | 0.58 | 0.65 | 0.63 |
| Franka Kitchen | 技能泛化 | 0.73 | 0.59 | 0.65 | 0.62 |
消融实验¶
| 配置 | 单任务成功率 | 组合泛化 | 说明 |
|---|---|---|---|
| FIOC (完整) | 0.81 | 0.70 | 基线 |
| w/o 属性分解 | 0.77 (↓0.04) | 0.64 (↓0.06) | 不分离静态/动态 |
| w/o 交互建模 | 0.63 (↓0.18) | 0.52 (↓0.18) | 使用全连接图 |
| w/o 层级策略 | 0.58 (↓0.23) | 0.42 (↓0.28) | 影响最大 |
| w/o 预训练 \(\pi^l\) | 0.69 (↓0.12) | 0.59 (↓0.11) | 低级在线从头学 |
| w/o 多样性奖励 | 0.62 (↓0.19) | 0.50 (↓0.20) | 去掉探索鼓励 |
关键发现¶
- 交互建模和层级策略是最关键的两个组件,去除后性能下降最大
- FIOC 在泛化任务上始终优于所有基线,泛化 gap 最小
- 变分掩码(类别分布)在物体数量较多时表现最好
- 属性分解改善了静态特征的表示质量(线性探测 MSE 最低)
亮点与洞察¶
- 两层分解的设计精巧:物体级分解处理"谁和谁交互",属性级分解处理"什么在变化",两者互补
- 交互即技能的理念很有启发性:将长时任务分解为交互原语序列,自然地实现了任务的组合分解
- 利用预训练视觉特征作为观测的代理,既利用了丰富语义又保持了结构化建模
局限与展望¶
- 依赖预训练的物体发现模型(Slot Attention),无法自动处理未知类别的物体
- 交互模型主要对已见物体类别泛化,对全新类别的泛化未验证
- 仅在仿真环境中验证,未涉及真实机器人场景
- 高级策略的动作空间(交互图选择)随物体数增长可能面临扩展性挑战
相关工作与启发¶
- 继承了 Factored RL 和 Object-Centric RL 两条线的优势,通过世界模型统一了表示学习、交互建模和策略学习
- 与 Generative Agents 类似的"感知→反思→规划"范式,但在连续控制场景下通过结构化潜在空间实现
- 对于需要多物体操作的长时机器人任务(厨房、仓库拣选),交互原语的组合方式值得探索
评分¶
- 新颖性: ⭐⭐⭐⭐ — 两层分解+交互图世界模型是较新的联合框架
- 实验充分度: ⭐⭐⭐⭐ — 多环境+全面消融+泛化测试
- 写作质量: ⭐⭐⭐⭐ — 公式化清晰,框架图直观
- 价值: ⭐⭐⭐⭐ — 对 Object-Centric RL 有实质推进