3D-aware Disentangled Representation for Compositional Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GE0IFoDx8a
代码: 待确认
领域: 强化学习 / 物体中心表示
关键词: object-centric representation, 3D disentanglement, block-slot attention, goal-conditioned RL, compositional generalization

一句话总结¶

把"物体属性 → 离散 block"的结构化分解从 2D 搬到 3D 多视角空间，再用 block 级 cross-attention 的策略网络做目标条件强化学习，让机器人在没见过的属性组合、未见视角下仍能稳定地把物体推到目标位置。

研究背景与动机¶

领域现状：视觉强化学习里，物体中心表示（object-centric representation, OCR）是公认的"提效利器"——把一张图分解成一个个物体 slot，每个 slot 携带颜色、形状、大小、位置等属性，策略就能按物体粒度推理，样本效率和泛化性都比直接吃原始像素好。SysBinder 进一步把每个 slot 拆成若干 "block"，每个 block 绑定一类属性，实现了无监督的属性级分解。

现有痛点：这些方法绝大多数活在 2D 单视角里，带来两个硬伤。其一是3D 感知缺失——基于单张 2D 特征图或 UV 网格解码的 slot attention，没法可靠推断深度、遮挡、多视角一致性和物体的完整 3D 位姿，一旦环境里有遮挡或视角变化就崩。其二是物体描述不精确——无监督训练出来的 slot 常常对应 2D 特征图上的聚类（一块颜色、一片纹理），不保证每个 slot 真的就是一个可被机器人独立操纵的物理物体，属性的可操纵性很模糊。

核心矛盾：物体配置与相机位姿在 2D 投影里纠缠在一起，想在 3D 里做干净的物体中心分解，就必须先把"物体本身的属性"和"我从哪个角度看它"解耦开，而单视角表示天然做不到这件事。

本文目标：构造一个视角无关的 3D 结构化表示，把物体的形状/颜色/大小/3D 位置稳定地分解到固定的 block 上，再让策略直接吃这种分解后的表示，从而在新属性组合、未见视角的目标条件操纵任务上都能泛化。

核心 idea：【3D + 结构化分解】 用多视角 Transformer（SRT/OSRT）把场景抬升到 3D 光场表示解决视角纠缠，再在物体 slot 上叠加 block-slot attention 做属性级分解，最后用 【block 级目标匹配】 的 block transformer 策略——先按语义属性做 Hungarian 匹配、再在 block 粒度做 cross-attention——把目标条件规划的搜索空间压下来。

方法详解¶

整体框架¶

方法分两段：先预训练 3D block-slot 编码器学一个视角无关、属性可分解的场景表示，再训练 block transformer 策略把这套结构化表示喂给目标条件 RL。编码器用 SRT/OSRT 的多视角 Transformer 聚合多张图得到场景隐特征，经增强版 slot attention 分出背景/智能体/物体三类 slot，物体 slot 再拆成属性 block，由 slot-mixer 光场解码器在任意 query 视角下重建图像（novel view synthesis）训练；策略阶段则用预训练编码器抽取当前态与目标态的 block 表示，做 block 级匹配与 cross-attention 后输出动作与 Q 值。

flowchart TD
    A[多视角图像 I_i] --> B[SRT/OSRT 编码器 E_θ<br/>场景隐特征 F]
    B --> C[增强 slot attention]
    C --> D[背景 slot z_bg]
    C --> E[智能体 slot z_ag]
    C --> F[物体 slot z_on]
    F --> G[3D block-slot attention<br/>拆成 M 个属性 block]
    D & E & G --> H[slot-mixer 光场解码器<br/>任意视角重建 → L_recon]
    G --> I[block transformer 策略]
    J[目标图像 → 目标 block] --> I
    I --> K[Hungarian 匹配 + block-wise cross-attn<br/>→ 动作 a / Q 值]

关键设计¶

1. 背景/前景/智能体的显式分工：给"谁能动"留好位置。 普通 slot attention 把所有 slot 当成置换不变集合，但 RL 里必须分清"机器人臂"（主动元素）和"被推的物体"（被动元素），否则学不到直觉物理。本文不再让 slot 完全置换不变，而是固定背景 slot \(z_{bg}\) 和智能体 slot \(z_{ag}\) 的索引，剩下的才作为保持置换不变的物体 slot \(\{z_{on}\}_{n=1}^{N-2}\)。训练时用模拟器（或基础模型检测）提供的背景掩码 \(m^{gt}_{bg}\) 和智能体掩码 \(m^{gt}_{ag}\) 做辅助监督，损失衡量注意力加权区域与真值掩码区域的像素差：\(L_{bg}=\sum_{(u,v)\in\Omega}\|w_{bg}(u,v)\hat{I}(u,v)-m^{gt}_{bg}(u,v)I(u,v)\|^2_2\)，智能体损失 \(L_{ag}\) 同理。总损失 \(L_{total}=L_{recon}+\lambda_{bg}L_{bg}+\lambda_{ag}L_{ag}\) 把重建与掩码约束合在一起，这样既能"看到"机器人交互的物理后果，又稳定了策略训练。

2. 3D block-slot attention：在 3D 物体上做属性分解，背景/智能体则保持原样。 物体之间共享"形状/大小/颜色/位置"这类概念，背景和智能体却不共享，所以本文只对物体 slot 施加 block-slot attention、对背景与智能体 slot 沿用 vanilla slot attention，再把两套更新机制在全部 \(N\) 个 slot 上混合。具体地，把每个物体 slot \(z_n\in\mathbb{R}^{D_{slot}}\) 切成 \(M\) 个属性 block \(\{z_{n,m}\in\mathbb{R}^{D_{block}}\}\)（\(D_{slot}=MD_{block}\)），对应的更新向量 \(u_n\) 也等分成 \(M\) 段，每个 block 用独立的 GRU 加 MLP 更新：\(z_{n,m}=\mathrm{GRU}_{\phi_m}(z_{n,m},u_{n,m})\)，再 \(z_{n,m}\mathrel{+}=\mathrm{MLP}_{\phi_m}(\mathrm{LN}(z_{n,m}))\)。每个 block 还对一块概念记忆 \(C_m\in\mathbb{R}^{K\times d}\)（\(K\) 个可学习原型向量）做点积注意力，相当于一个软信息瓶颈，逼着 block 去检索属于该属性的离散原型——训练完对 block 做 K-means 聚类或互换不同物体的同名 block，就能看出 block 确实分别编码了颜色、形状、大小、位置。这一步是把 SysBinder 的属性绑定能力第一次稳定地嫁接到 3D 多视角表示上。

3. block transformer 策略：先按语义匹配、再在 block 粒度做 cross-attention。 目标条件 RL 的难点是把当前态物体和目标态物体正确配对，尤其当两个物体同色时极易混淆。本文不用物体级 cross-attention，而是先忽略位置、只用语义属性做 Hungarian 匹配把当前态物体 \(z^s_{on}\) 配到目标态物体 \(z^g_{on'}\)，再在 block 维度算 cross-attention：\(H_n=\mathrm{CrossAttn}(z^s_{on},z^g_{on'})\)，随后池化 \(h_n=\mathrm{PoolAttn}(H_n)\)。这样策略能直接"盯着属性"去匹配该操纵哪个物体、移到哪，把搜索空间显著压小。最后把所有物体特征连同当前/目标智能体 slot、当前动作 \(a_t\) 一起送进自注意力 \(P=\mathrm{SelfAttn}([h_1,\dots,h_{N-2},z^s_{ag},z^g_{bg},a_t])\)，经 MLP 同时输出 actor 的动作和 critic 的 Q 值。block 级匹配正是它在"同色物体"和未见组合上碾压物体级 EIT 策略的关键。

实验关键数据¶

主实验表格¶

表示质量（novel-view synthesis PSNR + 分解 FG-ARI + DCI 分解度）：

数据集	方法	PSNR	FG-ARI	D	C	I
Clevr3D	OSRT	31.57	0.365	0.140	0.083	0.452
Clevr3D	Ours	31.11	0.942	0.867	0.789	0.844
IsaacGym3D	OSRT	27.35	0.321	0.403	0.222	0.769
IsaacGym3D	Ours	26.55	0.619	0.659	0.550	0.938

PSNR 与 OSRT 基本持平，但 FG-ARI（物体分解）和 DCI（属性解耦/完备/信息量）全面领先——说明额外的 block 分解没牺牲重建质量却换来了干净的结构。

目标条件 RL 成功率（IsaacGym 桌面推物，2 物体）：

表示 + 策略	ID	CG	CG(同色)	OOD
DLPv2 + EIT	0.984	0.747	0.388	0.422
OSRT + EIT	0.980	0.758	0.414	0.700
Ours + EIT	0.984	0.773	0.682	0.582
Ours + BT	0.967	0.895	0.837	0.828

ID 上各方法都接近饱和；真正拉开差距的是泛化场景——同色物体组合（CG same color）从基线的 ~0.4 跳到 0.837，OOD 未见颜色从基线 0.42/0.70 提到 0.828。

消融实验表格¶

视角泛化（训练只用前/左/右视角，测未见视角与单视角）：

设置	ID	CG	CG(同色)	OOD
DLPv2+EIT, ID Multi-View	0.984	0.747	0.388	0.422
DLPv2+EIT, OOD Multi-View	0.059	0.056	0.046	0.078
Ours+BT, ID Multi-View	0.967	0.895	0.837	0.828
Ours+BT, OOD Multi-View	0.948	0.877	0.818	0.865
Ours+BT, ID Single-View	0.891	0.705	0.700	0.727
Ours+BT, OOD Single-View	0.802	0.726	0.676	0.758

2D 基线一换视角直接崩到 ~0.05（per-view 位置编码过拟合视角特征），而本文换到未见视角几乎不掉点；即便训练用多视角、测试只给单视角也只有轻微下降（主要来自机器人自遮挡）。论文另在附录给出 block 数、原型数 \(K\)、掩码损失、slot/block-slot 混合结构的消融。

关键发现¶

结构化才是泛化的来源：Ours+EIT 相比 OSRT+EIT 在 CG(同色) 上从 0.414 提到 0.682，证明 block 分解本身有效；再换成 BT 策略进一步到 0.837，说明"表示"和"策略"两层增益叠加。
3D 感知 = 视角无关：换到训练分布外视角几乎零退化，是 2D 方法做不到的硬性区别。
单视角也够用：单视角推理仍能保住泛化行为，说明编码器学到的 3D 属性能从单图推断，对部署友好。

亮点与洞察¶

把 SysBinder 的 block 分解第一次稳定迁到 3D：以往属性级 block 分解只在 2D 静态图上成立，本文借光场解码器把它扩到多视角 3D 且能容纳遮挡与动态机器人交互，是表示侧的实打实推进。
"先语义匹配、再 block cross-attention"是个聪明的归纳偏置：用 Hungarian 在属性空间配对、把位置剥离出去，恰好对症"同色/同形物体易混淆"这一 OCR 老大难，且让策略可解释（能看出它在比对哪条属性）。
背景/智能体/物体的显式分工很务实——给"动作发出者"留专属 slot，符合机器人任务的因果结构，也稳住了 RL 训练。
可控生成顺带成立：互换 block 即可在 3D 中合成新属性组合并保持多视角一致（甚至模拟遮挡），既是分解成功的证据，也提示这套表示能反过来做数据增强。

局限与展望¶

匹配假设偏刚性：当前是当前态↔目标态的一对一静态属性匹配，遇到"多物体对应一个目标"这类多对一/动态对应就不够用，作者自己点名这是主要待解问题。
依赖掩码监督：背景/智能体分解需要模拟器掩码或基础模型检测，真实世界里掩码质量会影响分解（附录有 suboptimal mask 分析，但仍是依赖项）。
实验局限在仿真桌面推物：只在 Clevr3D/IsaacGym3D、两物体、属性维度有限（形状3/大小2/颜色若干）上验证，真实机器人、更复杂场景、更多物体的可扩展性未知。
展望：作者指出 block 表示"类似语言 token"，有望桥接 3D 感知与 VLA（Vision-Language-Action）框架，这是个有想象力的方向。

评分¶

新颖性: ⭐⭐⭐⭐ 把 block-slot 属性分解从 2D 抬到 3D 多视角、并配套设计 block 级匹配策略，组合新颖、对症 OCR 痛点；单个组件多为已有模块（SRT/OSRT、SysBinder、Hungarian、TD3）的巧妙拼装。
实验充分度: ⭐⭐⭐⭐ 表示质量（PSNR/FG-ARI/DCI）+ RL 成功率（ID/CG/CG同色/OOD）+ 视角泛化（多/单视角）三层验证，对比 DLPv2/OSRT 与 EIT/BT 交叉对照，附录有多项消融；不足是只在仿真桌面推物、物体数与属性维度较小。
写作质量: ⭐⭐⭐⭐ 动机与方法叙述清晰，图 1/2 把 pipeline 和 object-wise vs block-wise 对比讲得直观，公式与符号规范。
价值: ⭐⭐⭐⭐ 在组合泛化和未见视角这两个 OCR-RL 真实痛点上给出可观提升，且指出通往 VLA 的延伸路径，对具身智能表示学习有实际参考价值。