跳转至

DynBridge: Bridging Imagination and Control through Interaction Dynamics for Robot Manipulation

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Wang-Alexz/DynBridge
领域: 机器人 / 具身智能
关键词: 机器人操作, 交互动力学, 模仿学习, 轨迹生成, 动作预测

一句话总结

DynBridge 提出"交互动力学(interaction dynamics)"这一潜表征,端到端地把"想象未来(轨迹生成)"和"控制决策(动作预测)"耦合进同一套表示里,让机器人不只是预测"环境会在哪里变(where)"还学到"动作如何引起这些变化(how)",在 LIBERO / Meta-World 等模拟与真机基准上无需任何额外机器人数据预训练就全面超越 ATM、GraphMimic 等方法。

研究背景与动机

领域现状:近年生成式模型让机器人能"想象未来"——用视频扩散或潜视频表征预测接下来几帧画面,再把这些 rollout 当成中间目标,交给一个独立的控制策略去执行动作。另一条线则强化空间结构先验,比如生成点轨迹、构建物体-智能体关系图来定位交互区域。

现有痛点:这两条线都把"想象"和"控制"解耦优化。生成器的训练目标是重建未来观测,于是它倾向于追求视觉逼真而非物理可行——典型失败是"只要机械臂靠近抽屉就想象抽屉自动打开",因为训练视频里这种共现模式很常见,但真机执行时策略可能因为手柄上没有实际接触力而打不开。而强化空间结构的方法虽然能更精确地定位手-手柄接触点,本质上仍是视觉域内的"相关性驱动",没有建模产生交互行为的因果——比如力的传递这种真正驱动交互的物理量。

核心矛盾:环境演化和智能体动作是双向耦合的(动作改变环境,环境状态又反过来约束下一步动作),但现有方法要么只建模 where(空间结构、观测驱动)、要么只建模 how(潜动作、逆动力学伪标签但缺空间锚点),很少把两者作为一个整体联合建模,于是"想象出来的未来"和"真正能执行的行为"之间始终有一道鸿沟。

本文目标:用一个共享表征同时编码"环境在哪里变"和"动作如何因果地引起这种变化",并让想象与控制端到端互相监督,从而弥合 imagination–control gap。

核心 idea:提出 interaction dynamics 潜表征——它既前瞻空间上 where 会变(靠轨迹重建监督),又捕捉智能体动作 how 引起变化(靠动作模仿监督),二者联合优化;围绕它构建端到端框架 DynBridge,用一套 latent 表示把轨迹生成与动作预测串成闭环。

方法详解

整体框架

给定一批带语言指令、带动作标签的示范 \(T=\{(\tau^a_i,\ell_i)\}\),每条轨迹是观测-动作对 \(\{(o_{i,t},a_{i,t})\}\),目标是学一个由交互动力学引导的策略 \(\pi_\theta\)。整个 DynBridge 由三个串行模块组成:先由 交互动力学生成器 把视觉历史、语言指令和一组可学习"动态 token"融合,生成潜交互动力学 \(H_t\);再由 动作条件动力学聚合器\(H_t\) 压缩成动作感知的紧凑表征 \(H^{agg}_t\);最后 动力学引导动作预测器(Action-Transformer)在 \(H^{agg}_t\) 上做时序推理,自回归地预测可执行动作 \(\hat a_t\)。关键在于:生成器的轨迹解码分支提供 where 的空间监督,而动作预测器的行为克隆损失提供 how 的因果监督,两路损失联合反传,使 \(H_t\) 同时承载空间结构与物理动力学。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视觉历史 + 语言指令"] --> B["交互动力学生成器<br/>动态token跨模态注意力<br/>→潜交互动力学 Ht"]
    B -->|轨迹解码分支(仅训练)| W["where: 短时轨迹L2监督"]
    B --> C["动作条件动力学聚合器<br/>局部动作query路 + 全局压缩路<br/>→ Hagg"]
    C --> D["动力学引导动作预测器<br/>Action-Transformer时序推理"]
    D -->|how: 行为克隆| E["可执行动作 at"]
    E -.端到端联合优化.-> B

关键设计

1. 交互动力学生成器:用一套潜表征同时学 where 和 how

这是全文的概念基石,直接针对"想象与控制解耦、只学视觉相关性不学因果"的痛点。它不像 ATM/GraphMimic 那样生成确定性的显式轨迹/结构图再喂给下游,而是生成一个交互表征 \(H_t\)。机制上分两块:

其一是轨迹监督的构造方式。以往做法是在视频第一帧采一组固定点、然后全程追踪,这有两个毛病:(i) 训练-测试不一致——训练时轨迹锚定在第一帧,推理时却要基于不断演化的观测生成轨迹;(ii) 空间覆盖有限——无法捕捉新出现的物体或一开始被遮挡的物体。本文改用逐帧重采样 + 短时程追踪:在每一帧 \(o_t\) 均匀采 \(N_q\) 个点 \(\{p^{(k)}_t=(u^{(k)}_t,v^{(k)}_t)\}\),用 CoTracker 把每个点向后追踪 \(L\) 帧得到短轨迹 \(P_{t:t+L}=\{p^{(k)}_{t:t+L}\}\)。这样监督和推理都定义在短时程上、保持一致,又能自适应覆盖动态/部分可见的场景。

其二是交互注意力(interaction-attention)。用 ResNet-18 提视觉特征 \(F_{t-h:t}\)、冻结的 6 层 MiniLM 编码指令得 \(G_l\);再参数化一组可学习潜 query \(Z_{dyn}=\{z^{(i)}_{dyn}\}\) 作为"动态 token",每个 token 负责一种独立的动态模式,通过跨模态多头注意力去 query 拼接后的多模态上下文:

\[H_t=\mathrm{CrossAttn}\big(Q=Z_{dyn},\,K=V=[F_{t-h:t};G_l]\big)\]

输出 \(H_t\) 保留 token 级结构(\(N_{tok}\) 个 token),即潜交互动力学。训练时一个轻量解码器 \(f_{dyn}\)\(H_t\) 映射成未来 \(L\) 步轨迹预测 \(\hat P_{t:t+L}=f_{dyn}(H_t)\),并用 L2 回归对齐真值轨迹 \(\mathcal{L}_{traj}=\lVert\hat P_{t:t+L}-P_{t:t+L}\rVert_2^2\),把 where 的空间结构灌进 \(H_t\);同时 \(H_t\) 又作为动作预测器的条件、被行为克隆损失约束,把 how 的因果动力学灌进去。推理时轨迹解码器直接丢弃\(H_t\) 隐式携带空间意图供下游推理。为什么有效:联合优化让"想象出的轨迹"被动作模仿"接地"到因果动力学上,比生成单条显式轨迹更鲁棒——因为同一条件下可能存在多条可行轨迹,潜表征天然能容纳这种多模态性。

2. 动作条件动力学聚合器:双路压缩,破解动态 token 数量的两难

直接把 \(H_t\) 拿去做决策往往次优,根因是动态 token 数 \(N_{tok}\) 同时左右"表征容量"和"模态平衡":token 太少则表征空间受限、抓不住细粒度交互线索;token 太多则冗余,还会挤占视觉/语言 token 的存在感、削弱它们对动作预测的影响(这一点在消融里被验证)。本文用自适应双路聚合\(H_t\) 压成 \(M\) 个(\(M<N_{tok}\))动作感知 embedding。

局部压缩路分三步:(1) 共享动作 token + adapter 重调——引入可学习动作 token \(A_{act}\in\mathbb{R}^{M\times d}\) 来 query 交互动力学、注入动作语义,它们之后在动作预测器里被复用为自回归输入;为了让 \(A_{act}\) 作为"共享先验"保持稳定,在聚合器内对它detach(停梯度)、只更新一个瓶颈 adapter:\(\hat A_{act}=W_{up}\,\sigma(W_{down}\,\mathrm{sg}(A_{act}))\)。(2) Token 打分器——算注意力分矩阵 \(S_t=\mathrm{Softmax}(Q_A K_{H_t}^\top/\sqrt{d})\in\mathbb{R}^{M\times N_{tok}}\),其中 \(Q_A=A_{act}W_q\)\(K_{H_t}=H_tW_k\),分数高表示该交互特征与动作模式更相关。(3) 动作感知聚合——\(H^{local}_t=S_t(H_tW_v)\in\mathbb{R}^{M\times d}\),得到以动作 token 为条件的局部交互上下文。全局压缩路则把 \(H_t\) 线性投影成同维度的 \(H^{global}_t\in\mathbb{R}^{M\times d}\),提供一个粗粒度、稳定的全局参考。两路逐元素相加 \(H^{agg}_t=H^{local}_t+H^{global}_t\):局部路负责细粒度动作相关聚焦,全局路保证稳定性与紧凑性,合起来既平衡又有表达力。设计精髓在于"用动作 token 当 query 来挑哪些交互特征对决策最有用"——这正是把 imagination 往 control 拉近的关键耦合点(消融显示 action-conditioned 比 vision/language/learnable 条件都更有效)。

3. 动力学引导动作预测器:在聚合动力学上做时序推理

最后用一个标准 Transformer 解码器(masked self-attention + cross-attention + FFN 的 \(L\) 层堆叠)做决策。每个历史时刻的输入按序拼接四类 token:动作 token \(A_{act}\)(捕捉历史动作间的自回归依赖)、聚合交互动力学 \(H^{agg}_t\)、视觉 embedding \(F_{t-h:t}\)、语言 embedding \(G_l\)。解码器对整条多模态序列做带掩码自注意力再做交叉注意力,输出上下文化特征经 MLP policy head 预测控制动作 \(\hat a_t\)。连续控制用 MSE 损失 \(\mathcal{L}_{act}=\lVert\hat a_t-a_t^\ast\rVert_2^2\),离散控制可换成交叉熵。它的作用是把前两个模块产出的"动作感知动力学先验"真正落到时序决策上,使输出动作既上下文感知又可执行。

损失函数 / 训练策略

整个框架端到端训练,总目标由两项组成:

\[\mathcal{L}_{total}=\mathcal{L}_{act}+\beta\,\mathcal{L}_{traj}\]

其中 \(\mathcal{L}_{act}\) 是动作模仿(行为克隆)损失、\(\mathcal{L}_{traj}\) 是轨迹重建 L2 损失,\(\beta\) 为平衡系数。正是这个联合目标让 where(轨迹监督)与 how(动作模仿)相互塑形——消融表明二者缺一不可。⚠️ \(\beta\) 等详细超参原文放在 Appendix,正文未给具体值,以原文为准。

实验关键数据

主实验

LIBERO 五个子集平均成功率(3 个 seed 均值)。带 Ext. Data 的方法每任务用 50 段无标签视频 + 10 段带标签示范,其余只用 10 段带标签示范。DynBridge 不用任何外部预训练就在全部子集夺得最佳:

方法 Ext. Data Spatial Object Goal Long 90
BC 0.39 0.51 0.42 0.16 0.29
R3M-finetune 0.49 0.52 0.05 0.09 0.09
UniPi 0.69 0.59 0.11 0.05 0.07
ATM 0.68 0.68 0.77 0.39 0.48
GraphMimic 0.88 0.89 0.87 0.56 0.67
Ours 0.92 1.00 0.92 0.71 0.75

提升在 LIBERO-Long(多物体、多阶段、长时程误差累积)上尤为明显:0.71 vs GraphMimic 0.56;LIBERO-90(90 个差异巨大的任务,测多任务鲁棒性)上 0.75 vs 0.67,说明交互动力学学到的是任务无关、可迁移的交互特征。Meta-World 四个 handle 操作任务每任务仅 5 段示范,DynBridge 在成功率上也优于 BC/ATM/PlaySlot/MPI(⚠️ Meta-World 为柱状图,原文未给精确数值)。

消融实验

配置 结论 说明
Full model 最佳 完整 DynBridge
w/o e2e 显著下降 生成器与动作预测器分开训,想象-控制重新解耦
w/o traj 控制精度下降 去掉轨迹重建分支、只留动作模仿,丢了 where 监督
ours-coord 下降 用显式轨迹坐标替代潜交互表征
L=0 急剧下降 不做轨迹预测,失去对未来的前瞻
w/o Agg 非单调、整体偏低 去聚合器,token 太少欠拟合、太多冗余且挤压视觉/语言 token
w/ visionagg +5% 视觉条件聚合
w/ langagg +6% 语言条件聚合
w/ actagg (ours) +17.5% 动作条件聚合最有效

关键发现

  • 端到端联合优化是弥合 gap 的关键:w/o e2e 显著掉点,联合优化让生成的动力学与执行控制对齐,产生因果一致的行为。
  • where 与 how 互补、缺一不可:去掉轨迹分支(w/o traj)或解耦两阶段都掉点,二者共同塑造因果接地的交互动力学。
  • 潜交互表征优于显式坐标:ours-coord 掉点,因为显式坐标缺动作条件依赖、且只能给单条轨迹,而潜表征能容纳同一条件下的多条可行轨迹。
  • 预测时程 L 要适中\(L=0\) 急降确认前瞻必要;\(L>0\) 后显著改善且在中等时程稳定,但 \(L\) 过长会放大不确定性、加剧误差累积——即便对 LIBERO-Long 这种长任务,过长预测也反而 destabilize 控制。
  • 聚合器同时缓解 token 容量两难 + 强化想象-控制耦合:动作条件聚合(actagg)比 vision/language/learnable 条件涨幅最大(+17.5%),说明把交互特征与动作对齐最能拉近 imagination 与 control。
  • 跨本体可迁移、且能从失败示范中学习:把 Franka Panda 上学到的交互动力学迁到 XArm7,在大多含噪/部分失败的 10 段示范下仍稳定,因为它学的是动作-物体变化间的因果结构,即便失败示范也含有用的因果线索;ATM 则容易被失败轨迹带偏。
  • 强零样本泛化:在目标物体被移到未见位置、或引入未见背景时,DynBridge 仍稳定,而依赖绝对坐标的 ATM 鲁棒性差;交互动力学还能在执行中纠偏,避免像 ATM 那样陷入错误动作模式无法恢复。

亮点与洞察

  • 把"想象-控制鸿沟"形式化为 interaction dynamics 这一可学习潜表征,并用一句"where + how"点透:where 靠轨迹重建监督、how 靠动作模仿监督,二者联合反传——概念清晰且落地。
  • 训练时用轨迹解码器灌空间监督、推理时直接丢弃:典型的"训练辅助任务/推理时甩掉"思路,让 \(H_t\) 隐式吸收空间意图而不增加部署开销,可复用到其他需要空间接地的潜表征学习。
  • 用动作 token 当 query 去聚合动力学(actagg)是最具迁移价值的 trick:与其平均/学习式压缩,不如让"将要预测的动作语义"主动去挑哪些交互特征有用,这把决策需求前置到了表征压缩阶段。
  • 对动作 token detach + adapter 重调:既复用同一组动作 token 当共享先验、又不让聚合器的梯度扰动它的语义空间,是稳定多模块复用 token 的实用做法。
  • 最"啊哈"的点:失败示范也有价值——因为模型学的是因果交互结构而非表面轨迹,失败 demo 里动作如何(没能)引起物体变化同样是有信息的监督信号。

局限与展望

  • 轨迹监督依赖现成视频追踪器(CoTracker)的质量,追踪噪声会直接污染 where 监督;强遮挡/高速运动下追踪失败可能拖累交互动力学。
  • 关键超参(\(\beta\)\(N_{tok}\)\(M\)\(L\))多放在 Appendix,正文只给了 \(L\)\(N_{tok}\) 的趋势性扫描,缺乏在不同机器人/任务上的统一选取指引;\(L\) 过长反而掉点说明对时程较敏感。⚠️ 具体取值以原文 Appendix 为准。
  • 评测以 LIBERO/Meta-World 模拟为主、真机为 Franka→XArm7 的跨本体小样本,未涉及更复杂的双臂/灵巧手或接触力反馈,"物理动力学(如力传递)"目前仍是隐式学习而非显式建模。
  • 可改进:把显式接触/力信号引入交互动力学监督;或让轨迹时程 \(L\) 自适应(按任务阶段动态调整)以兼顾长程任务与误差累积。

相关工作与启发

  • vs ATM(Where-focused):ATM 想象未来点轨迹、用轨迹条件 policy head 预测动作,但只建模 where、依赖绝对坐标且不与动作语义对齐,对位置变化/失败示范鲁棒性差;DynBridge 用潜交互表征联合建模 where+how,跨位置、跨背景、跨本体都更稳,还能执行中纠偏。
  • vs GraphMimic(Where-focused):用图推理建模物体-智能体空间关系,仍是观测驱动的相关性;DynBridge 强调动作条件的因果动力学,且无需外部视频预训练就反超它(LIBERO-Long 0.71 vs 0.56)。
  • vs UniPi(Video Generation):先用扩散生成文本条件视频计划、再用逆动力学反推动作,典型两阶段解耦,像素级想象与控制脱节、长任务几乎失效;DynBridge 端到端共享潜表征弥合 gap。
  • vs VPT / PlaySlot(How-focused):靠逆动力学伪标签或潜动作空间建模 how,但缺显式空间接地、易受视觉冗余干扰;DynBridge 用轨迹监督补上 where,兼得空间结构与因果动力学。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把 imagination–control gap 形式化为可学习的 interaction dynamics 潜表征,where+how 联合监督的视角新颖且自洽。
  • 实验充分度: ⭐⭐⭐⭐⭐ LIBERO 五子集 + Meta-World + 跨本体真机迁移 + 多组消融(e2e/traj/coord/L/token 数/聚合条件),证据链完整。
  • 写作质量: ⭐⭐⭐⭐ 动机递进清晰、图文对照好,但若干关键超参与精确数值散落在 Appendix/柱状图,正文复现信息略欠。
  • 价值: ⭐⭐⭐⭐⭐ 无需额外机器人数据预训练即全面 SOTA,且能从失败/含噪示范学习、跨本体迁移,对真实数据稀缺的机器人操作场景实用价值高。