DynBridge: Bridging Imagination and Control through Interaction Dynamics for Robot Manipulation¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Wang-Alexz/DynBridge
领域: 机器人 / 具身智能
关键词: 机器人操作, 交互动力学, 模仿学习, 轨迹生成, 动作预测
一句话总结¶
DynBridge 提出"交互动力学(interaction dynamics)"这一潜表征,端到端地把"想象未来(轨迹生成)"和"控制决策(动作预测)"耦合进同一套表示里,让机器人不只是预测"环境会在哪里变(where)"还学到"动作如何引起这些变化(how)",在 LIBERO / Meta-World 等模拟与真机基准上无需任何额外机器人数据预训练就全面超越 ATM、GraphMimic 等方法。
研究背景与动机¶
领域现状:近年生成式模型让机器人能"想象未来"——用视频扩散或潜视频表征预测接下来几帧画面,再把这些 rollout 当成中间目标,交给一个独立的控制策略去执行动作。另一条线则强化空间结构先验,比如生成点轨迹、构建物体-智能体关系图来定位交互区域。
现有痛点:这两条线都把"想象"和"控制"解耦优化。生成器的训练目标是重建未来观测,于是它倾向于追求视觉逼真而非物理可行——典型失败是"只要机械臂靠近抽屉就想象抽屉自动打开",因为训练视频里这种共现模式很常见,但真机执行时策略可能因为手柄上没有实际接触力而打不开。而强化空间结构的方法虽然能更精确地定位手-手柄接触点,本质上仍是视觉域内的"相关性驱动",没有建模产生交互行为的因果——比如力的传递这种真正驱动交互的物理量。
核心矛盾:环境演化和智能体动作是双向耦合的(动作改变环境,环境状态又反过来约束下一步动作),但现有方法要么只建模 where(空间结构、观测驱动)、要么只建模 how(潜动作、逆动力学伪标签但缺空间锚点),很少把两者作为一个整体联合建模,于是"想象出来的未来"和"真正能执行的行为"之间始终有一道鸿沟。
本文目标:用一个共享表征同时编码"环境在哪里变"和"动作如何因果地引起这种变化",并让想象与控制端到端互相监督,从而弥合 imagination–control gap。
核心 idea:提出 interaction dynamics 潜表征——它既前瞻空间上 where 会变(靠轨迹重建监督),又捕捉智能体动作 how 引起变化(靠动作模仿监督),二者联合优化;围绕它构建端到端框架 DynBridge,用一套 latent 表示把轨迹生成与动作预测串成闭环。
方法详解¶
整体框架¶
给定一批带语言指令、带动作标签的示范 \(T=\{(\tau^a_i,\ell_i)\}\),每条轨迹是观测-动作对 \(\{(o_{i,t},a_{i,t})\}\),目标是学一个由交互动力学引导的策略 \(\pi_\theta\)。整个 DynBridge 由三个串行模块组成:先由 交互动力学生成器 把视觉历史、语言指令和一组可学习"动态 token"融合,生成潜交互动力学 \(H_t\);再由 动作条件动力学聚合器 把 \(H_t\) 压缩成动作感知的紧凑表征 \(H^{agg}_t\);最后 动力学引导动作预测器(Action-Transformer)在 \(H^{agg}_t\) 上做时序推理,自回归地预测可执行动作 \(\hat a_t\)。关键在于:生成器的轨迹解码分支提供 where 的空间监督,而动作预测器的行为克隆损失提供 how 的因果监督,两路损失联合反传,使 \(H_t\) 同时承载空间结构与物理动力学。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["视觉历史 + 语言指令"] --> B["交互动力学生成器<br/>动态token跨模态注意力<br/>→潜交互动力学 Ht"]
B -->|轨迹解码分支(仅训练)| W["where: 短时轨迹L2监督"]
B --> C["动作条件动力学聚合器<br/>局部动作query路 + 全局压缩路<br/>→ Hagg"]
C --> D["动力学引导动作预测器<br/>Action-Transformer时序推理"]
D -->|how: 行为克隆| E["可执行动作 at"]
E -.端到端联合优化.-> B
关键设计¶
1. 交互动力学生成器:用一套潜表征同时学 where 和 how
这是全文的概念基石,直接针对"想象与控制解耦、只学视觉相关性不学因果"的痛点。它不像 ATM/GraphMimic 那样生成确定性的显式轨迹/结构图再喂给下游,而是生成一个潜交互表征 \(H_t\)。机制上分两块:
其一是轨迹监督的构造方式。以往做法是在视频第一帧采一组固定点、然后全程追踪,这有两个毛病:(i) 训练-测试不一致——训练时轨迹锚定在第一帧,推理时却要基于不断演化的观测生成轨迹;(ii) 空间覆盖有限——无法捕捉新出现的物体或一开始被遮挡的物体。本文改用逐帧重采样 + 短时程追踪:在每一帧 \(o_t\) 均匀采 \(N_q\) 个点 \(\{p^{(k)}_t=(u^{(k)}_t,v^{(k)}_t)\}\),用 CoTracker 把每个点向后追踪 \(L\) 帧得到短轨迹 \(P_{t:t+L}=\{p^{(k)}_{t:t+L}\}\)。这样监督和推理都定义在短时程上、保持一致,又能自适应覆盖动态/部分可见的场景。
其二是交互注意力(interaction-attention)。用 ResNet-18 提视觉特征 \(F_{t-h:t}\)、冻结的 6 层 MiniLM 编码指令得 \(G_l\);再参数化一组可学习潜 query \(Z_{dyn}=\{z^{(i)}_{dyn}\}\) 作为"动态 token",每个 token 负责一种独立的动态模式,通过跨模态多头注意力去 query 拼接后的多模态上下文:
输出 \(H_t\) 保留 token 级结构(\(N_{tok}\) 个 token),即潜交互动力学。训练时一个轻量解码器 \(f_{dyn}\) 把 \(H_t\) 映射成未来 \(L\) 步轨迹预测 \(\hat P_{t:t+L}=f_{dyn}(H_t)\),并用 L2 回归对齐真值轨迹 \(\mathcal{L}_{traj}=\lVert\hat P_{t:t+L}-P_{t:t+L}\rVert_2^2\),把 where 的空间结构灌进 \(H_t\);同时 \(H_t\) 又作为动作预测器的条件、被行为克隆损失约束,把 how 的因果动力学灌进去。推理时轨迹解码器直接丢弃,\(H_t\) 隐式携带空间意图供下游推理。为什么有效:联合优化让"想象出的轨迹"被动作模仿"接地"到因果动力学上,比生成单条显式轨迹更鲁棒——因为同一条件下可能存在多条可行轨迹,潜表征天然能容纳这种多模态性。
2. 动作条件动力学聚合器:双路压缩,破解动态 token 数量的两难
直接把 \(H_t\) 拿去做决策往往次优,根因是动态 token 数 \(N_{tok}\) 同时左右"表征容量"和"模态平衡":token 太少则表征空间受限、抓不住细粒度交互线索;token 太多则冗余,还会挤占视觉/语言 token 的存在感、削弱它们对动作预测的影响(这一点在消融里被验证)。本文用自适应双路聚合把 \(H_t\) 压成 \(M\) 个(\(M<N_{tok}\))动作感知 embedding。
局部压缩路分三步:(1) 共享动作 token + adapter 重调——引入可学习动作 token \(A_{act}\in\mathbb{R}^{M\times d}\) 来 query 交互动力学、注入动作语义,它们之后在动作预测器里被复用为自回归输入;为了让 \(A_{act}\) 作为"共享先验"保持稳定,在聚合器内对它detach(停梯度)、只更新一个瓶颈 adapter:\(\hat A_{act}=W_{up}\,\sigma(W_{down}\,\mathrm{sg}(A_{act}))\)。(2) Token 打分器——算注意力分矩阵 \(S_t=\mathrm{Softmax}(Q_A K_{H_t}^\top/\sqrt{d})\in\mathbb{R}^{M\times N_{tok}}\),其中 \(Q_A=A_{act}W_q\)、\(K_{H_t}=H_tW_k\),分数高表示该交互特征与动作模式更相关。(3) 动作感知聚合——\(H^{local}_t=S_t(H_tW_v)\in\mathbb{R}^{M\times d}\),得到以动作 token 为条件的局部交互上下文。全局压缩路则把 \(H_t\) 线性投影成同维度的 \(H^{global}_t\in\mathbb{R}^{M\times d}\),提供一个粗粒度、稳定的全局参考。两路逐元素相加 \(H^{agg}_t=H^{local}_t+H^{global}_t\):局部路负责细粒度动作相关聚焦,全局路保证稳定性与紧凑性,合起来既平衡又有表达力。设计精髓在于"用动作 token 当 query 来挑哪些交互特征对决策最有用"——这正是把 imagination 往 control 拉近的关键耦合点(消融显示 action-conditioned 比 vision/language/learnable 条件都更有效)。
3. 动力学引导动作预测器:在聚合动力学上做时序推理
最后用一个标准 Transformer 解码器(masked self-attention + cross-attention + FFN 的 \(L\) 层堆叠)做决策。每个历史时刻的输入按序拼接四类 token:动作 token \(A_{act}\)(捕捉历史动作间的自回归依赖)、聚合交互动力学 \(H^{agg}_t\)、视觉 embedding \(F_{t-h:t}\)、语言 embedding \(G_l\)。解码器对整条多模态序列做带掩码自注意力再做交叉注意力,输出上下文化特征经 MLP policy head 预测控制动作 \(\hat a_t\)。连续控制用 MSE 损失 \(\mathcal{L}_{act}=\lVert\hat a_t-a_t^\ast\rVert_2^2\),离散控制可换成交叉熵。它的作用是把前两个模块产出的"动作感知动力学先验"真正落到时序决策上,使输出动作既上下文感知又可执行。
损失函数 / 训练策略¶
整个框架端到端训练,总目标由两项组成:
其中 \(\mathcal{L}_{act}\) 是动作模仿(行为克隆)损失、\(\mathcal{L}_{traj}\) 是轨迹重建 L2 损失,\(\beta\) 为平衡系数。正是这个联合目标让 where(轨迹监督)与 how(动作模仿)相互塑形——消融表明二者缺一不可。⚠️ \(\beta\) 等详细超参原文放在 Appendix,正文未给具体值,以原文为准。
实验关键数据¶
主实验¶
LIBERO 五个子集平均成功率(3 个 seed 均值)。带 Ext. Data 的方法每任务用 50 段无标签视频 + 10 段带标签示范,其余只用 10 段带标签示范。DynBridge 不用任何外部预训练就在全部子集夺得最佳:
| 方法 | Ext. Data | Spatial | Object | Goal | Long | 90 |
|---|---|---|---|---|---|---|
| BC | ✗ | 0.39 | 0.51 | 0.42 | 0.16 | 0.29 |
| R3M-finetune | ✗ | 0.49 | 0.52 | 0.05 | 0.09 | 0.09 |
| UniPi | ✓ | 0.69 | 0.59 | 0.11 | 0.05 | 0.07 |
| ATM | ✓ | 0.68 | 0.68 | 0.77 | 0.39 | 0.48 |
| GraphMimic | ✓ | 0.88 | 0.89 | 0.87 | 0.56 | 0.67 |
| Ours | ✗ | 0.92 | 1.00 | 0.92 | 0.71 | 0.75 |
提升在 LIBERO-Long(多物体、多阶段、长时程误差累积)上尤为明显:0.71 vs GraphMimic 0.56;LIBERO-90(90 个差异巨大的任务,测多任务鲁棒性)上 0.75 vs 0.67,说明交互动力学学到的是任务无关、可迁移的交互特征。Meta-World 四个 handle 操作任务每任务仅 5 段示范,DynBridge 在成功率上也优于 BC/ATM/PlaySlot/MPI(⚠️ Meta-World 为柱状图,原文未给精确数值)。
消融实验¶
| 配置 | 结论 | 说明 |
|---|---|---|
| Full model | 最佳 | 完整 DynBridge |
| w/o e2e | 显著下降 | 生成器与动作预测器分开训,想象-控制重新解耦 |
| w/o traj | 控制精度下降 | 去掉轨迹重建分支、只留动作模仿,丢了 where 监督 |
| ours-coord | 下降 | 用显式轨迹坐标替代潜交互表征 |
| L=0 | 急剧下降 | 不做轨迹预测,失去对未来的前瞻 |
| w/o Agg | 非单调、整体偏低 | 去聚合器,token 太少欠拟合、太多冗余且挤压视觉/语言 token |
| w/ visionagg | +5% | 视觉条件聚合 |
| w/ langagg | +6% | 语言条件聚合 |
| w/ actagg (ours) | +17.5% | 动作条件聚合最有效 |
关键发现¶
- 端到端联合优化是弥合 gap 的关键:w/o e2e 显著掉点,联合优化让生成的动力学与执行控制对齐,产生因果一致的行为。
- where 与 how 互补、缺一不可:去掉轨迹分支(w/o traj)或解耦两阶段都掉点,二者共同塑造因果接地的交互动力学。
- 潜交互表征优于显式坐标:ours-coord 掉点,因为显式坐标缺动作条件依赖、且只能给单条轨迹,而潜表征能容纳同一条件下的多条可行轨迹。
- 预测时程 L 要适中:\(L=0\) 急降确认前瞻必要;\(L>0\) 后显著改善且在中等时程稳定,但 \(L\) 过长会放大不确定性、加剧误差累积——即便对 LIBERO-Long 这种长任务,过长预测也反而 destabilize 控制。
- 聚合器同时缓解 token 容量两难 + 强化想象-控制耦合:动作条件聚合(actagg)比 vision/language/learnable 条件涨幅最大(+17.5%),说明把交互特征与动作对齐最能拉近 imagination 与 control。
- 跨本体可迁移、且能从失败示范中学习:把 Franka Panda 上学到的交互动力学迁到 XArm7,在大多含噪/部分失败的 10 段示范下仍稳定,因为它学的是动作-物体变化间的因果结构,即便失败示范也含有用的因果线索;ATM 则容易被失败轨迹带偏。
- 强零样本泛化:在目标物体被移到未见位置、或引入未见背景时,DynBridge 仍稳定,而依赖绝对坐标的 ATM 鲁棒性差;交互动力学还能在执行中纠偏,避免像 ATM 那样陷入错误动作模式无法恢复。
亮点与洞察¶
- 把"想象-控制鸿沟"形式化为 interaction dynamics 这一可学习潜表征,并用一句"where + how"点透:where 靠轨迹重建监督、how 靠动作模仿监督,二者联合反传——概念清晰且落地。
- 训练时用轨迹解码器灌空间监督、推理时直接丢弃:典型的"训练辅助任务/推理时甩掉"思路,让 \(H_t\) 隐式吸收空间意图而不增加部署开销,可复用到其他需要空间接地的潜表征学习。
- 用动作 token 当 query 去聚合动力学(actagg)是最具迁移价值的 trick:与其平均/学习式压缩,不如让"将要预测的动作语义"主动去挑哪些交互特征有用,这把决策需求前置到了表征压缩阶段。
- 对动作 token detach + adapter 重调:既复用同一组动作 token 当共享先验、又不让聚合器的梯度扰动它的语义空间,是稳定多模块复用 token 的实用做法。
- 最"啊哈"的点:失败示范也有价值——因为模型学的是因果交互结构而非表面轨迹,失败 demo 里动作如何(没能)引起物体变化同样是有信息的监督信号。
局限与展望¶
- 轨迹监督依赖现成视频追踪器(CoTracker)的质量,追踪噪声会直接污染 where 监督;强遮挡/高速运动下追踪失败可能拖累交互动力学。
- 关键超参(\(\beta\)、\(N_{tok}\)、\(M\)、\(L\))多放在 Appendix,正文只给了 \(L\) 与 \(N_{tok}\) 的趋势性扫描,缺乏在不同机器人/任务上的统一选取指引;\(L\) 过长反而掉点说明对时程较敏感。⚠️ 具体取值以原文 Appendix 为准。
- 评测以 LIBERO/Meta-World 模拟为主、真机为 Franka→XArm7 的跨本体小样本,未涉及更复杂的双臂/灵巧手或接触力反馈,"物理动力学(如力传递)"目前仍是隐式学习而非显式建模。
- 可改进:把显式接触/力信号引入交互动力学监督;或让轨迹时程 \(L\) 自适应(按任务阶段动态调整)以兼顾长程任务与误差累积。
相关工作与启发¶
- vs ATM(Where-focused):ATM 想象未来点轨迹、用轨迹条件 policy head 预测动作,但只建模 where、依赖绝对坐标且不与动作语义对齐,对位置变化/失败示范鲁棒性差;DynBridge 用潜交互表征联合建模 where+how,跨位置、跨背景、跨本体都更稳,还能执行中纠偏。
- vs GraphMimic(Where-focused):用图推理建模物体-智能体空间关系,仍是观测驱动的相关性;DynBridge 强调动作条件的因果动力学,且无需外部视频预训练就反超它(LIBERO-Long 0.71 vs 0.56)。
- vs UniPi(Video Generation):先用扩散生成文本条件视频计划、再用逆动力学反推动作,典型两阶段解耦,像素级想象与控制脱节、长任务几乎失效;DynBridge 端到端共享潜表征弥合 gap。
- vs VPT / PlaySlot(How-focused):靠逆动力学伪标签或潜动作空间建模 how,但缺显式空间接地、易受视觉冗余干扰;DynBridge 用轨迹监督补上 where,兼得空间结构与因果动力学。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把 imagination–control gap 形式化为可学习的 interaction dynamics 潜表征,where+how 联合监督的视角新颖且自洽。
- 实验充分度: ⭐⭐⭐⭐⭐ LIBERO 五子集 + Meta-World + 跨本体真机迁移 + 多组消融(e2e/traj/coord/L/token 数/聚合条件),证据链完整。
- 写作质量: ⭐⭐⭐⭐ 动机递进清晰、图文对照好,但若干关键超参与精确数值散落在 Appendix/柱状图,正文复现信息略欠。
- 价值: ⭐⭐⭐⭐⭐ 无需额外机器人数据预训练即全面 SOTA,且能从失败/含噪示范学习、跨本体迁移,对真实数据稀缺的机器人操作场景实用价值高。