Pixel Motion Diffusion Is What We Need for Robot Control¶
会议: CVPR 2026
arXiv: 2509.22652
代码: 有
领域: 图像生成
关键词: 像素运动扩散, 机器人控制, 视觉-语言-动作, 光流表征, 层级扩散策略
一句话总结¶
DAWN 提出两阶段全扩散框架——Motion Director 生成稠密像素运动场作为可解释中间表征,Action Expert 将其转化为可执行机器人动作序列,在 CALVIN(Avg Len 4.00)、MetaWorld(Overall 65.4%)和真实世界均达到 SOTA,且模型容量和训练数据远小于竞争方法。
研究背景与动机¶
领域现状:Vision-Language-Action(VLA)模型通过大规模网络数据训练实现广泛泛化,但在运动感知和空间推理方面仍有局限。现有运动引导方案分为两条路线:(1)稀疏像素轨迹(General Flow、FLIP、Track2Act 等)从关键点或稀疏点追踪获取运动线索;(2)未来 RGB 帧预测(SuSIE、UniPi、VPP 等)利用视频扩散模型生成未来观测再推导动作。
核心问题: - 稀疏轨迹信息不足:仅追踪少量关键点,无法提供全场景运动描述,在复杂操作中丢失关键空间信息 - RGB 帧预测开销大:在高维 RGB 空间生成完整视频帧计算昂贵,且缺乏显式运动结构 - 间接提取增加复杂性:Gen2Act 先生成视频再追踪像素提取运动,引入不必要的间接层级和误差累积
关键洞察:与其在 RGB 空间生成完整帧再间接提取运动,不如直接预测稠密像素运动——这在保留全场景运动信息的同时大幅降低生成复杂度,因为像素运动场比 RGB 帧结构更简单、更适合学习。
本文方案:DAWN(Diffusion is All We Need)——两阶段均采用扩散模型,Motion Director 在潜在空间预测稠密像素运动场,Action Expert 将运动场转化为动作序列,形成全可训练、端到端、可解释的控制管道。
方法详解¶
整体框架¶
DAWN 采用双扩散模型层级结构:
- Motion Director(高层控制器):基于预训练潜在扩散模型(LDM),接收多视角图像(静态视角 + 夹爪视角)和语言指令,生成稠密像素运动场 \(\mathbf{F}'_{t,k} = [u, v, (u+v)/2]\)
- Action Expert(低层控制器):基于扩散 Transformer,将像素运动场 + 视觉观测 + 语言指令 + 机器人状态联合编码,去噪生成可执行动作序列
两者通过结构化像素运动表征连接,既保持模块化可升级性,又提供直观可解释的中间抽象。
关键设计¶
1. 稠密像素运动表征¶
- 功能:将场景级运动意图编码为结构化中间表征,连接高层语言理解与低层动作生成
- 核心思路:定义帧 \(\mathbf{I}_t\) 到 \(\mathbf{I}_{t+k}\) 的像素运动为 \(\mathbf{F}_{t,k} = [u, v]\),其中 \(u, v \in \mathbb{R}^{H \times W}\) 分别表示水平/垂直位移。为复用预训练 RGB 扩散模型,将其编码为三通道图像 \(\mathbf{F}'_{t,k} = [u, v, (u+v)/2]\)
- 设计动机:(1)稠密运动比稀疏关键点保留更完整的场景动态信息;(2)三通道编码使 RGB 图像预训练的扩散模型可直接迁移;(3)运动场比 RGB 帧维度低且结构更规则,降低生成难度
- 训练标签生成:训练时使用 RAFT 光流模型从帧对 \((\mathbf{I}_t, \mathbf{I}_{t+k})\) 提取 ground-truth 像素运动
2. Motion Director 架构¶
- 功能:条件化生成稠密像素运动场
- 核心思路:基于预训练 LDM,将当前帧 VAE 编码(不加噪)与高斯噪声拼接作为 U-Net 输入,通过交叉注意力注入语言嵌入(CLIP 文本编码器)、夹爪视角嵌入(CLIP 视觉编码器)和时间偏移 \(k\)
- 设计动机:当前帧编码作为无噪声条件信号保持空间结构对齐;额外的零初始化权重引入夹爪视角条件,保证训练初始阶段不破坏预训练模型行为
- 训练策略:仅更新 U-Net 去噪器权重,冻结 VAE、CLIP 等预训练模块,MSE 噪声估计损失
3. Action Expert 架构¶
- 功能:将像素运动场转化为低层可执行机器人动作序列
- 核心思路:多模态编码 → 交叉注意力条件化去噪 Transformer → 迭代去噪生成动作块。编码器配置:DINOv3 ConvNeXt-S 编码像素运动和视觉观测,T5-small 编码语言指令,2 层 MLP 编码机器人状态
- 设计动机:(1)采用扩散 Transformer 而非 MLP 去噪器,更好建模多模态条件间的复杂依赖;(2)冻结视觉/文本编码器利用预训练表征,仅训练去噪器和状态编码器降低数据需求
- 损失函数:MSE 噪声估计损失,在动作空间预测动作块
训练与推理流程¶
- 并行训练:Motion Director 和 Action Expert 可并行训练——前者用 RAFT 光流作 GT,后者用对应的 GT 光流和动作。可选地,Action Expert 可在 Motion Director 实际输出上进一步微调
- 推理流程:观测编码 → Motion Director(25 步扩散)→ 像素运动场 → Action Expert 去噪 → 动作序列 → 执行 → 更新观测 → 闭环
- 模块化升级:两模块可独立替换升级,便于集成未来更强的视觉或控制模型
实验关键数据¶
主实验¶
CALVIN ABC→D(无外部机器人数据,表1):
| 方法 | Task 1 | Task 2 | Task 3 | Task 4 | Task 5 | Avg Len ↑ |
|---|---|---|---|---|---|---|
| Diffusion Policy | 0.40 | 0.12 | 0.03 | 0.01 | 0.00 | 0.56 |
| Robo-Flamingo | 0.82 | 0.62 | 0.47 | 0.33 | 0.24 | 2.47 |
| MoDE | 0.92 | 0.79 | 0.67 | 0.56 | 0.45 | 3.39 |
| RoboUniview | 0.94 | 0.84 | 0.73 | 0.62 | 0.51 | 3.65 |
| Seer-Large | 0.93 | 0.85 | 0.76 | 0.69 | 0.60 | 3.83 |
| VPP | 0.96 | 0.88 | 0.78 | 0.71 | 0.60 | 3.93 |
| Enhanced DP (ours) | 0.82 | 0.67 | 0.53 | 0.41 | 0.35 | 2.78 |
| DAWN (ours) | 0.98 | 0.91 | 0.79 | 0.71 | 0.61 | 4.00 |
CALVIN ABC→D(有外部数据,表2):
| 方法 | 额外数据 | Task 1 | Task 2 | Task 3 | Task 4 | Task 5 | Avg Len ↑ |
|---|---|---|---|---|---|---|---|
| GR-1 | Ego4D | 0.85 | 0.71 | 0.60 | 0.50 | 0.40 | 3.06 |
| LTM | OpenX | 0.97 | 0.82 | 0.73 | 0.67 | 0.61 | 3.81 |
| MoDE | Multiple | 0.96 | 0.89 | 0.81 | 0.72 | 0.65 | 4.01 |
| VPP | Multiple | 0.97 | 0.91 | 0.87 | 0.82 | 0.77 | 4.33 |
| DreamVLA | DROID | 0.98 | 0.95 | 0.90 | 0.83 | 0.78 | 4.44 |
| DAWN (ours) | DROID | 0.98 | 0.92 | 0.81 | 0.75 | 0.64 | 4.10 |
MetaWorld 11 任务成功率(表3):
| 方法 | door-open | door-close | basketball | shelf-place | btn-press | faucet-close | hammer | assembly | Overall |
|---|---|---|---|---|---|---|---|---|---|
| Diffusion Policy | 45.3 | 45.3 | 8.0 | 0.0 | 40.0 | 22.7 | 4.0 | 1.3 | 24.1 |
| ATM | 75.3 | 90.7 | 24.0 | 16.3 | 77.3 | 50.0 | 4.3 | 2.0 | 52.0 |
| LTM | 77.3 | 95.0 | 39.0 | 20.3 | 82.7 | 52.3 | 10.3 | 7.7 | 57.7 |
| DAWN (ours) | 94.7 | 97.3 | 42.0 | 24.7 | 92.0 | 76.3 | 12.7 | 10.7 | 65.4 |
真实世界 lift-and-place 实验(表4,每任务 20 次随机初始化):
| 方法 | Apple 成功 | Avocado 成功 | Banana 成功 | Grape 成功 | Kiwi 成功 | Orange 成功 | 推理延迟(ms) |
|---|---|---|---|---|---|---|---|
| Enhanced DP | 5→4 | 6→6 | 5→4 | 4→3 | 5→5 | 4→4 | 112.77 |
| π₀ | 10→9 | 6→6 | 5→3 | 8→5 | 5→3 | 8→7 | 571.89 |
| VPP | 16→14 | 15→15 | 15→14 | 17→17 | 15→15 | 16→14 | 190.55 |
| DAWN | 19→19 | 20→19 | 17→16 | 19→19 | 17→16 | 18→16 | 319.82 |
(→ 左侧为抬起成功数,右侧为放置成功数)
消融实验(CALVIN ABC→D,表6)¶
(a) 像素运动 vs 其他中间表征:
| 设置 | Avg Len |
|---|---|
| 无中间表征(仅 Action Expert) | 2.78 |
| RGB 目标图像 | 3.21 |
| 像素运动(U-Net 从头训练) | 3.42 |
| 像素运动(预训练 LDM) | 4.00 |
(b) 夹爪视角条件化:
| 设置 | Avg Len |
|---|---|
| VPP 不含夹爪视角 | 3.58 |
| DAWN 不含夹爪视角 | 3.74 |
| DAWN 含夹爪视角 | 4.00 |
(c) Motion Director 扩散步数:
| 步数 | 2 | 10 | 25 | 40 |
|---|---|---|---|---|
| Avg Len | 3.88 | 3.96 | 4.00 | 3.95 |
双臂操作(表5):DAWN 在 Galaxea R1-Lite 双臂操作上动作预测 MSE 为 0.117,优于 Enhanced DP 的 0.128。
关键发现¶
- 无外部数据即达 SOTA(4.00 > VPP 3.93),数据效率极高
- 像素运动比 RGB 目标图像提升显著(4.00 vs 3.21),且预训练 LDM 迁移到运动生成额外提升(4.00 vs 3.42)
- 语义理解能力强:在语义相似但不同任务对上(door-open 94.7% vs door-close 97.3%)表现均优
- Motion Director 仅 2 步扩散即达 3.88,运动信息高度集中在前几步去噪
- 真实世界仅 1000 个 episode、100k 步微调即实现可靠迁移,且错误抓取率极低(DAWN 几乎为 0)
- 双臂场景同样有效,验证框架泛化性
亮点与洞察¶
- 稠密运动场作为通用中间语言:相比稀疏轨迹和 RGB 帧,稠密像素运动既保留完整空间信息又降低生成复杂度,三通道编码巧妙复用 RGB 预训练权重
- 预训练迁移的惊喜:在 RGB 图像上训练的 LDM 竟能高效迁移到像素运动生成(从头训练 3.42 vs 预训练 4.00),说明运动场与 RGB 图像在潜在空间共享有意义的结构
- 模块化设计实现极高数据效率:冻结预训练编码器 + 仅训练去噪器,在模型容量和训练数据远小于 VLA 方法的条件下达到甚至超越 SOTA
- 可解释中间表征:像素运动场可直接可视化,让用户理解模型的运动意图,这在机器人部署安全性方面具有实际价值
局限性¶
- 两阶段串行推理带来额外延迟(319ms vs Enhanced DP 的 113ms),实时性受限
- RAFT 光流作为训练标签可能在遮挡、大形变场景引入噪声
- 使用外部数据时性能不如 VPP/DreamVLA(4.10 vs 4.33/4.44),大规模数据利用效率有待提升
- 真实世界实验仅覆盖 lift-and-place 和双臂单类任务,复杂长程操作未验证
- 单步运动预测(预测偏移 \(k\)),缺乏多步规划能力
相关工作与启发¶
- Gen2Act / FLIP:从生成视频间接提取运动轨迹 → DAWN 跳过视频生成直接预测运动,更高效
- Diffusion Policy:端到端扩散动作生成但缺乏运动中间抽象 → DAWN 的 Action Expert 在此基础上加入运动条件获得巨大提升(2.78→4.00)
- VPP:在 RGB 空间提取视频扩散特征作为隐式运动表征 → DAWN 用显式像素运动替代,无外部数据时更优
- π₀:大规模 VLA 流匹配模型 → 在真实世界 DAWN 以更小模型和更少数据大幅超越
- 启发:预训练图像扩散模型可视为通用的视觉预测引擎,其能力远超 RGB 图像生成,可迁移到运动预测等结构化输出任务
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 创新性 | 4 | 稠密像素运动 + 双扩散管道,三通道编码复用 RGB 预训练权重的设计巧妙 |
| 技术深度 | 3.5 | 精良的系统工程,但核心原理较为直接(LDM + 光流 GT) |
| 实验完整性 | 4.5 | 三大基准(CALVIN/MetaWorld/真实世界)+ 双臂 + 详尽消融 |
| 写作质量 | 4 | 结构清晰,动机和对比分析充分 |
| 实用价值 | 4 | 数据效率高、可解释、模块化可部署 |
| 总分 | 4.0 | 以小模型和少数据实现 SOTA 的实用框架 |