MP1: MeanFlow Tames Policy Learning in 1-step for Robotic Manipulation¶
会议: AAAI 2026
arXiv: 2507.10543
代码: github.com/LogSSim/MP1
领域: 图像生成 / 机器人操作
关键词: 机器人操作, MeanFlow, 单步推理, 流匹配, 分散损失
一句话总结¶
首次将 MeanFlow 范式引入机器人学习领域,结合 3D 点云输入和 Dispersive Loss,实现仅需一次网络前向传播(1-NFE)即可生成动作轨迹,在机器人操作任务中以 6.8ms 推理延迟达到 SOTA 成功率。
研究背景与动机¶
领域现状¶
机器人操作(Robot Manipulation)领域中,生成模型已成为策略学习的主流方法。扩散模型(如 Diffusion Policy, DP3)能有效处理多模态动作分布,但需要多步(~10步)去噪迭代,推理延迟约 130ms。流匹配方法(如 FlowPolicy)通过一致性约束实现单步采样,缩短推理时间至约 12ms,但仍依赖额外的约束假设。
现有痛点¶
扩散模型推理慢:多步去噪过程导致推理延迟高达 ~130ms,难以满足实时控制需求(如力控操作、高频反馈回路)。
流匹配方法受限于一致性约束:FlowPolicy 等方法通过强制一致性损失实现 1-NFE 推理,但这引入了额外的结构假设,可能限制策略的表达能力。
ODE 求解器误差:传统 Flow Matching 在推理时需要积分瞬时速度场,数值 ODE 求解器引入的误差会降低轨迹精度。
核心矛盾¶
如何在不引入任何一致性约束或 ODE 求解器的前提下实现真正的单步动作生成,同时保持甚至超越多步方法的任务成功率?
核心 Idea¶
MeanFlow 范式通过直接学习区间平均速度场(而非瞬时速度场),利用 "MeanFlow Identity" 这一微分恒等式将训练转化为简单的回归目标。推理时只需一次前向传播即可从噪声直接得到动作轨迹,完全消除 ODE 求解器误差和一致性约束。同时引入 Dispersive Loss 作为训练时正则化器,增强特征空间判别性,提升少样本泛化能力。
方法详解¶
整体框架¶
MP1 以 3D 点云和机器人状态作为输入,通过视觉编码器和状态编码器提取条件特征 \(\mathbf{c} = (\mathbf{f}_v, \mathbf{f}_s)\),输入集成了 MeanFlow 的 UNet 网络生成动作轨迹。训练时结合 CFG 回归损失 \(\mathcal{L}_{cfg}\) 和 Dispersive Loss \(\mathcal{L}_{disp}\),推理时仅需一次前向传播。
关键设计¶
1. MeanFlow 策略生成(核心创新)¶
功能:学习区间平均速度场替代瞬时速度场,实现无 ODE 求解器的单步动作生成。
核心思路:标准 Flow Matching 学习瞬时速度场 \(v(z_t, t)\),推理需要积分 ODE。MeanFlow 则学习区间 \([r, t]\) 上的平均速度场:
直接从积分定义学习是不可行的,但通过对 \(t\) 求导可得 "MeanFlow Identity":
基于该恒等式,训练目标变为简单的回归:
其中 \(u_{tgt} = v_t - (t-r)(v_t \partial_z u_\theta + \partial_t u_\theta)\),\(sg(\cdot)\) 表示 stop-gradient。
推理公式: $\(\mathbf{A}_0 = \mathbf{A}_1 - u_\theta^{cfg}(\mathbf{A}_1, 0, 1 | \mathbf{c})\)$
从噪声 \(\mathbf{A}_1 \sim \mathcal{N}(0, I)\) 一步直接得到动作轨迹 \(\mathbf{A}_0\)。
设计动机:MeanFlow 消除了三个限制:(1) 多步去噪(扩散模型)、(2) ODE 求解器误差(FlowMatching)、(3) 一致性约束(FlowPolicy)。
2. Classifier-Free Guidance (CFG) 集成¶
功能:在 MeanFlow 框架中引入 CFG 增强条件控制能力。
核心思路:训练时按混合比例 \(\omega\) 融合条件和无条件预测构造引导速度:
用引导速度替代普通瞬时速度来构造 MeanFlow 训练目标。
设计动机:CFG 在图像生成中已证明能显著提升条件控制质量,但传统 CFG 需要多步推理。MeanFlow 的框架允许在不牺牲 1-NFE 的前提下集成 CFG,因为 MeanFlow 学的是平均速度而非瞬时速度。
3. Dispersive Loss(分散损失)¶
功能:训练时正则化策略网络的中间特征空间,防止不同状态的特征坍缩,提升泛化能力。
核心思路:类似于"无正样本对的对比学习",对批次内不同样本的中间表示施加排斥力:
其中 \(\mathbf{z}_{\mathbf{A},i}\) 是 UNet 下采样块的输出特征。\(\tau=1\) 为温度超参。
设计动机:纯回归目标只为每个状态匹配正确轨迹,不显式约束特征空间结构。这导致"特征坍缩"——不同场景状态映射到相似的潜在点,使策略无法区分需要不同动作的微妙状态差异。Dispersive Loss 强制特征分散,隐式增强了策略对场景细微变化的敏感性,特别在少样本学习中效果显著。
关键优势:仅在训练时计算,推理时零额外开销,不影响 1-NFE 速度。
损失函数 / 训练策略¶
总损失: $\(\mathcal{L}_{total}(\theta) = \mathcal{L}_{cfg}(\theta) + \lambda \mathcal{L}_{Disp}(\theta)\)$
\(\lambda = 0.5\) 平衡两项贡献。训练参数:10 个专家演示、batch size 128、AdamW 优化器、学习率 0.0001、Adroit 训练 3000 epochs、Meta-World 训练 1000 epochs。
实验关键数据¶
主实验¶
37个任务(3 Adroit + 34 Meta-World)的成功率和推理速度:
| 方法 | NFE | Adroit Hammer | Adroit Door | Adroit Pen | MW Easy(21) | MW Medium(4) | MW Hard(4) | MW V.Hard(5) | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| DP3 | 10 | 100±0 | 56±5 | 46±10 | 87.3±2.2 | 44.5±8.7 | 32.7±7.7 | 39.4±9.0 | 68.7±4.7 |
| FlowPolicy | 1 | 98±1 | 61±2 | 54±4 | 84.8±2.2 | 58.2±7.9 | 40.2±4.5 | 52.2±5.0 | 71.6±3.5 |
| MP1 | 1 | 100±0 | 69±2 | 58±5 | 88.2±1.1 | 68.0±3.1 | 58.1±5.0 | 67.2±2.7 | 78.9±2.1 |
MP1 比 DP3 高 10.2%,比 FlowPolicy 高 7.3%,同时标准差更低(2.1% vs 3.5%)。
推理速度对比:
| 方法 | NFE | 平均推理/ms |
|---|---|---|
| DP3 | 10 | 132.2±11.2 |
| Simple DP3 | 10 | 97.0±9.2 |
| FlowPolicy | 1 | 12.6±1.5 |
| MP1 | 1 | 6.8±0.1 |
MP1 推理仅 6.8ms,比 FlowPolicy 快 ~2×,比 DP3 快 ~19×。
真实世界实验(5个任务,每个20次评估):
| 任务 | MP1 | FlowPolicy | DP3 |
|---|---|---|---|
| Hammer | 90% / 18.6s | 70% / 22.3s | 70% / 31.1s |
| Drawer Close | 100% / 8.8s | 90% / 15.7s | 80% / 20.2s |
| Heat Water | 90% / 23.4s | 60% / 31.1s | 70% / 38.8s |
| Stack Block | 80% / 27.2s | 50% / 29.6s | 60% / 35.1s |
| Spoon | 90% / 22.6s | 80% / 26.7s | 70% / 28.3s |
消融实验¶
Dispersive Loss 消融(选取 10 个任务):
| 配置 | Adroit Door | Adroit Pen | MW Coffee Pull | MW Disassemble | MW Pick Place Wall | 说明 |
|---|---|---|---|---|---|---|
| MP1(完整) | 58±5 | 69±2 | 92.3±3.7 | 74.0±1.4 | 64.3±1.2 | 标准配置 |
| MP1 - Disp Loss | 55±6 | 68±4 | 90.7±2.1 | 72.7±0.5 | 60.3±2.4 | 移除分散损失 |
MeanFlow Ratio 消融:
| Flow Ratio | Adroit Pen | MW Dial Turn | MW Coffee Pull | MW Assembly | 平均 |
|---|---|---|---|---|---|
| 0(= FM) | 53±5 | 81±1 | 62±4 | 97±2 | 72.6±3.0 |
| 0.50 | 58±5 | 90±2 | 92±4 | 98±1 | 82.4±2.6 |
| 1.0 | 0±0 | 0±0 | 12±5 | 0±0 | 2.4±1.0 |
当 \(r=t\)(ratio=0)退化为标准 Flow Matching 时,性能显著下降;ratio=1.0 时完全失败。
关键发现¶
- MeanFlow 优于 Flow Matching:ratio=0(标准 FM)→ ratio=0.5(MeanFlow)成功率从 72.6% 提升至 82.4%,验证了平均速度场的优势。
- Dispersive Loss 对困难任务帮助更大:在 Meta-World Push 任务上,Dispersive Loss 带来 23.3 个百分点的提升(50.7→74.0)。
- 少样本学习能力强:仅用 10 个演示即可获得高成功率,增加到 20 个时提升收敛但最终性能差异不大。
- 真实世界迁移成功:在 5 个真实机器人任务上全面领先,且完成时间更短。
亮点与洞察¶
- MeanFlow 在机器人领域的首次应用:从图像生成领域成功迁移,展现了该范式的通用性。
- 真正的 1-NFE:与 FlowPolicy 不同,MP1 不需要一致性约束,不需要 ODE 求解器,理论上更干净。
- Dispersive Loss 的巧妙设计:作为训练时正则化器,不增加推理开销,却显著提升少样本泛化。这实际上是一种特征空间的均匀化约束,可推广到其他策略学习场景。
- 6.8ms 推理延迟:已达到实时控制级别(~150Hz),对高频控制任务具有实际意义。
局限与展望¶
- 仅验证 Adroit 和 Meta-World:虽然包含 37 个任务,但任务类型相对有限(主要是桌面操作),未验证在 locomotion、navigation 等领域。
- 真实世界实验规模有限:5 个任务、每个 10 次评估,统计意义有限。
- 10 个演示的设定:仍然需要人工演示,非零样本学习。
- UNet 骨干网络:使用传统 UNet 而非 Transformer 架构(如 DiT),可能限制了在更复杂任务上的表达能力。
相关工作与启发¶
- MeanFlow(图像生成):MP1 的核心理论基础,证明了平均速度场可以实现真正的单步生成。
- DP3:提供了 3D 点云 + 扩散模型的机器人策略框架基础。
- FlowPolicy:最直接的对比对象,展示了 MeanFlow 相对一致性约束方法的优势。
- Dispersive Loss(Disperse 论文):提供了特征空间正则化的思路,在少样本学习中效果显著。
评分¶
- 新颖性: ⭐⭐⭐⭐ — MeanFlow 在机器人领域的首次应用,Dispersive Loss 的引入
- 实验充分度: ⭐⭐⭐⭐⭐ — 37个仿真任务 + 5个真实任务,多维度消融分析
- 写作质量: ⭐⭐⭐⭐ — 方法推导清晰,实验对比全面
- 价值: ⭐⭐⭐⭐⭐ — 6.8ms 推理 + SOTA 成功率,对实时机器人控制有重要意义