跳转至

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

会议: ICLR 2026
arXiv: 2510.01068
代码: https://sagecao1125.github.io/GPC-Site/
领域: 图像生成
关键词: 策略组合, 扩散策略, 分布级组合, 测试时搜索, 机器人操控

一句话总结

提出 General Policy Composition (GPC),在测试时通过凸组合多个预训练扩散/Flow 策略的分布分数(score),无需额外训练即可产生超越任何单一父策略的更强策略,理论证明凸组合可改善单步分数误差且通过 Grönwall 界传播到全程轨迹。

研究背景与动机

领域现状:扩散策略(Diffusion Policy)已成为机器人学习中的强大策略参数化方法,能表示复杂的多模态动作分布。但其进步受限于大规模交互数据集的获取成本。

现有痛点:(a) 扩大模型容量需要更多数据;(b) 监督微调需要昂贵的数据收集;(c) 强化学习需要奖励工程和大量在线交互;(d) 现有策略组合方法(如 PoCo)使用固定权重,未探索任务依赖的权重搜索。

核心矛盾:单个策略的性能受限于其训练数据和模型容量,但组合多个策略需要理论保证——朴素平均不一定更好。

本文目标 在不额外训练的前提下,通过组合现有策略获得更强的策略。

切入角度:类比组合生成模型——在扩散模型中,多个分数函数的凸组合等价于概率密度函数的乘积,采样会偏向共识区域。

核心 idea:凸组合多个扩散策略的分数函数+测试时权重搜索=无训练的策略增强。

方法详解

整体框架

给定两个预训练扩散/Flow 策略 \(\pi_1, \pi_2\),GPC 在推理时的每个去噪步骤中凸组合两者的分数估计:\(\hat{s}_{\text{comp}} = w_1 s_1 + w_2 s_2\),然后在 \(w_1 \in \{0.0, 0.1, \dots, 1.0\}\) 上搜索最优权重。支持异构策略组合(VA+VLA、不同视觉模态、diffusion+flow-matching)。

关键设计

  1. 凸分数组合的理论保证:

    • 功能:证明凸组合在功能层和系统层均优于单一模型
    • 核心思路:Proposition 4.1 证明两个有不同偏差/噪声的分数估计器,其凸组合的 MSE \(Q(w)\)\(w\) 的凸二次函数——最小值点严格优于任一端点(除非两者误差完全一致)。Proposition 4.2 通过 Grönwall 界证明这种单步改进传播到整条采样轨迹
    • 设计动机:为"组合比单一更好"提供数学保证,而非仅凭经验观察
  2. 通用策略组合框架(GPC):

    • 功能:将分数组合应用于任意扩散/Flow 策略
    • 核心思路:将 CFG(classifier-free guidance)推广为多策略组合:\(\hat{\epsilon}(\tau_t, t, \mathbf{c}) = \epsilon_\theta(\tau_t, t) + \sum_i w_i(\epsilon_\theta(\tau_t, t, \mathbf{c}_i) - \epsilon_\theta(\tau_t, t))\)。对于异构模型(如不同去噪步数、不同噪声调度),统一到分数空间后组合
    • 设计动机:最大化灵活性——不要求父策略在架构、输入模态或训练数据上一致
  3. 测试时权重搜索:

    • 功能:为每个任务找最优组合权重
    • 核心思路:在 \(w \in [0, 1]\) 上以 0.1 步长搜索,选择在验证数据上表现最好的权重
    • 设计动机:最优权重是任务依赖的——说明即使相同的两个父策略,不同任务需要不同的组合比例
  4. 替代组合算子(AND/OR):

    • AND 组合(分布乘积):\(\nabla \log p(\tau) = \nabla \log p_1(\tau) + \nabla \log p_2(\tau)\),等价于只在两个策略都认可的区域采样
    • OR 组合(分布混合):\(p(\tau) \propto w_1 p_1(\tau) + w_2 p_2(\tau)\),保留两个策略的多模态性

损失函数 / 训练策略

零训练。GPC 完全在推理时工作,不修改任何预训练模型的参数。唯一的搜索开销是对 11 个权重值的评估。

实验关键数据

主实验

Robomimic(6 个任务)、PushT、RoboTwin 基准:

设置 方法 平均成功率
DP alone 单策略 baseline
DP3 alone 单策略 baseline
GPC (DP + DP3) 凸组合 超越两者
  • GPC 在多数任务上超越两个父策略中较好的那个
  • 真实机器人实验同样验证了一致的性能提升

消融实验

分析维度 关键发现
凸组合 vs AND vs OR 凸组合通常最优;AND 在需要高精度的任务好;OR 在多模态任务好
最优权重分析 不同任务的最优 \(w\) 差异大(0.2~0.8),验证了任务依赖性
异构组合(VA+VLA) 可以组合完全不同架构的策略,甚至不同视觉输入
搜索粒度 0.1 步长已足够,更细粒度收益递减

关键发现

  • 组合策略确实可以超越任何单一父策略——这是最令人惊讶的核心发现
  • 最优权重高度任务依赖:固定权重无法通用
  • 凸分数组合将采样导向两个策略的"共识"高密度区域,自然减少了单一策略的边缘错误
  • 即使一个父策略在某任务上完全失败,组合后仍可能成功

亮点与洞察

  • 1+1>2 的理论保证:凸组合改善分数误差的证明(Proposition 4.1)简洁而有力——关键洞察是不同模型的偏差方向通常不同,混合可以相互抵消
  • 零训练成本:完全在推理时工作,可以即插即用地增强任何现有策略,这在实际部署中极有价值
  • 异构组合的灵活性:可以组合 VA 和 VLA、RGB 和点云输入、diffusion 和 flow-matching——只要能提取分数函数就能组合
  • 与 CFG 的统一视角:将 GPC 解释为多策略版的 classifier-free guidance,提供了清晰的概率解释

局限与展望

  • 测试时搜索需要每个任务单独调优权重——在大量任务时搜索成本不可忽视
  • 理论保证假设两个分数估计器有不同偏差,但如果两个模型在相同数据上训练,偏差可能高度相关
  • 仅验证了两个策略的组合,N>2 时权重空间指数增长
  • 未讨论组合后策略的安全性保证——共识区域不一定是安全的
  • 实验以成功率为主指标,缺乏对组合策略动作质量(如平滑度、效率)的分析

相关工作与启发

  • vs PoCo (Wang et al., 2024c): PoCo 做约束/任务/模态级组合但使用固定权重。GPC 引入测试时搜索找任务最优权重,且对组合机制有更深入的理论分析
  • vs 模型集成: 传统集成平均预测,GPC 在分数/分布层面组合——前者平均行为,后者聚焦共识
  • 迁移思路: 分数组合的理论和方法可直接迁移到图像/视频生成中的模型组合(如多风格扩散模型的组合生成)

评分

  • 新颖性: ⭐⭐⭐⭐ 理论保证优雅,但组合思路在生成模型领域不算全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 仿真+真机,多基准多策略类型,消融全面
  • 写作质量: ⭐⭐⭐⭐⭐ 理论动机→方法→实验的逻辑链非常清晰
  • 价值: ⭐⭐⭐⭐ 实用性极高的"免费午餐"方法,可直接应用于现有机器人系统