Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition¶

会议: ICLR 2026
arXiv: 2510.01068
代码: https://sagecao1125.github.io/GPC-Site/
领域: 图像生成
关键词: 策略组合, 扩散策略, 分布级组合, 测试时搜索, 机器人操控

一句话总结¶

提出 General Policy Composition (GPC)，在测试时通过凸组合多个预训练扩散/Flow 策略的分布分数（score），无需额外训练即可产生超越任何单一父策略的更强策略，理论证明凸组合可改善单步分数误差且通过 Grönwall 界传播到全程轨迹。

研究背景与动机¶

领域现状：扩散策略（Diffusion Policy）已成为机器人学习中的强大策略参数化方法，能表示复杂的多模态动作分布。但其进步受限于大规模交互数据集的获取成本。

现有痛点：(a) 扩大模型容量需要更多数据；(b) 监督微调需要昂贵的数据收集；(c) 强化学习需要奖励工程和大量在线交互；(d) 现有策略组合方法（如 PoCo）使用固定权重，未探索任务依赖的权重搜索。

核心矛盾：单个策略的性能受限于其训练数据和模型容量，但组合多个策略需要理论保证——朴素平均不一定更好。

本文目标 在不额外训练的前提下，通过组合现有策略获得更强的策略。

切入角度：类比组合生成模型——在扩散模型中，多个分数函数的凸组合等价于概率密度函数的乘积，采样会偏向共识区域。

核心 idea：凸组合多个扩散策略的分数函数+测试时权重搜索=无训练的策略增强。

方法详解¶

整体框架¶

给定两个预训练扩散/Flow 策略 \(\pi_1, \pi_2\)，GPC 在推理时的每个去噪步骤中凸组合两者的分数估计：\(\hat{s}_{\text{comp}} = w_1 s_1 + w_2 s_2\)，然后在 \(w_1 \in \{0.0, 0.1, \dots, 1.0\}\) 上搜索最优权重。支持异构策略组合（VA+VLA、不同视觉模态、diffusion+flow-matching）。

关键设计¶

凸分数组合的理论保证:
- 功能：证明凸组合在功能层和系统层均优于单一模型
- 核心思路：Proposition 4.1 证明两个有不同偏差/噪声的分数估计器，其凸组合的 MSE \(Q(w)\) 是 \(w\) 的凸二次函数——最小值点严格优于任一端点（除非两者误差完全一致）。Proposition 4.2 通过 Grönwall 界证明这种单步改进传播到整条采样轨迹
- 设计动机：为"组合比单一更好"提供数学保证，而非仅凭经验观察
通用策略组合框架（GPC）:
- 功能：将分数组合应用于任意扩散/Flow 策略
- 核心思路：将 CFG（classifier-free guidance）推广为多策略组合：\(\hat{\epsilon}(\tau_t, t, \mathbf{c}) = \epsilon_\theta(\tau_t, t) + \sum_i w_i(\epsilon_\theta(\tau_t, t, \mathbf{c}_i) - \epsilon_\theta(\tau_t, t))\)。对于异构模型（如不同去噪步数、不同噪声调度），统一到分数空间后组合
- 设计动机：最大化灵活性——不要求父策略在架构、输入模态或训练数据上一致
测试时权重搜索:
- 功能：为每个任务找最优组合权重
- 核心思路：在 \(w \in [0, 1]\) 上以 0.1 步长搜索，选择在验证数据上表现最好的权重
- 设计动机：最优权重是任务依赖的——说明即使相同的两个父策略，不同任务需要不同的组合比例
替代组合算子（AND/OR）:
- AND 组合（分布乘积）：\(\nabla \log p(\tau) = \nabla \log p_1(\tau) + \nabla \log p_2(\tau)\)，等价于只在两个策略都认可的区域采样
- OR 组合（分布混合）：\(p(\tau) \propto w_1 p_1(\tau) + w_2 p_2(\tau)\)，保留两个策略的多模态性

损失函数 / 训练策略¶

零训练。GPC 完全在推理时工作，不修改任何预训练模型的参数。唯一的搜索开销是对 11 个权重值的评估。

实验关键数据¶

主实验¶

Robomimic（6 个任务）、PushT、RoboTwin 基准：

设置	方法	平均成功率
DP alone	单策略	baseline
DP3 alone	单策略	baseline
GPC (DP + DP3)	凸组合	超越两者

GPC 在多数任务上超越两个父策略中较好的那个
真实机器人实验同样验证了一致的性能提升

消融实验¶

分析维度	关键发现
凸组合 vs AND vs OR	凸组合通常最优；AND 在需要高精度的任务好；OR 在多模态任务好
最优权重分析	不同任务的最优 \(w\) 差异大（0.2~0.8），验证了任务依赖性
异构组合（VA+VLA）	可以组合完全不同架构的策略，甚至不同视觉输入
搜索粒度	0.1 步长已足够，更细粒度收益递减

关键发现¶

组合策略确实可以超越任何单一父策略——这是最令人惊讶的核心发现
最优权重高度任务依赖：固定权重无法通用
凸分数组合将采样导向两个策略的"共识"高密度区域，自然减少了单一策略的边缘错误
即使一个父策略在某任务上完全失败，组合后仍可能成功

亮点与洞察¶

1+1>2 的理论保证：凸组合改善分数误差的证明（Proposition 4.1）简洁而有力——关键洞察是不同模型的偏差方向通常不同，混合可以相互抵消
零训练成本：完全在推理时工作，可以即插即用地增强任何现有策略，这在实际部署中极有价值
异构组合的灵活性：可以组合 VA 和 VLA、RGB 和点云输入、diffusion 和 flow-matching——只要能提取分数函数就能组合
与 CFG 的统一视角：将 GPC 解释为多策略版的 classifier-free guidance，提供了清晰的概率解释

局限与展望¶

测试时搜索需要每个任务单独调优权重——在大量任务时搜索成本不可忽视
理论保证假设两个分数估计器有不同偏差，但如果两个模型在相同数据上训练，偏差可能高度相关
仅验证了两个策略的组合，N>2 时权重空间指数增长
未讨论组合后策略的安全性保证——共识区域不一定是安全的
实验以成功率为主指标，缺乏对组合策略动作质量（如平滑度、效率）的分析

评分¶

新颖性: ⭐⭐⭐⭐ 理论保证优雅，但组合思路在生成模型领域不算全新
实验充分度: ⭐⭐⭐⭐⭐ 仿真+真机，多基准多策略类型，消融全面
写作质量: ⭐⭐⭐⭐⭐ 理论动机→方法→实验的逻辑链非常清晰
价值: ⭐⭐⭐⭐ 实用性极高的"免费午餐"方法，可直接应用于现有机器人系统