Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations¶
会议: ICLR2026
arXiv: 2601.01003
代码: 待确认
领域: 图像生成
关键词: 扩散策略, 收缩理论, 离线强化学习, 模仿学习, Score-Based Models
一句话总结¶
提出 Contractive Diffusion Policies (CDPs),通过在扩散采样 ODE 中引入收缩正则化来抑制 score 匹配误差和求解器误差的累积,以最小修改和单一超参数 \(\gamma\) 提升离线学习中扩散策略的鲁棒性。
研究背景与动机¶
- 扩散策略在离线 RL 和模仿学习中表现优异,但其迭代采样过程中 score 估计误差、离散化误差和数值积分误差会逐步累积
- 与图像生成不同,机器人控制中微小的动作偏差会复合放大,将策略推离数据分布支撑,导致任务失败
- 现有 Diffusion Policy 在相同状态下生成动作的一致性不足,且在数据稀缺场景下效果显著下降
- 收缩理论(Contraction Theory)研究微分方程解的收敛性,可使系统快速遗忘初始扰动并自然抑制误差增长
- 之前的 contractive DDPM 方法全局强制收缩,可能降低多样性且难以高效融入离线学习框架
- 需要一种理论有据、实现简单且计算开销可控的方法,在不损害动作分布多样性的前提下增强鲁棒性
方法详解¶
整体框架¶
CDP 把扩散策略的反向采样看成一条 ODE \(d\mathbf{a}_t = F_\theta(\mathbf{a}_t, t)\, dt\),并要求这条 ODE 是"收缩"的——相近的两条采样轨迹会越走越近,从而把途中累积的 score 误差和数值误差自然遗忘掉。具体做法是把 ODE 的 Jacobian 拆成漂移项 \(f(t)I\) 与 score Jacobian \(h(t)J_{\epsilon_\theta}\)(其中 \(h(t)=g(t)^2/(2\sigma_t)\)),在训练时对每个去噪步约束 score Jacobian 的最大特征值,使采样过程满足收缩条件;部署阶段策略冻结,照常用 ODE 采样生成动作,无需任何额外推理开销。
关键设计¶
1. 收缩条件的充要刻画:把"误差会不会爆"变成一个可检验的特征值不等式
直接证明误差不累积很难,CDP 借收缩理论把它转成对 Jacobian 谱的约束。Theorem 3.1 证明扩散 ODE 收缩当且仅当 score Jacobian 对称部分的最大特征值满足 \(\lambda_{\max}(J_{\epsilon_\theta}^{\text{sym}}) < -f(t)h(t)^{-1}\),即只要把这个特征值压到漂移项决定的阈值以下,途中的 score 匹配误差和离散化误差就会被指数遗忘而非放大。在此基础上 Corollary 3.1.1 进一步给出动作方差对初始种子敏感度的上界,从理论上解释了为什么收缩能提升"同一状态下重复采样的一致性"——这正是机器人控制比图像生成更在意的性质。
2. 幂迭代估特征值:让收缩约束的代价从不可承受降到可忽略
收缩条件需要在每个 batch、每个去噪步都拿到 score Jacobian 的最大特征值,若显式构造并对角化 Jacobian 开销极高。CDP 改用幂迭代(Power Iteration),只靠 Jacobian-向量积反复迭代即可逼近主特征值,实测仅需 \(K=3\sim4\) 次迭代就能稳定估出 \(\hat{\lambda}_{\max}\),避免了完整谱分解。正因为这一步足够便宜,收缩正则才得以嵌进逐步去噪的训练循环,整体只带来约 14% 的训练耗时增长。
3. 带阈值的收缩损失:把约束变成可微惩罚,同时防止收缩过头压垮多样性
有了特征值估计,CDP 用一个可微损失把"特征值要低于阈值"软性地施加进去,并提供两种形式:截断惩罚 \(\max(-\beta,\ \hat{\lambda}_{\max} + f(t)h(t)^{-1})\),以及基于 Frobenius 范数的替代版 \(\|J_{\epsilon_\theta}^{\text{sym}} + \beta I\|_F\)。两者都靠参数 \(\beta\) 设定一个收缩下限:只要特征值已落到 \(-\beta\) 以内就不再继续往下压,从而避免把 score 场逼成处处坍向一点的平凡收缩、保住动作分布的多样性。这一阈值机制也是 CDP 与全局强制收缩的 contractive DDPM 的关键差异。
损失函数 / 训练策略¶
总损失为 \(\mathcal{L}(\theta) = \mathcal{L}_d(\theta) + \gamma\, \mathcal{L}_c(\theta)\),其中 \(\mathcal{L}_d\) 是标准 score matching 损失、\(\mathcal{L}_c\) 是上面的收缩损失,\(\gamma\)(默认 \(\gamma=0.1\))是全方法唯一新增的超参数。两项构成一种有益张力:score matching 保证去噪准确、拉住策略贴合数据,防止收缩惩罚把 score 推向"什么都收敛到同一点"的平凡解。实现上离线 RL 基于 EDP(Efficient Diffusion Policy)、模仿学习基于 DBC(Diffusion Behavior Cloning);骨干网络在低维观测用 residual MLP、图像观测用 Diffusion Transformer,训练 200k–500k 步,每 20k 步存检查点并在仿真环境评估。
实验关键数据¶
主实验 — D4RL 离线 RL(Table 1)¶
| 环境 | EDP | IDQL | CDP |
|---|---|---|---|
| ME-HalfCheetah | 93.4 | 88.9 | 94.8 |
| M-Hopper | 61.1 | 54.2 | 62.8 |
| M-Walker2D | 81.7 | 80.9 | 86.5 |
| MR-Hopper | 55.1 | 51.5 | 63.5 |
| Complete-Kitchen | 32.9 | 31.6 | 51.0 |
| 整体平均 | 61.2 | 60.3 | 65.7 |
消融/低数据实验(Figure 5)¶
| 数据比例 | EDP | CDP |
|---|---|---|
| 100% | 基线 | 略优 |
| 10% | 明显下降 | 决定性优势 |
关键发现¶
- Robomimic IL 成功率:CDP-Unet 平均 0.90 vs DP-Unet 0.88,在 Can-H 上达 1.00 vs 0.95,Transport-H 上 0.75 vs 0.68
- 物理 Franka 臂实验:CDP 成功完成 3/4 任务(Slide/Stack/Peg),在 Peg 等困难任务上显著优于 DBC
- Kitchen-Complete 环境提升最突出:CDP 51.0 vs EDP 32.9,绝对提升 +18.1
- MR-Walker2D:CDP 89.7 vs IDQL 84.6 vs EDP 82.0,在 replay 数据质量差的场景优势明显
- 训练开销:CDP 约 5236 秒/100k步 vs EDP 4594 秒,增加约 14% 计算成本
- 超参数 \(\gamma\) 在 \(\{0.001, 0.01, 0.1, 1, 10, 100\}\) 范围内搜索,直接设 \(\gamma=0.1\) 即可获得稳定效果
亮点与洞察¶
- 理论优雅:将收缩理论与扩散采样 ODE 精确对接,Theorem 3.1 建立了 score Jacobian 特征值与采样收缩的充要条件
- 实用性强:仅添加一个超参数 \(\gamma\) 和一个可高效计算的收缩损失,即可无缝嵌入现有扩散策略架构
- 低数据优势显著:在 10% 数据下 CDP 决定性地超越所有基线,说明收缩确实抑制了 score 匹配误差在数据稀缺时的放大
- 真机验证:在物理 Franka 臂上的 4 项操作任务中验证了方法的实用价值
局限与展望¶
- 收缩损失系数 \(\gamma\) 对性能敏感,调优不当会损害策略表现,缺少自适应调节机制
- 仅基于 EDP 和 DBC 实现,未探索与 DiffusionQL、IDQL 等其他离线学习方法的组合效果
- 图像观测空间的实验较有限,且未在真实环境中进行低维观测的实验
- 在某些已接近最优的环境中(如 ME-Walker2D),收缩正则化带来的增益有限甚至略有损失
相关工作与启发¶
- vs DiffusionQL:DQL 通过扩散损失 + 值函数最大化进行行为正则化,CDP 则从采样动力学层面增强鲁棒性;D4RL 平均 CDP 65.7 vs DQL 58.8
- vs Contractive DDPM:后者全局强制收缩,可能损失多样性;CDP 通过截断参数 \(\beta\) 控制收缩强度,避免模式坍塌,更适合策略学习
- vs Diffusion Policy (DP-Unet):DP-Unet 在 IL 中依靠 UNet 架构和长动作序列优势领先;CDP-Unet 在整合收缩后进一步提升至 0.90 平均成功率
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将收缩理论系统性地引入扩散策略采样过程
- 实验充分度: ⭐⭐⭐⭐ D4RL + Robomimic + 真机,覆盖离线 RL 和 IL 两种范式
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨,实验叙述清晰
- 价值: ⭐⭐⭐⭐ 以极低实现代价带来一致的性能提升,尤其适用于数据稀缺场景