Model Predictive Adversarial Imitation Learning for Planning from Observation¶
会议: ICLR 2026
arXiv: 2507.21533
代码: 无
领域: 模仿学习 / 机器人规划
关键词: 对抗模仿学习, 模型预测控制, 逆强化学习, 仅观测学习, MPPI
一句话总结¶
提出 MPAIL(Model Predictive Adversarial Imitation Learning),将 MPPI 规划器嵌入对抗模仿学习循环,首次实现端到端的仅观测规划框架(Planning-from-Observation),在泛化性、鲁棒性、可解释性和样本效率上全面优于基于策略的 AIL 方法,并在真实世界机器人导航中从单条观测演示成功部署。
研究背景与动机¶
-
领域现状: 逆强化学习(IRL)通过从专家行为推断奖励函数来实现模仿学习,已广泛应用于自动驾驶、社交导航和路径规划等领域。在高维连续控制中,学到的 IRL 奖励通常通过模型预测控制(MPC)进行实时部署——先离线用 RL 解 IRL、再用 MPC 在线规划,形成"IRL-then-MPC"的主流范式。同时,对抗模仿学习(AIL,如 GAIL)在算法复杂度和样本效率上取得了显著进步。
-
现有痛点: (1) IRL-then-MPC 是两步分离过程:训练时用 RL 解的内循环策略与部署时用的 MPC 规划器是完全独立的,导致训练中学到的奖励未针对 MPC 部署进行优化,需要额外手动调参;(2) 策略式 AIL(如 GAIL、AIRL)依赖黑盒 RL 策略网络,难以施加安全约束,缺乏可解释性,在部分可观测的真实场景中表现脆弱;(3) 学到的奖励和价值函数在策略式 AIL 中被严重低估——部署时只用策略网络,完全丢弃了奖励函数。
-
核心矛盾: AIL 的理论优势(统一奖励学习和策略优化)与实际机器人部署需求(需要 MPC 的安全性、可解释性和在线优化能力)之间存在根本性脱节。
-
本文目标: 如何将规划(MPC)原生嵌入 AIL 循环,实现端到端的"学习规划器"——同时学习奖励和改进基于规划的 agent,且仅需观测状态(无需专家动作)。
-
切入角度: 观察到 MPPI(Model Predictive Path Integral)控制器的目标函数天然是 KL 约束的代价最小化问题,与 AIL 内循环的最大熵 RL 目标在数学上等价——这意味着可以直接用 MPPI 替代 RL 策略作为 AIL 的"生成器"。
-
核心idea: 用 MPPI 规划器替换 AIL 中的 RL 策略,规划器在每个时间步在线求解新策略("deconstructed policy"),同时学习判别器作为代价函数和价值函数做超出规划 horizon 的推理。不需要持久化的策略网络,而是要求奖励函数具备泛化能力。
方法详解¶
整体框架¶
MPAIL 的训练流程与 GAIL 类似但有本质区别:(1) MPPI 规划器在环境中采样轨迹——对一组动作序列做 rollout、用判别器代价评估每条轨迹、加权求解最优动作;(2) 判别器用 BCE 损失区分 agent 状态转移与专家状态转移;(3) 价值网络用蒙特卡洛回报拟合终端代价。与 GAIL 不同,更新完价值网络后不需要策略更新步——因为策略在每个状态都由 MPPI 在线求解。
关键设计¶
-
MPPI 作为 AIL 生成器(核心理论贡献):
- 做什么: 将 MPPI 嵌入 AIL 替代 RL 策略,使规划器本身成为对抗学习的生成器
- 核心思路: AIL 的内循环 RL 目标为 \(\min_\pi \mathbb{E}_\pi[c(s,s')] + \beta \text{KL}(\pi || \bar{\pi})\),其闭式解为 \(\pi^*(a|s) \propto \bar{\pi}(a|s) e^{-\frac{1}{\beta}\bar{c}(s,a)}\)。而 MPPI 恰好求解轨迹级别的等价问题:\(\min_\pi \mathbb{E}_{\tau \sim \pi}[C(\tau) + \beta \text{KL}(\pi(\tau) || \bar{\pi}(\tau))]\),在均匀遍历 MDP 条件下二者等价
- 设计动机: MPPI 的零阶优化不需要梯度反传到策略网络,而是在每个时间步采样大量轨迹并加权平均得到最优动作。这种"在线求解策略"的方式使得不需要策略网络泛化——只需要奖励函数泛化。由于奖励函数通常比策略函数更简单且更具结构化先验,这自然带来更好的 OOD 泛化
-
仅观测的状态转移代价函数:
- 做什么: 使用状态转移 \((s, s')\) 而非状态-动作 \((s, a)\) 来定义代价函数,实现仅观测学习
- 核心思路: 判别器 \(D(s, s') = \sigma \circ d_\theta(s, s')\),奖励为判别器的 logit:\(r(s, s') = \log D(s,s') - \log(1 - D(s,s')) = d_\theta(s,s')\)。采用 AIRL 风格的奖励定义,在与价值函数结合时更稳定
- 设计动机: 在真实机器人场景中,专家动作往往不可观测或难以获取(如从视频中学习),仅观测状态转移是最通用的设定。同时,部分可观测下 \((s, s')\) 可以编码运动方向等单个 \(s\) 无法表达的信息
-
无限 Horizon MPPI 与价值引导:
- 做什么: 用学到的价值函数 \(V_\phi(s)\) 作为 MPPI rollout 的终端代价,将短 horizon 规划扩展到长 horizon 推理
- 核心思路: 价值函数估计 \(G_t = \mathbb{E}_\pi[R_{t+1} + \gamma R_{t+2} + ... | S_t = s_t]\),用 TD 学习更新 \(\nabla_\phi \mathbb{E}[(G_t - V_\phi(s))^2]\)。将 \(V_\phi\) 加到 MPPI 终端状态的代价上,使规划器能"看"到 horizon 之外的信息
- 设计动机: 纯 MPPI 的 rollout 长度有限(如 3 米),但任务可能需要导航到 40 米外的目标。价值函数提供了超出规划 horizon 的经验评估,使短视规划器获得全局意识
损失函数 / 训练策略¶
- 判别器损失: 标准 BCE——\(\nabla_\theta [\mathbb{E}_{d^\pi}[\log D_\theta(s,s')] + \mathbb{E}_{d^{\pi_E}}[\log(1 - D_\theta(s,s'))]]\)
- 价值函数损失: 蒙特卡洛回报的 MSE——\(\nabla_\phi \mathbb{E}[(G_t - V_\phi(s))^2]\),所有方法统一采用 GAE-\(\lambda\) 估计
- 无需策略更新: 与 GAIL/AIRL 不同,MPAIL 在更新完判别器和价值网络后直接由 MPPI 在线求解,不需要额外的策略梯度步骤
- 温度衰减: MPPI 的温度 \(\lambda\) 可在训练中逐步降低,防止早期分布坍缩
- 稳定化技巧: 判别器使用谱归一化(Spectral Normalization),超参数跨所有实验保持一致
实验关键数据¶
主实验¶
真实世界导航实验(Real-Sim-Real,从单条观测轨迹学习):
| 方法 | 最大 CTE (m) | 平均 CTE (m) | 平均速度 (m/s) |
|---|---|---|---|
| Expert | - | - | 1.0 |
| GAIL | 1.29 | 0.56 | 0.37 |
| IRL-MPC | 1.28 | 0.37 | 0.30 |
| MPAIL | 0.76 | 0.17 | 0.70 |
MPAIL 的平均交叉轨迹误差仅 0.17m,比 GAIL 低 70%;速度保持在 0.70 m/s,是 GAIL 的近 2 倍、最接近专家的 1.0 m/s。GAIL 在真实部署中持续跑偏或陷入原地转圈,多种初始构型均失败。
消融实验¶
OOD 泛化实验(导航任务,初始位置从 1×1 扩展到 40×40 m):
| 方法 | ID 性能 | 近 OOD | 远 OOD | 极端 OOD |
|---|---|---|---|---|
| GAIL (策略式) | 好 | 差 | 很差 | 随机 |
| BC (需要动作) | 一般 | 差 | 很差 | 随机 |
| MPAIL (先验模型) | 好 | 好 | 好 | 仍可导航 |
| MPAIL (在线模型) | 好 | 好 | 中 | 路径较长但可达 |
MPAIL 的规划 horizon 仅 3 米,但任务 horizon 可达规划 horizon 的 15 倍。说明学到的代价函数和价值函数也成功泛化到了 OOD 状态。策略网络即使在初始面向目标但稍偏离数据分布时就会失败——表现出极其脆弱的表征。
效率对比(导航任务 + CartPole):
| 方法 | 导航-4 demo | 导航-收敛速度 | CartPole |
|---|---|---|---|
| GAIL | 收敛 | 慢(2x 交互数) | 最快 |
| AIRL | 不收敛 | - | 与 MPAIL 相当 |
| MPAIL | 收敛 | 快(<50% 交互数) | 可比 |
关键发现¶
- 奖励部署至关重要: 策略式 AIL 学到了奖励却在部署时完全丢弃——这是一个根本性限制。MPAIL 在线重新引入奖励,将泛化负担从策略转移到奖励函数
- 端到端训练优于分离部署: IRL-MPC 使用与 GAIL 完全相同的奖励和价值,仅在部署时改用 MPPI——性能已显著优于 GAIL,但仍不及 MPAIL。原因是 MPAIL 端到端训练使判别器被"逼"到更高水平
- 真实世界中策略式 AIL 极脆弱: GAIL 在真实世界中的表现与仿真中的差距远超预期。部分可观测性导致奖励信号极弱(代价值范围 \((-0.022, -0.018)\) vs 仿真中 \((-3, 3)\)),策略网络无法处理这种微弱且模糊的信号
- MPPI 零阶优化的效率: 虽然 MPPI 没有梯度反传到策略,但在导航任务上收敛速度反而是 GAIL 的 2 倍以上——验证了 MPAIL 作为模型基方法的样本效率优势
- Wall Clock Time: MPPI 2 次迭代比 GAIL(PPO) 快约 10%,5 次迭代慢约 10%——实际计算开销可控
亮点与洞察¶
- IRL 和 MPC 的数学统一: MPPI 的 KL 约束轨迹优化目标与 AIL 内循环的最大熵 RL 目标在均匀遍历 MDP 下严格等价。这不仅是工程上的集成,而是揭示了控制论和对抗学习之间深层的数学联系。这个统一使得原本分离的训练和部署流程可以融为一体。
- "解构策略"的哲学: MPAIL 将策略解构为更基础的组件(代价 + 价值 + 模型 + 在线优化器),每个组件可以独立检查和修改。这种透明性对安全关键系统至关重要——你可以直接看到机器人想走的路径为什么代价低、为什么做出这个决策。
- 泛化范式转移: 传统 AIL 要求策略网络泛化到未见状态,而 MPAIL 转为要求奖励函数泛化。由于奖励函数编码的是"意图"而非"如何执行",通常具有更好的结构性和更低的复杂度,天然更易泛化。
局限与展望¶
- 未使用潜在空间规划: 当前 MPAIL 直接在状态空间做 MPPI rollout,未采用潜在动力学模型。在高维空间(如图像输入)中,MPPI 的采样效率会急剧下降,需要像 TD-MPC2 那样的潜在状态规划扩展
- 温度衰减缺乏理论支撑: 论文承认温度衰减策略目前是启发式的,虽然有效但缺乏理论分析
- CartPole 上效率不占优: 使用在线学习动力学模型的 MPAIL(OM) 在 CartPole 上不如 GAIL 高效,可能因为稀疏奖励信号 + 模型偏差 + 额外探索需求的叠加效应
- 仅在简单导航任务验证: 真实实验仅在 RC 小车导航上验证,缺乏更复杂操控任务(如抓取、双臂协作)的评估
- 无策略先验: 当前 MPAIL 没有使用 policy-like 的采样先验,MPPI 在高维动作空间中扩展受限
相关工作与启发¶
- vs GAIL: GAIL 用 PPO 策略作为 AIL 的生成器,部署时丢弃奖励只用策略。MPAIL 证明这种做法有根本缺陷——学到的奖励被严重浪费,策略网络难以泛化到 OOD 状态。在真实世界实验中 GAIL 完全失败而 MPAIL 成功
- vs IRL-MPC: IRL-MPC 是当前主流范式——先用 GAIL/IRL 训练奖励,再手动调到 MPC 上部署。MPAIL 证明端到端训练远优于分离部署:IRL-MPC 的奖励和价值直接来自 GAIL,因此继承了 GAIL 训练不充分的问题(因为奖励从未被 MPPI 挑战过)
- vs TD-MPC2: TD-MPC2 是 model-based RL 的 SOTA,使用潜在状态规划。MPAIL 目前在状态空间操作,但其框架天然兼容潜在动力学扩展,论文在 future work 中明确指出了这一方向
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ MPPI 与 AIL 的数学等价性揭示、端到端 PfO 框架是全新贡献
- 实验充分度: ⭐⭐⭐⭐ 仿真导航 + 真实 RC 小车 + OOD 评估 + 效率对比 + Wall Clock Time,但缺乏更复杂任务
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰严谨,实验动机和结论之间的逻辑链完整
- 价值: ⭐⭐⭐⭐⭐ 对安全关键系统的模仿学习有直接且实际的价值,开源实现降低了复现门槛