Model Predictive Adversarial Imitation Learning for Planning from Observation¶

会议: ICLR 2026
arXiv: 2507.21533
代码: 无
领域: 模仿学习 / 机器人规划
关键词: 对抗模仿学习, 模型预测控制, 逆强化学习, 仅观测学习, MPPI

一句话总结¶

提出 MPAIL（Model Predictive Adversarial Imitation Learning），将 MPPI 规划器嵌入对抗模仿学习循环，首次实现端到端的仅观测规划框架（Planning-from-Observation），在泛化性、鲁棒性、可解释性和样本效率上全面优于基于策略的 AIL 方法，并在真实世界机器人导航中从单条观测演示成功部署。

研究背景与动机¶

领域现状: 逆强化学习（IRL）通过从专家行为推断奖励函数来实现模仿学习，已广泛应用于自动驾驶、社交导航和路径规划等领域。在高维连续控制中，学到的 IRL 奖励通常通过模型预测控制（MPC）进行实时部署——先离线用 RL 解 IRL、再用 MPC 在线规划，形成"IRL-then-MPC"的主流范式。同时，对抗模仿学习（AIL，如 GAIL）在算法复杂度和样本效率上取得了显著进步。
现有痛点: (1) IRL-then-MPC 是两步分离过程：训练时用 RL 解的内循环策略与部署时用的 MPC 规划器是完全独立的，导致训练中学到的奖励未针对 MPC 部署进行优化，需要额外手动调参；(2) 策略式 AIL（如 GAIL、AIRL）依赖黑盒 RL 策略网络，难以施加安全约束，缺乏可解释性，在部分可观测的真实场景中表现脆弱；(3) 学到的奖励和价值函数在策略式 AIL 中被严重低估——部署时只用策略网络，完全丢弃了奖励函数。
核心矛盾: AIL 的理论优势（统一奖励学习和策略优化）与实际机器人部署需求（需要 MPC 的安全性、可解释性和在线优化能力）之间存在根本性脱节。
本文目标: 如何将规划（MPC）原生嵌入 AIL 循环，实现端到端的"学习规划器"——同时学习奖励和改进基于规划的 agent，且仅需观测状态（无需专家动作）。
切入角度: 观察到 MPPI（Model Predictive Path Integral）控制器的目标函数天然是 KL 约束的代价最小化问题，与 AIL 内循环的最大熵 RL 目标在数学上等价——这意味着可以直接用 MPPI 替代 RL 策略作为 AIL 的"生成器"。
核心idea: 用 MPPI 规划器替换 AIL 中的 RL 策略，规划器在每个时间步在线求解新策略（"deconstructed policy"），同时学习判别器作为代价函数和价值函数做超出规划 horizon 的推理。不需要持久化的策略网络，而是要求奖励函数具备泛化能力。

方法详解¶

整体框架¶

MPAIL 的训练流程与 GAIL 类似但有本质区别：(1) MPPI 规划器在环境中采样轨迹——对一组动作序列做 rollout、用判别器代价评估每条轨迹、加权求解最优动作；(2) 判别器用 BCE 损失区分 agent 状态转移与专家状态转移；(3) 价值网络用蒙特卡洛回报拟合终端代价。与 GAIL 不同，更新完价值网络后不需要策略更新步——因为策略在每个状态都由 MPPI 在线求解。

关键设计¶

MPPI 作为 AIL 生成器（核心理论贡献）:
- 做什么: 将 MPPI 嵌入 AIL 替代 RL 策略，使规划器本身成为对抗学习的生成器
- 核心思路: AIL 的内循环 RL 目标为 \(\min_\pi \mathbb{E}_\pi[c(s,s')] + \beta \text{KL}(\pi || \bar{\pi})\)，其闭式解为 \(\pi^*(a|s) \propto \bar{\pi}(a|s) e^{-\frac{1}{\beta}\bar{c}(s,a)}\)。而 MPPI 恰好求解轨迹级别的等价问题：\(\min_\pi \mathbb{E}_{\tau \sim \pi}[C(\tau) + \beta \text{KL}(\pi(\tau) || \bar{\pi}(\tau))]\)，在均匀遍历 MDP 条件下二者等价
- 设计动机: MPPI 的零阶优化不需要梯度反传到策略网络，而是在每个时间步采样大量轨迹并加权平均得到最优动作。这种"在线求解策略"的方式使得不需要策略网络泛化——只需要奖励函数泛化。由于奖励函数通常比策略函数更简单且更具结构化先验，这自然带来更好的 OOD 泛化
仅观测的状态转移代价函数:
- 做什么: 使用状态转移 \((s, s')\) 而非状态-动作 \((s, a)\) 来定义代价函数，实现仅观测学习
- 核心思路: 判别器 \(D(s, s') = \sigma \circ d_\theta(s, s')\)，奖励为判别器的 logit：\(r(s, s') = \log D(s,s') - \log(1 - D(s,s')) = d_\theta(s,s')\)。采用 AIRL 风格的奖励定义，在与价值函数结合时更稳定
- 设计动机: 在真实机器人场景中，专家动作往往不可观测或难以获取（如从视频中学习），仅观测状态转移是最通用的设定。同时，部分可观测下 \((s, s')\) 可以编码运动方向等单个 \(s\) 无法表达的信息
无限 Horizon MPPI 与价值引导:
- 做什么: 用学到的价值函数 \(V_\phi(s)\) 作为 MPPI rollout 的终端代价，将短 horizon 规划扩展到长 horizon 推理
- 核心思路: 价值函数估计 \(G_t = \mathbb{E}_\pi[R_{t+1} + \gamma R_{t+2} + ... | S_t = s_t]\)，用 TD 学习更新 \(\nabla_\phi \mathbb{E}[(G_t - V_\phi(s))^2]\)。将 \(V_\phi\) 加到 MPPI 终端状态的代价上，使规划器能"看"到 horizon 之外的信息
- 设计动机: 纯 MPPI 的 rollout 长度有限（如 3 米），但任务可能需要导航到 40 米外的目标。价值函数提供了超出规划 horizon 的经验评估，使短视规划器获得全局意识

损失函数 / 训练策略¶

判别器损失: 标准 BCE——\(\nabla_\theta [\mathbb{E}_{d^\pi}[\log D_\theta(s,s')] + \mathbb{E}_{d^{\pi_E}}[\log(1 - D_\theta(s,s'))]]\)
价值函数损失: 蒙特卡洛回报的 MSE——\(\nabla_\phi \mathbb{E}[(G_t - V_\phi(s))^2]\)，所有方法统一采用 GAE-\(\lambda\) 估计
无需策略更新: 与 GAIL/AIRL 不同，MPAIL 在更新完判别器和价值网络后直接由 MPPI 在线求解，不需要额外的策略梯度步骤
温度衰减: MPPI 的温度 \(\lambda\) 可在训练中逐步降低，防止早期分布坍缩
稳定化技巧: 判别器使用谱归一化（Spectral Normalization），超参数跨所有实验保持一致

实验关键数据¶

主实验¶

真实世界导航实验（Real-Sim-Real，从单条观测轨迹学习）:

方法	最大 CTE (m)	平均 CTE (m)	平均速度 (m/s)
Expert	-	-	1.0
GAIL	1.29	0.56	0.37
IRL-MPC	1.28	0.37	0.30
MPAIL	0.76	0.17	0.70

MPAIL 的平均交叉轨迹误差仅 0.17m，比 GAIL 低 70%；速度保持在 0.70 m/s，是 GAIL 的近 2 倍、最接近专家的 1.0 m/s。GAIL 在真实部署中持续跑偏或陷入原地转圈，多种初始构型均失败。

消融实验¶

OOD 泛化实验（导航任务，初始位置从 1×1 扩展到 40×40 m）:

方法	ID 性能	近 OOD	远 OOD	极端 OOD
GAIL (策略式)	好	差	很差	随机
BC (需要动作)	一般	差	很差	随机
MPAIL (先验模型)	好	好	好	仍可导航
MPAIL (在线模型)	好	好	中	路径较长但可达

MPAIL 的规划 horizon 仅 3 米，但任务 horizon 可达规划 horizon 的 15 倍。说明学到的代价函数和价值函数也成功泛化到了 OOD 状态。策略网络即使在初始面向目标但稍偏离数据分布时就会失败——表现出极其脆弱的表征。

效率对比（导航任务 + CartPole）:

方法	导航-4 demo	导航-收敛速度	CartPole
GAIL	收敛	慢（2x 交互数）	最快
AIRL	不收敛	-	与 MPAIL 相当
MPAIL	收敛	快（<50% 交互数）	可比

关键发现¶

奖励部署至关重要: 策略式 AIL 学到了奖励却在部署时完全丢弃——这是一个根本性限制。MPAIL 在线重新引入奖励，将泛化负担从策略转移到奖励函数
端到端训练优于分离部署: IRL-MPC 使用与 GAIL 完全相同的奖励和价值，仅在部署时改用 MPPI——性能已显著优于 GAIL，但仍不及 MPAIL。原因是 MPAIL 端到端训练使判别器被"逼"到更高水平
真实世界中策略式 AIL 极脆弱: GAIL 在真实世界中的表现与仿真中的差距远超预期。部分可观测性导致奖励信号极弱（代价值范围 \((-0.022, -0.018)\) vs 仿真中 \((-3, 3)\)），策略网络无法处理这种微弱且模糊的信号
MPPI 零阶优化的效率: 虽然 MPPI 没有梯度反传到策略，但在导航任务上收敛速度反而是 GAIL 的 2 倍以上——验证了 MPAIL 作为模型基方法的样本效率优势
Wall Clock Time: MPPI 2 次迭代比 GAIL(PPO) 快约 10%，5 次迭代慢约 10%——实际计算开销可控

亮点与洞察¶

IRL 和 MPC 的数学统一: MPPI 的 KL 约束轨迹优化目标与 AIL 内循环的最大熵 RL 目标在均匀遍历 MDP 下严格等价。这不仅是工程上的集成，而是揭示了控制论和对抗学习之间深层的数学联系。这个统一使得原本分离的训练和部署流程可以融为一体。
"解构策略"的哲学: MPAIL 将策略解构为更基础的组件（代价 + 价值 + 模型 + 在线优化器），每个组件可以独立检查和修改。这种透明性对安全关键系统至关重要——你可以直接看到机器人想走的路径为什么代价低、为什么做出这个决策。
泛化范式转移: 传统 AIL 要求策略网络泛化到未见状态，而 MPAIL 转为要求奖励函数泛化。由于奖励函数编码的是"意图"而非"如何执行"，通常具有更好的结构性和更低的复杂度，天然更易泛化。

局限与展望¶

未使用潜在空间规划: 当前 MPAIL 直接在状态空间做 MPPI rollout，未采用潜在动力学模型。在高维空间（如图像输入）中，MPPI 的采样效率会急剧下降，需要像 TD-MPC2 那样的潜在状态规划扩展
温度衰减缺乏理论支撑: 论文承认温度衰减策略目前是启发式的，虽然有效但缺乏理论分析
CartPole 上效率不占优: 使用在线学习动力学模型的 MPAIL(OM) 在 CartPole 上不如 GAIL 高效，可能因为稀疏奖励信号 + 模型偏差 + 额外探索需求的叠加效应
仅在简单导航任务验证: 真实实验仅在 RC 小车导航上验证，缺乏更复杂操控任务（如抓取、双臂协作）的评估
无策略先验: 当前 MPAIL 没有使用 policy-like 的采样先验，MPPI 在高维动作空间中扩展受限

评分¶

新颖性: ⭐⭐⭐⭐⭐ MPPI 与 AIL 的数学等价性揭示、端到端 PfO 框架是全新贡献
实验充分度: ⭐⭐⭐⭐ 仿真导航 + 真实 RC 小车 + OOD 评估 + 效率对比 + Wall Clock Time，但缺乏更复杂任务
写作质量: ⭐⭐⭐⭐ 理论推导清晰严谨，实验动机和结论之间的逻辑链完整
价值: ⭐⭐⭐⭐⭐ 对安全关键系统的模仿学习有直接且实际的价值，开源实现降低了复现门槛