Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm¶
会议: NeurIPS 2025
arXiv: 2509.23135
代码: 有
领域: Reinforcement Learning
关键词: Inverse Reinforcement Learning, Trust Region, Reward Learning, Non-Adversarial IRL, Monotonic Improvement
一句话总结¶
提出 TRRO 理论框架和 PIRO 实用算法,通过 Minorization-Maximization 过程保证 IRL 中奖励函数更新的单调改进,实现了逆强化学习领域类似于 TRPO/PPO 在正向 RL 中的稳定性保证。
研究背景与动机¶
逆强化学习(IRL)从专家演示中学习奖励函数,现代 IRL 方法主要有两种范式:
对抗式 IRL(如 GAIL、AIRL):将奖励学习建模为极小极大博弈,交替优化奖励和策略。理论上优雅但实践中训练不稳定,对超参数敏感。
非对抗式 IRL(如 SQIL、IQ-Learn、ML-IRL):通过能量模型将奖励和策略耦合,联合更新。经验稳定性更好,但缺乏对奖励更新的原则性控制——无法保证每一步更新都朝正确方向前进。
论文指出一个关键观察:现有非对抗式 IRL 方法本质上都在最大化专家行为的似然(等价于最小化模仿差距)。这个统一视角引出核心思路:如果能保证每步更新都提高似然,就能实现 IRL 的稳定训练。
这与正向 RL 中 TRPO 的思路完美对称: - TRPO 保证在固定奖励下策略的单调改进 - TRRO 保证在给定专家行为下奖励的单调改进
论文自称填补了这个"对称图景的右半边"。
方法详解¶
整体框架¶
TRRO/PIRO 采用非对抗式、显式奖励学习(ER)路线: 1. 统一视角:证明 SQIL、IQ-Learn、f-IRL、ML-IRL 都在优化专家行为似然 2. 理论贡献:TRRO 框架通过 MM 算法保证逆奖励优化的单调改进 3. 实用算法:PIRO 通过自适应正则化和近似策略优化实现 TRRO
关键设计¶
-
似然目标的等价形式(Proposition 1):
- ML-IRL 的对数似然 \(\ell(\boldsymbol{\theta}) = \mathbb{E}_{\rho^{\pi_E}}[\log \pi_{\boldsymbol{\theta}}(\mathbf{a}|\mathbf{s})]\)
- 等价于模仿差距:\(\ell(\boldsymbol{\theta}) = J(\pi_E, r_{\boldsymbol{\theta}}) - J(\pi_{\boldsymbol{\theta}}, r_{\boldsymbol{\theta}})\)
- 梯度为两个占用度量下的奖励梯度之差:\(\nabla_{\boldsymbol{\theta}} \ell = \mathbb{E}_{\rho^{\pi_E}}[\nabla r_{\boldsymbol{\theta}}] - \mathbb{E}_{\rho^{\pi_{\boldsymbol{\theta}}}}[\nabla r_{\boldsymbol{\theta}}]\)
- 这绕过了内层 RL 循环,将嵌套优化简化为单循环
-
Trust Region Reward Optimization (TRRO, 定理 3):
- 引入代理函数 \(\ell_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta})\):用旧策略 \(\pi_{\text{old}}\) 替代新策略计算模仿差距
- Proposition 2 证明代理函数在 \(\boldsymbol{\theta}_{\text{old}}\) 处与原目标一阶匹配
- 定理 3 建立下界:\(\ell(\boldsymbol{\theta}_{\text{new}}) \geq \ell_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta}_{\text{new}}) - C\epsilon_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta}_{\text{new}})\)
- 其中 \(\epsilon = \max_{s,a} |r_{\boldsymbol{\theta}_{\text{new}}} - r_{\boldsymbol{\theta}_{\text{old}}}|\) 是奖励变化量
- 最大化下界保证 \(\ell\) 单调不减(推论 4)
- 这是一个 MM 算法:代理函数 minorize 原目标,在 \(\boldsymbol{\theta}_{\text{old}}\) 处相切
-
Proximal Inverse Reward Optimization (PIRO):
- 理论常数 \(C\) 太大,用可调系数 \(\mu > 0\) 替代
- \(\epsilon\) 的最大范数不可微,用 \(L^2\) 范数在专家数据和策略 rollout 上的估计替代
- 目标函数:\(L_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta}) = \ell_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta}) - \mu \bar{\epsilon}_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta})\)
- \(\mu\) 自适应调节:若 \(\bar{\epsilon} > \bar{\epsilon}^{\text{target}} \times x\),则 \(\mu \leftarrow \mu \times y\)(反之亦然)
- 策略用 SAC 的若干轮迭代近似优化(而非精确求解)
损失函数 / 训练策略¶
PIRO 的交替更新: - 策略更新:\(k\) 轮 SAC 迭代(基于当前奖励 \(r_{\boldsymbol{\theta}_{\text{old}}}\)) - 奖励更新:\(n\) 步梯度上升,梯度为 \(\nabla_{\boldsymbol{\theta}} L = \mathbb{E}_{\hat{D}_E}[\nabla r_{\boldsymbol{\theta}}] - \mathbb{E}_{D_S}[\nabla r_{\boldsymbol{\theta}}] - \mu \nabla \bar{\epsilon}\) - 当 \(k=n=1, \mu=0\) 时退化为一般非对抗式 IRL
实验关键数据¶
主实验:MuJoCo 和 Gym Robotics¶
| 任务 | Expert | GAIL | AIRL | HyPE | IQ-Learn | ML-IRL | f-IRL | PIRO | 提升 |
|---|---|---|---|---|---|---|---|---|---|
| Ant-v4 | 5926 | 997 | 991 | 2801 | 3590 | 5383 | 980 | 5967 | +585 |
| Humanoid-v4 | 5501 | 508 | 281 | 718 | 1848 | 5573 | 470 | 5955 | +382 |
| Walker2d-v4 | 5525 | 4158 | 73 | 1479 | 3023 | 4795 | 244 | 5644 | +849 |
| AntMaze-UMaze | 35.6 | 5.2 | 4.5 | 11.9 | 3.9 | 4.2 | 3.6 | 25.7 | +13.8 |
| AntMaze-Large | 11.5 | 0.9 | 3.4 | 1.5 | 0.8 | 0.3 | 0.9 | 8.8 | +5.4 |
消融/分析实验¶
| 分析维度 | 结果 |
|---|---|
| 学习稳定性 | PIRO 曲线最平滑,其他方法波动大或性能崩溃 |
| 样本效率 | PIRO 收敛速度与最快基线持平,但最终性能更高 |
| State-only 奖励恢复 | 7×7 网格世界中恢复的奖励与 ground truth 高度一致 |
| 奖励迁移 | LunarLander 学到的奖励在添加风力后仍能训练有效策略 |
| 超参数敏感性 | \(x, y \in (1, 2)\), \(\bar{\epsilon}^{\text{target}} \in (0.1, 1)\) 范围内不敏感 |
关键发现¶
- PIRO 在几乎所有任务上超越或匹配 SOTA,尤其在高难度任务(Humanoid、AntMaze、AdroitHand)上优势显著
- 训练稳定性是最大优势——ML-IRL 等基线在复杂任务上经常出现性能崩溃
- 虽然单步计算开销略高,但稳定收敛导致总计算量并不增加
- 唯一弱於基线的任务是 Hopper-v4(-173.7),说明近端约束可能在简单任务上过于保守
亮点与洞察¶
- TRPO 的逆对称这个视角非常优雅:正向 RL 信任域保证策略改进 ↔ 逆向 RL 信任域保证奖励改进
- 将多种非对抗式 IRL 方法统一到似然最大化框架下是重要的理论贡献
- PIRO 的实现非常简洁:在 SAC 基础上只需添加若干奖励梯度步,工程友好
- 奖励迁移实验展示了显式奖励学习相比隐式方法的优势——奖励不与环境动力学耦合
局限与展望¶
- 理论保证假设精确策略优化(实际用有限步 SAC 近似),理论和实践之间有 gap
- On-policy 采样依赖可能限制在样本昂贵任务上的扩展性
- 理论常数 \(C\) 太大以至于直接使用不实际,需要自适应 \(\mu\) 来"放松"约束
- 可扩展到 RLHF 场景——从人类反馈中学习奖励模型与 IRL 有天然联系
相关工作与启发¶
- GAIL/AIRL 等对抗式方法的不稳定性是 IRL 领域的长期痛点,PIRO 提供了有保证的替代方案
- 与 ML-IRL 的关系密切(PIRO 可视为加了信任域约束的 ML-IRL)
- TRPO→PPO 的简化路径启发了 TRRO→PIRO 的设计
- 对 LLM 对齐中的奖励建模有潜在应用价值——RLHF 中的奖励学习本质上是 IRL
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — IRL 稳定性的首个形式化保证,TRPO 的逆对称视角优雅
- 实验充分度: ⭐⭐⭐⭐⭐ — 9 个任务 + 13 个基线 + 稳定性/效率/迁移/敏感性全面分析
- 写作质量: ⭐⭐⭐⭐ — 理论推导严谨,实践算法简洁
- 价值: ⭐⭐⭐⭐⭐ — 对 IRL 理论和实践都有重要贡献