Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm¶

会议: NeurIPS 2025
arXiv: 2509.23135
代码: 有
领域: Reinforcement Learning
关键词: Inverse Reinforcement Learning, Trust Region, Reward Learning, Non-Adversarial IRL, Monotonic Improvement

一句话总结¶

提出 TRRO 理论框架和 PIRO 实用算法，通过 Minorization-Maximization 过程保证 IRL 中奖励函数更新的单调改进，实现了逆强化学习领域类似于 TRPO/PPO 在正向 RL 中的稳定性保证。

研究背景与动机¶

逆强化学习（IRL）从专家演示中学习奖励函数，现代 IRL 方法主要有两种范式：

对抗式 IRL（如 GAIL、AIRL）：将奖励学习建模为极小极大博弈，交替优化奖励和策略。理论上优雅但实践中训练不稳定，对超参数敏感。

非对抗式 IRL（如 SQIL、IQ-Learn、ML-IRL）：通过能量模型将奖励和策略耦合，联合更新。经验稳定性更好，但缺乏对奖励更新的原则性控制——无法保证每一步更新都朝正确方向前进。

论文指出一个关键观察：现有非对抗式 IRL 方法本质上都在最大化专家行为的似然（等价于最小化模仿差距）。这个统一视角引出核心思路：如果能保证每步更新都提高似然，就能实现 IRL 的稳定训练。

这与正向 RL 中 TRPO 的思路完美对称： - TRPO 保证在固定奖励下策略的单调改进 - TRRO 保证在给定专家行为下奖励的单调改进

论文自称填补了这个"对称图景的右半边"。

方法详解¶

整体框架¶

TRRO/PIRO 采用非对抗式、显式奖励学习（ER）路线： 1. 统一视角：证明 SQIL、IQ-Learn、f-IRL、ML-IRL 都在优化专家行为似然 2. 理论贡献：TRRO 框架通过 MM 算法保证逆奖励优化的单调改进 3. 实用算法：PIRO 通过自适应正则化和近似策略优化实现 TRRO

关键设计¶

似然目标的等价形式（Proposition 1）：
- ML-IRL 的对数似然 \(\ell(\boldsymbol{\theta}) = \mathbb{E}_{\rho^{\pi_E}}[\log \pi_{\boldsymbol{\theta}}(\mathbf{a}|\mathbf{s})]\)
- 等价于模仿差距：\(\ell(\boldsymbol{\theta}) = J(\pi_E, r_{\boldsymbol{\theta}}) - J(\pi_{\boldsymbol{\theta}}, r_{\boldsymbol{\theta}})\)
- 梯度为两个占用度量下的奖励梯度之差：\(\nabla_{\boldsymbol{\theta}} \ell = \mathbb{E}_{\rho^{\pi_E}}[\nabla r_{\boldsymbol{\theta}}] - \mathbb{E}_{\rho^{\pi_{\boldsymbol{\theta}}}}[\nabla r_{\boldsymbol{\theta}}]\)
- 这绕过了内层 RL 循环，将嵌套优化简化为单循环
Trust Region Reward Optimization (TRRO, 定理 3)：
- 引入代理函数 \(\ell_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta})\)：用旧策略 \(\pi_{\text{old}}\) 替代新策略计算模仿差距
- Proposition 2 证明代理函数在 \(\boldsymbol{\theta}_{\text{old}}\) 处与原目标一阶匹配
- 定理 3 建立下界：\(\ell(\boldsymbol{\theta}_{\text{new}}) \geq \ell_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta}_{\text{new}}) - C\epsilon_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta}_{\text{new}})\)
- 其中 \(\epsilon = \max_{s,a} |r_{\boldsymbol{\theta}_{\text{new}}} - r_{\boldsymbol{\theta}_{\text{old}}}|\) 是奖励变化量
- 最大化下界保证 \(\ell\) 单调不减（推论 4）
- 这是一个 MM 算法：代理函数 minorize 原目标，在 \(\boldsymbol{\theta}_{\text{old}}\) 处相切
Proximal Inverse Reward Optimization (PIRO)：
- 理论常数 \(C\) 太大，用可调系数 \(\mu > 0\) 替代
- \(\epsilon\) 的最大范数不可微，用 \(L^2\) 范数在专家数据和策略 rollout 上的估计替代
- 目标函数：\(L_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta}) = \ell_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta}) - \mu \bar{\epsilon}_{\boldsymbol{\theta}_{\text{old}}}(\boldsymbol{\theta})\)
- \(\mu\) 自适应调节：若 \(\bar{\epsilon} > \bar{\epsilon}^{\text{target}} \times x\)，则 \(\mu \leftarrow \mu \times y\)（反之亦然）
- 策略用 SAC 的若干轮迭代近似优化（而非精确求解）

损失函数 / 训练策略¶

PIRO 的交替更新： - 策略更新：\(k\) 轮 SAC 迭代（基于当前奖励 \(r_{\boldsymbol{\theta}_{\text{old}}}\)） - 奖励更新：\(n\) 步梯度上升，梯度为 \(\nabla_{\boldsymbol{\theta}} L = \mathbb{E}_{\hat{D}_E}[\nabla r_{\boldsymbol{\theta}}] - \mathbb{E}_{D_S}[\nabla r_{\boldsymbol{\theta}}] - \mu \nabla \bar{\epsilon}\) - 当 \(k=n=1, \mu=0\) 时退化为一般非对抗式 IRL

实验关键数据¶

主实验：MuJoCo 和 Gym Robotics¶

任务	Expert	GAIL	AIRL	HyPE	IQ-Learn	ML-IRL	f-IRL	PIRO	提升
Ant-v4	5926	997	991	2801	3590	5383	980	5967	+585
Humanoid-v4	5501	508	281	718	1848	5573	470	5955	+382
Walker2d-v4	5525	4158	73	1479	3023	4795	244	5644	+849
AntMaze-UMaze	35.6	5.2	4.5	11.9	3.9	4.2	3.6	25.7	+13.8
AntMaze-Large	11.5	0.9	3.4	1.5	0.8	0.3	0.9	8.8	+5.4

消融/分析实验¶

分析维度	结果
学习稳定性	PIRO 曲线最平滑，其他方法波动大或性能崩溃
样本效率	PIRO 收敛速度与最快基线持平，但最终性能更高
State-only 奖励恢复	7×7 网格世界中恢复的奖励与 ground truth 高度一致
奖励迁移	LunarLander 学到的奖励在添加风力后仍能训练有效策略
超参数敏感性	\(x, y \in (1, 2)\), \(\bar{\epsilon}^{\text{target}} \in (0.1, 1)\) 范围内不敏感

关键发现¶

PIRO 在几乎所有任务上超越或匹配 SOTA，尤其在高难度任务（Humanoid、AntMaze、AdroitHand）上优势显著
训练稳定性是最大优势——ML-IRL 等基线在复杂任务上经常出现性能崩溃
虽然单步计算开销略高，但稳定收敛导致总计算量并不增加
唯一弱於基线的任务是 Hopper-v4（-173.7），说明近端约束可能在简单任务上过于保守

亮点与洞察¶

TRPO 的逆对称这个视角非常优雅：正向 RL 信任域保证策略改进 ↔ 逆向 RL 信任域保证奖励改进
将多种非对抗式 IRL 方法统一到似然最大化框架下是重要的理论贡献
PIRO 的实现非常简洁：在 SAC 基础上只需添加若干奖励梯度步，工程友好
奖励迁移实验展示了显式奖励学习相比隐式方法的优势——奖励不与环境动力学耦合

局限与展望¶

理论保证假设精确策略优化（实际用有限步 SAC 近似），理论和实践之间有 gap
On-policy 采样依赖可能限制在样本昂贵任务上的扩展性
理论常数 \(C\) 太大以至于直接使用不实际，需要自适应 \(\mu\) 来"放松"约束
可扩展到 RLHF 场景——从人类反馈中学习奖励模型与 IRL 有天然联系

评分¶

新颖性: ⭐⭐⭐⭐⭐ — IRL 稳定性的首个形式化保证，TRPO 的逆对称视角优雅
实验充分度: ⭐⭐⭐⭐⭐ — 9 个任务 + 13 个基线 + 稳定性/效率/迁移/敏感性全面分析
写作质量: ⭐⭐⭐⭐ — 理论推导严谨，实践算法简洁
价值: ⭐⭐⭐⭐⭐ — 对 IRL 理论和实践都有重要贡献