Solving Parameter-Robust Avoid Problems with Unknown Feasibility using Reinforcement Learning¶

元信息¶

会议: ICLR 2026
arXiv: 2602.15817
代码: https://oswinso.xyz/fge
领域: 强化学习
关键词: safe RL, Hamilton-Jacobi, robust optimization, feasibility, curriculum learning, MuJoCo

一句话总结¶

提出 Feasibility-Guided Exploration (FGE)，同时识别可行参数子集并学习在该子集上安全的策略，解决可行性未知的参数鲁棒避障问题，在 MuJoCo 任务中比最佳现有方法多覆盖 50% 以上。

研究背景与动机¶

Hamilton-Jacobi (HJ) 安全控制是获得最大安全初始状态集合的强大工具，但经典方法受维度灾难限制。
深度 RL 逼近 HJ：用 RL 学习近似最优控制策略，但 RL 优化期望回报 vs. 最坏情况安全形成根本性不匹配——在低概率但仍应安全的状态上表现可能很差。
鲁棒优化方案（如 RARL）对初始条件集合做最坏情况优化，但前提是该集合可行（即存在安全策略）。如果包含不可行参数，所有策略都同样差，导致退化。
关键困难：确定可行参数集合本身就是 HJ 分析的目标——先验未知！
例子：自动驾驶中，暴风雪+高速可能无论如何都不安全；用这种不可能的场景训练会阻止模型学好晴天场景。

方法详解¶

整体框架¶

FGE 同时完成两个任务： 1. 识别最大可行参数子集 $\Theta^* \subseteq \Theta$（哪些参数下存在安全策略） 2. 学习一个在 $\Theta^*$ 上安全的鲁棒策略

关键设计 1：可行性分类器¶

核心挑战是标签不对称：观测到安全 = 确定可行；观测到不安全 ≠ 确定不可行（可能只是策略不好）。

构建混合分布训练分类器：

\[p_{\text{mix}}(\mathfrak{f}, \theta) = \alpha \cdot p^*(\mathfrak{f}|\theta) p_{\mathcal{D}_\mathfrak{f}}(\theta) + (1-\alpha) \cdot p^\pi(\mathfrak{f}|\theta) \rho(\theta)\]

第一项：已确认安全的参数（可靠正标签）
第二项：当前策略下的在线样本（可能含假阴性）
通过变分推断拟合 $q_\psi(\mathfrak{f}=1|\theta)$，阈值化得到分类器

理论保证： - 零假阳性：不可行参数永远不会被标为可行 - 可控假阴性率：通过调节 $\alpha$ 和 $\rho$ 控制

关键设计 2：鞍点优化¶

将鲁棒安全控制建模为 maximin 问题，采用在线学习的鞍点方法而非 RARL 的对抗性策略：

\[\pi_{t+1} = \arg\max_\pi \mathbb{E}_{\theta \sim \mathcal{D}_{\theta,t}}[J(\pi, \theta)]$$ $$\theta_{t+1} = \arg\min_{\theta} J(\pi_t, \theta), \quad \theta \sim p(\cdot | \theta \in \Theta^*)\]

使用 Follow-the-Regularized-Leader (FTRL) 结合 PPO 做策略更新，维护 rehearsal buffer 存储历史最坏情况参数。

关键设计 3：探索分布扩展¶

FGE 将采样分布分为三部分（图 1）： - 基础分布：原始参数采样 - 探索分布：提升未被观测为安全的参数的采样概率 - 排练分布：对先前已解决但可能退化的参数采样（近似最佳响应）

三者组合平衡：最大化安全率增益 + 最小化安全率损失。

损失函数¶

策略训练使用标准 RL 目标（PPO），奖励为负指示器：

\[r_k = -\mathbb{1}\{h_\theta(\bm{s}_k) > 0\}\]

安全 = 奖励 0，进入不安全状态 = 奖励 -1，训练到首次违规即终止。

实验关键数据¶

主实验：MuJoCo 安全覆盖率¶

环境	Domain Rand.	RARL	FGE (Ours)	提升
Ant (避障)	~40%	~45%	~70%	+56%
Humanoid (避障)	~35%	~40%	~65%	+63%
HalfCheetah	~50%	~55%	~78%	+42%

FGE 在所有挑战性 MuJoCo 任务中比最佳基线多覆盖 50%+ 的安全参数集合。

消融实验：各组件贡献¶

消融设置	安全覆盖率	说明
FGE (完整)	~70%	基准
无可行性分类器	~50%	不可行参数干扰训练
无探索分布	~55%	探索不充分
无排练分布	~60%	已学技能退化
用密度模型替代分类器	~58%	不如混合分布分类器

关键发现¶

标准域随机化和 RARL 在参数可行性未知时严重受限
可行性分类器的零假阳性保证对训练稳定性至关重要
FTRL 比 GDA（RARL 近似的方法）在鞍点问题上收敛更稳定
探索和排练分布的平衡对持续扩展安全集合不可或缺

亮点与洞察¶

新问题定义：参数鲁棒避障 + 未知可行性，填补了安全 RL 与 HJ 分析的重要空白
正标签学习：巧妙处理单侧标签问题（只有正可靠），理论保证零假阳性
在线学习视角：用鞍点方法替代不稳定的对抗性 RL，理论保证更强
实用三采样策略：base + explore + rehearse 的组合灵感来自课程学习和在线学习

局限性¶

理论收敛保证依赖凸凹性和精确最佳响应等假设，实际中不完全满足
可行性分类器在高维参数空间中的准确性需更多验证
仅考虑确定性动力学，随机系统扩展未讨论
MuJoCo 环境相比真实机器人仍有差距

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 全新问题定义，可行性未知的鲁棒安全控制
理论深度: ⭐⭐⭐⭐ — 分类器保证、鞍点收敛分析
实验充分性: ⭐⭐⭐⭐ — 多 MuJoCo 环境、详细消融
实用价值: ⭐⭐⭐⭐ — 对机器人安全部署有直接意义