RAMPS：鲁棒自适应多步预测护盾¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=2bbqHOWFTU
论文: 项目主页
代码: 无
领域: 强化学习 / 安全RL / 控制屏障函数
关键词: 安全探索, 模型预测护盾, 控制屏障函数, Koopman算子, 高维控制

一句话总结¶

RAMPS 用一个全局学习到的线性动力学模型（线性回归或深度 Koopman 算子）配合一个鲁棒多步控制屏障函数（CBF）护盾，把原本只能用在十几维系统上的形式化屏蔽技术扩展到 348 维的腿足运动任务，在训练全程把安全违规最多降低 90% 的同时保持竞争力级别的任务奖励。

研究背景与动机¶

领域现状：安全强化学习（safe RL）要求策略在整个训练过程中都安全，而不只是收敛后的最终策略安全。其中 model-predictive shielding（模型预测护盾）是一条有前景的路线——它在 agent 旁边挂一个"护盾"，只在 agent 提出的动作威胁安全时才介入纠正，因此能兼容任意 RL 策略。

现有痛点：现有护盾陷入两难。一类是神经护盾，从数据里学一个安全 critic，灵活但需要海量经验，且训练早期根本拦不住违规；另一类是符号护盾，靠分析环境模型给出从第一步起就成立的形式化保证，但它们都依赖显式地把状态空间切成一片片局部线性模型，这种"打补丁"方式遭遇维度灾难，一旦状态维度超过 10 就计算上不可行——而现代深度 RL 恰恰擅长高维系统。

核心矛盾：形式化/符号方法保证强但不可扩展；统计/代价方法可扩展但训练早期允许大量违规。两者之间一直没有桥梁。此外离散时间随机系统里还有一个被忽视的难题：当控制输入对安全约束的影响是延迟的（相对阶 \(r>1\)），标准的一步 CBF 会失效，因为它对受约束变量没有即时控制权，从而产生"陷阱状态"——短期看安全、却注定走向未来违规。

本文目标：(1) 让形式化护盾可扩展到高维非线性系统；(2) 在模型不完美、存在控制延迟时仍给出可靠的实时介入。

切入角度：作者发现关键不在于把非线性动力学切碎成局部线性块，而在于学一个全局线性表示——可以是原状态空间里的线性回归，也可以是把状态"抬升"到高维特征空间后的 Koopman 线性算子。只要动力学是线性的，就能高效地把多面体安全约束向未来多步传播。

核心 idea：用"单个全局线性模型 + 鲁棒多步 CBF"取代"局部线性模型补丁 + 一步 CBF"，并在 CBF 里显式累加预测误差形成一条"不确定性管道"，从而在不完美模型上也能给出模型相对的安全保证。

方法详解¶

整体框架¶

RAMPS 由三个部件构成：(1) 一个学到的线性动力学模型，给出环境动力学的单一全局表示；(2) 一个鲁棒控制屏障函数护盾，用这个模型在线认证并纠正不安全动作；(3) 一个标准的深度 RL agent，在护盾保护下学习高性能策略。三者在一个迭代闭环里协同：agent 先采集环境交互数据，用数据训练线性模型和一个最坏情况误差界 \(\varepsilon\)，二者共同参数化 CBF 护盾；随后训练 RL agent，每一个动作都被护盾验证、必要时纠正；新采集到的安全数据回灌数据集，周期性地精炼模型与误差界。模型越准 → 护盾越不保守 → agent 探索越自由 → 策略越好，形成正向循环。

护盾在每个时间步的具体动作是：以 agent 提出的动作 \(a_\pi\) 为目标，在一个自适应选出的预测时域 \(H\) 上求解一个小规模二次规划（QP），找到既满足多步鲁棒 CBF 约束、又最贴近 \(a_\pi\) 的安全控制序列，只执行序列首个动作 \(u_0\)。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["环境交互数据"] --> B["学到的全局线性动力学模型<br/>线性回归 / Koopman 算子 + 误差界 ε"]
    B --> C["鲁棒多步 CBF 护盾<br/>累积误差收紧 Ej(pi)"]
    C --> D["自适应预测时域 + 最小侵入式 QP<br/>选最大可行 H，输出 u0"]
    D -->|无可行解| E["回退策略 ubackup"]
    D -->|执行安全动作| F["深度 RL agent (PPO/SAC)"]
    F -->|回灌安全数据，周期精炼模型| A

关键设计¶

1. 学到的全局线性动力学模型：用一个线性算子取代局部线性补丁

针对符号护盾"切碎状态空间→维度灾难"的痛点，RAMPS 不再为不同区域拟合一堆局部线性模型，而是学单个全局线性表示。对简单系统，直接在原状态空间做线性回归；对复杂非线性系统，把状态通过一个学到的非线性嵌入"抬升"到高维特征空间 \(z\)，在那里动力学退化为简单的线性转移 \(z_{k+1}=Az_k+Bu_k+c+w_k\)，其中 \(c\) 是学到的常数漂移项、\(w_k\) 是满足 \(\lVert w_k\rVert_\infty\le\varepsilon\) 的加性模型误差（这里用了 Deep Koopman Operator）。线性结构正是后面多步传播能高效进行的根基——它让安全约束（多面体）可以被精确、廉价地沿时间向前推，而不需要反复局部线性化或昂贵的非线性传播，因此即便预测时域拉长也能保持可解。

2. 鲁棒多步 CBF 与累积误差收紧：同时治"相对阶陷阱"和"模型不准"

这是论文的核心理论贡献，针对两个痛点：离散随机系统里控制对约束的延迟影响（相对阶 \(r>1\)），以及学习模型必然不完美。安全集表示为多面体 \(C=\bigcap_i\{z\mid p_i^\top z+b_i\le 0\}\)。RAMPS 要求安全条件在时域 \(H\) 内每个中间步 \(j\ge r_i\) 都成立，把名义可达状态写成 \(z_j(z,u)=A^j z+\sum_{k=0}^{j-1}A^{j-1-k}Bu_k+\sum_{k=0}^{j-1}A^k c\)，并对每一步累加最坏情况误差形成收紧项：

\[E_j(p_i)=\sum_{k=0}^{j-1}\varepsilon\lVert p_i^\top A^k\rVert_1.\]

于是每个有效步 \(j\) 和每个面 \(i\) 得到一条鲁棒 CBF 约束 \(p_i^\top z_j(z,u)+b_i\le \lambda^j\,(p_i^\top z+b_i)-E_j(p_i)\)，其中 \(\lambda\in(0,1]\) 是衰减率（越接近 1 越严格、不变性越强）。这些约束对整个控制序列 \(u\) 都是线性的，汇总成 \(Gu\le h\)。多步条件解决了一步 CBF 处理不了的延迟控制问题——以单摆为例，约束角度 \(\theta\) 时 \(p^\top B=0\)（一步无法影响 \(\theta\)），但 \(p^\top AB=3\Delta t^2/(m\ell^2)\ne 0\)，说明两步后控制就能作用，因此只要 \(H\ge r=2\) 就能化解这个"陷阱"。而 \(E_j(p_i)\) 这个收紧项相当于在预测轨迹周围套一条"不确定性管道"，只要整条管道留在安全集内，护盾对不完美模型依然有效——这正是 RAMPS 能用简单线性回归就工作的原因。

3. 自适应预测时域选择与最小侵入式 QP：在前瞻力和保守度之间动态平衡

预测时域 \(H\) 太短解不了高相对阶陷阱、太长又会累积模型误差。RAMPS 不固定 \(H\)，而是在每个时间步通过有界二分搜索在 \([H_{\min},H_{\max}]\) 内选 \(H\)（\(H_{\min}\) 取活跃约束的最大相对阶）：可行的时域继续向更大值搜索、不可行的则缩小范围，取最大可行时域 \(H^\ast\)。在该时域上求解 QP

\[\min_u \lVert u_0-a_\pi\rVert_2^2 \quad \text{s.t.}\quad Gu\le h,\ u_k\in U,\]

目标是让首个动作 \(u_0\) 尽量贴近 agent 意图 \(a_\pi\)，体现"最小侵入"——护盾只在必要时介入、改动尽量小。按 receding-horizon 原则只执行 \(u_0\)，其余 \(u_{1:H-1}\) 仅用于保证可行轨迹存在、随后丢弃以保留下一步的灵活性。若搜不到可行时域，则启用回退策略 \(u_{\text{backup}}\)。实验中 QP 在超过 98% 的时间步可行、回退策略在复杂运动任务里被调用不到 2%，说明 Theorem 1 的条件性保证几乎始终生效。

损失函数 / 训练策略¶

RAMPS 的底层策略用 PPO（on-policy）或 SAC（off-policy）训练，护盾独立于 RL 算法之外（policy-agnostic）。误差界 \(\varepsilon\) 从一个留出验证集 \(D_{\text{val}}\) 上估计为最大观测一步预测误差，取高置信分位数（99 百分位）。QP 用 OSQP 求解，最大时域 \(H_{\max}=5\)。理论上 Theorem 2 给出 \(\varepsilon\) 的高概率成立界，Corollary 1 进一步把有限时域内的前向不变性以概率 \(P\ge 1-K\delta\) 连接到真实物理系统。

实验关键数据¶

主实验¶

在 Pendulum 与 Safety-Gymnasium 的 SafeHopper / SafeCheetah / SafeAnt / SafeHumanoid（最高 348 维状态、17 维动作）上评估，指标为训练期累积安全违规数（越低越好）。L = 线性回归模型，K = Koopman 模型；Failed 表示训练崩溃或始终无法完成安全 episode。

算法	Pendulum	SafeHopper	SafeCheetah	SafeAnt	SafeHumanoid
SauteRL	91±22	703±78	183±25	1221±203	319±106
CUP	184±225	673±63	122±22	1883±221	172±90
P3O	173±166	620±6	185±8	1481±446	183±45
SPICE + L	495±128	Failed	Failed	Failed	Failed
SPICE + K	87±8	459±105	169±70	Failed	Failed
RAMPS + L + PPO	69±6	193±44	7±7	162±42	137±134
RAMPS + K + PPO	53±6	172±15	26±17	111±23	154±25
RAMPS + K + SAC	25±26	49±10	21±4	242±38	11±7

RAMPS 各变体在高维任务上违规数显著低于所有基线；SPICE+L 完全无法扩展到高维，SPICE+K 在 SafeAnt/Humanoid 也失败。同用 Koopman 模型时 RAMPS+K 远好于 SPICE+K，说明优势来自鲁棒护盾框架本身（显式建模误差），而非单纯模型更准。护盾实时性也好：每步计算时间从 Pendulum 的 0.23 ms 到 Ant 的 0.40 ms。

消融实验¶

（消融详见原文附录 A.3，此处归纳关键结论）

配置	现象	说明
完整 RAMPS	安全且高奖励	各部件协同标定的结果
去掉误差收紧项 \(E_j\)	持续违规、灾难性失败	鲁棒性是安全的本质组件
时域 \(H\) 过短	解不开高相对阶陷阱	\(H\) 需 \(\ge\) 相对阶
时域 \(H\) 过长	累积模型误差变大	需折中
衰减率 \(\lambda\) 过大（过保守）	QP 易不可行，安全与奖励都受损	\(\lambda\) 要够宽松保证可行性
低置信误差界（非 99 分位）	学习不稳定	高置信界是安全+高奖励的前提

关键发现¶

最关键的部件是显式误差鲁棒性：去掉 \(E_j(p_i)\) 收紧项后无论怎么调超参都会持续违规——这印证了"不假设完美模型、而是形式化地为模型误差留余量"是整个框架的命门。
模型表达力影响安全-奖励平衡：更表达力强的 Koopman 模型误差界更小→护盾更不保守→奖励更高；简单线性模型在 SafeCheetah 上违规极低但奖励偏低，因为更大的误差界导致介入幅度更大、干扰了策略学习。
护盾与 RL 算法解耦：PPO 和 SAC 都能用，SAC 在高维（SafeHumanoid）更稳，PPO 在 SafeAnt 反超 SAC；PPO 在 Humanoid 的不稳定是 on-policy 方法在动作被修改时的已知通病，非护盾本身缺陷。
多维约束下仍可扩展：在 SafeHumanoid 上同时约束 21 维安全集（3 坐标 + 18 关节角速度），RAMPS 仅 256 次违规、任务奖励达 5000，而 CMDP 基线违规超 3000、奖励仅约 500。

亮点与洞察¶

"全局线性 + 多步前瞻"的协同是点睛之笔：线性模型让多步传播可行，多步传播又赋予护盾前瞻力——任何一方单独都不够，组合起来才同时拿到可扩展性和安全保证。这个 trade-off 的拆解很优雅。
用相对阶分析串起 HOCBF 与 RL：把控制论里高阶 CBF 处理"延迟控制权"的思路引入离散随机 RL 系统，单摆的 \(p^\top B=0\) 但 \(p^\top AB\ne 0\) 的例子非常直观地解释了"为什么一步护盾会被陷阱状态骗到"。
误差收紧项 \(E_j(p_i)\) 是可迁移的 trick：把数据驱动的误差界沿时域累加成"不确定性管道"，这套做法可以搬到其他需要在学习模型上做安全/鲁棒规划的场景（如学习型 MPC）。
自适应时域用二分搜索"白嫖"前瞻力：每步取最大可行 \(H\)，既不固定保守也不冒进，工程上简单且实测 98% 时间步可行。

局限与展望¶

保证是概率性、且依赖逐步可行：Theorem 1 的前向不变性以"每个时间步 QP 都可行"为前提，但无限时域可行性无法解析保证，只能靠经验（实测 >98%）支撑——这是学习型护盾的共性局限。
依赖误差界 \(\varepsilon\) 的有效性：\(\varepsilon\) 从有限验证集估计，Theorem 2 只给出高概率界；若部署分布与验证分布差异大，误差界可能失效。
线性模型的表达力天花板：动力学高度非线性时，即便抬升到 Koopman 特征空间，单一全局线性算子也可能拟合不足，导致误差界变大、护盾过保守、奖励受损（SafeCheetah 上 RAMPS+L 已体现）。
PPO 在动作修改下不稳定：on-policy 方法对"执行动作≠策略提议"敏感，限制了护盾与某些算法的组合，需要额外稳定化手段。
改进思路：引入自适应/分段 Koopman 嵌入以缓解单一线性模型的拟合瓶颈；探索在线收紧误差界以减少保守度。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把全局线性模型与鲁棒多步 CBF 统一，首次把形式化护盾扩展到 348 维
实验充分度: ⭐⭐⭐⭐ 五个环境 + 多基线 + 误差/时域/λ/置信度消融，但消融细节多放附录
写作质量: ⭐⭐⭐⭐ 理论与直觉（单摆例子）兼顾，叙述清晰
价值: ⭐⭐⭐⭐⭐ 为安全 RL 在高维真实系统的部署提供了可扩展、有理论支撑的护盾