ICLR 2026 强化学习 Offline Safe RL 生成式模型轨迹拼接目标函数 Expectile Regression 奖励-成本权衡

GAS: Enhancing Reward-Cost Balance of Generative Model-assisted Offline Safe RL¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=sGrrKMK0cn
代码: 待确认
领域: 强化学习 / 离线安全 RL
关键词: Offline Safe RL, 生成式模型, 轨迹拼接, 目标函数, Expectile Regression, 奖励-成本权衡

一句话总结¶

GAS 用「目标函数 + 转移级数据增强/重标注 + 数据重塑」给生成式模型驱动的离线安全 RL 补上了轨迹拼接能力，把用户随手指定的（可能不靠谱的）奖励-成本目标，自动校准成数据集里真正可达且满足约束的最优目标，从而在紧约束下更安全、在松约束下奖励更高。

研究背景与动机¶

领域现状：离线安全 RL（OSRL）要在只有预采集数据、不能在线探索的前提下，学一个既高回报又满足安全约束的策略。近年一类主流做法是把决策重写成「条件生成」问题——以 Decision Transformer 为代表的生成式模型（GM）把奖励 return-to-go \(R_t\) 和成本 return-to-go \(C_t\) 当条件输入，让模型生成满足这对目标的动作。这套做法绕开了传统 RL 里 Bellman backup 带来的 OOD 外推问题，而且因为目标是输入而非写死的约束，测试时可以不重训就适配不同安全阈值，非常灵活。

现有痛点：但生成式方法在带约束的场景下有两个硬伤。其一是没有轨迹拼接能力——它本质是「目标条件行为克隆」，靠注意力把前若干步的历史当上下文一起记忆，给它一段次优历史它就照抄次优动作，无法像传统 RL 那样把不同轨迹里的好片段缝合出更优策略。论文还实测发现，把 CDT 的记忆长度从 \(K=1\) 加到 \(K=10\)，三种约束下性能几乎不变，说明为 NLP 设计的注意力根本没在 MDP 的时序转移上发挥作用。其二是不会平衡奖励最大化与约束满足——CDT 只是把 \(\hat R\) 和 \(\hat C\) 拼接成上下文，没有任何机制判断这对目标是否可行、也没法优先保约束；用户若指定了过高回报配过严约束，策略就会崩。

核心矛盾：生成式方法的灵活性来自「目标完全由人指定」，但人指定的目标往往与数据集真正可达的最优目标错位，错位又因为缺拼接能力无法被自我纠正——灵活性反而成了不稳定性的来源。

本文目标：在保留生成式方法绕开 Bellman backup、可零样本适配阈值的优点前提下，补上拼接能力，并自动把人指定目标校准成可达的最优奖励-成本目标。

核心 idea：【用目标函数当中介】 不再让策略直接去够人给的目标，而是先用一组「目标函数」从数据里估计——在给定状态和目标下、满足约束所能达到的最优奖励 return-to-go 及其对应成本 return-to-go，再用这个估计出的最优目标去引导策略；目标函数靠 expectile regression 训练，全程不依赖 Bellman backup。

方法详解¶

整体框架¶

GAS 抛弃 CDT 的注意力结构，只用一个 MLP 做纯粹的「转移级拼接」。流程分三步：先对离线数据做转移级的增强与重标注，让同一状态能从其它转移里借到「更高奖励、更低成本」的片段，喂给目标函数更丰富的拼接素材；再用 expectile regression 训练奖励/成本目标函数，估出满足约束的最优可达目标，并以「受约束的 AWR」把这对最优目标灌进策略；最后用数据重塑把高度失衡的奖励-成本分布拉均匀，稳住训练。

flowchart LR
    A[离线数据集 D] --> B[转移级数据增强<br/>时序分段 return]
    B --> C[转移级 return 重标注<br/>随机化目标]
    C --> D[奖励/成本目标函数<br/>expectile regression]
    D --> E[估计最优可达目标<br/>VR_t, VC_t]
    E --> F[受约束 AWR<br/>策略优化]
    A --> G[数据重塑<br/>均衡奖励-成本分布]
    G --> D
    F --> H[MLP 策略 π]

关键设计¶

1. 时序分段 return 增强：把好片段从「整条轨迹」拆到「任意区间」 标准的 \(R_t\)、\(C_t\) 都是从当前步累计到轨迹末端的回报，但真正有价值的好转移往往只发生在一小段窗口里。GAS 因此把每个转移扩展成一族不同窗口长度的累计回报：\((s_t,a_t,R_t,C_t)\to\{(s_t,a_t,R_{t:\Gamma},C_{t:\Gamma})\mid \Gamma=t,\dots,T\}\)，其中 \(R_{t:\Gamma}=r_t+\dots+r_\Gamma\)、\(C_{t:\Gamma}=c_t+\dots+c_\Gamma\)。这样一来，采样某个状态时，只要满足 \(\Gamma-t=T-t'\)，GAS 就能在相同状态下从别的转移里找到 \(R_{t:\Gamma}>R_{t'}\) 且 \(C_{t:\Gamma}\le C_{t'}\) 的更优片段去拼。它既成倍扩充了训练数据（纳入各种时长的转移），又通过提供多样的时间区间让跨时间步的拼接更灵活。

2. 转移级 return 重标注：让目标函数见过失衡且离谱的目标 生成式方法的行为克隆本性决定了：测试时人指定的奖励-成本目标若与训练输入错位，性能就掉。GAS 把 CDT 的轨迹级重标注细化到转移级——对采样到的转移，把它的奖励/成本目标按 \(\hat R_{t:\Gamma}=U((1-\delta)R_{t:\Gamma},(1+\delta)R_{t:\Gamma})\)、\(\hat C_{t:\Gamma}=U(C_{t:\Gamma},C_{\max})\) 在一定范围内随机扰动（\(U\) 为均匀分布，\(\delta\in(0,1)\)，\(C_{\max}\) 为最大成本回报），再把这些随机化目标喂给目标函数。如此目标函数在训练中就见过大量失衡、激进的奖励-成本组合，测试时对人乱给的目标更鲁棒。关键是 GAS 并不用这些重标注值直接更新策略，而是让它们经由目标函数转成「中间最优目标」再去更新策略，从而在保鲁棒性的同时不损害奖励最大化与约束满足。

3. 带 expectile regression 的目标函数：估「满足约束的最优可达回报」而非「运气值」 概念上最优奖励目标应是 \(V^R_t(s,\hat R,\hat C)=\max_{(s_t=s,a_t,R_t,C_t)\sim D}R_t\cdot\mathbb{1}(C_t\le\hat C)\)，对应成本目标取这个 argmax 处的 \(C_t\)。但直接取 max 会被数据里偶发的「高奖励低成本」幸运转移带偏、高估目标。GAS 改用分布视角的 expectile regression：先定义奖励优势 \(A^R_{t:\Gamma}=\mathbb{1}(V^C_{t:\Gamma}<\hat C_{t:\Gamma})\cdot R_{t:\Gamma}-V^R_{t:\Gamma}\)，把违约或低回报的转移降权，损失 \(L^R=\mathbb{E}_{\hat D}[|\alpha-\mathbb{1}(A^R_{t:\Gamma}<0)|\cdot(A^R_{t:\Gamma})^2]\) 使 \(V^R\) 收敛到「满足约束的最大奖励 return-to-go」的 \(\alpha\)-expectile。成本目标函数则换一套权重，目标是估「最优奖励目标对应的成本」而非最小成本：\(A^C_{t:\Gamma}=C_{t:\Gamma}-V^C_{t:\Gamma}\)，\(L^C=\mathbb{E}_{\hat D}[|\alpha-\mathbb{1}(A^R_{t:\Gamma}<0)|\cdot(A^C_{t:\Gamma})^2]\)，复用奖励侧的指示项，让高奖励转移获得更大权重。两者在同一优化框架下联合推导、带理论保证。

4. 受约束 AWR 的目标引导策略 + 数据重塑 拿到目标函数估出的最优奖励/成本目标 \(V^R_{t:\Gamma}\)、\(V^C_{t:\Gamma}\) 后，GAS 把它们也作为策略输入，用受约束版本的 Advantage Weighted Regression 训练：\(L_\pi=\mathbb{E}_{\hat D}[\mathbb{1}(V^C_{t:\Gamma}<\hat C_{t:\Gamma})\cdot|\alpha-\mathbb{1}(A^R_{t:\Gamma}<0)|\cdot(\pi(a\mid s_t,\hat R_{t:\Gamma},\hat C_{t:\Gamma},V^R_{t:\Gamma},V^C_{t:\Gamma},t')-a_t)^2]\)，只对「满足约束且高奖励」的转移加权回归。另一方面，数据集里绝大多数转移都挤在「低奖励低成本」的保守区，理想的「低成本高奖励」转移极少；GAS 据此做数据重塑——估计在给定成本回报下的奖励分布，挑出每个成本下奖励排名前 \(q\%\) 的转移构成 \(D_q=\{(s,a,R,C)\sim D\mid P^c(R\mid C)>1-q\}\)，训练时以概率 \(\epsilon\) 采 \(D_q\)、\(1-\epsilon\) 采原始 \(D\)，把分布拉得更均衡，提升训练稳定性与效率。

实验关键数据¶

主实验表格¶

在 Bullet-Safety-Gym 与 Safety-Gymnasium 两个基准、12 个场景、对比 8 个 baseline（CPQ / COptiDICE / WSAC / VOCE / CDT / FISOR / CAPS / CCAC）。每个数值为 10 评估回合 × 5 种子 × 3 阈值的平均，归一化成本阈值设为 1（\(C\le 1\) 即安全）。

设置	指标	CPQ	COptiDICE	CDT	FISOR	GAS
紧约束(10/20/30%)	奖励 R↑	0.39	0.59	0.67	0.36	0.66
紧约束(10/20/30%)	成本 C↓	1.42	2.26	1.12(违约)	0.03	0.67(安全)
松约束(70/80/90%)	奖励 R↑	0.52	0.63	0.80	0.36	0.86
松约束(70/80/90%)	成本 C↓	0.60	0.50	0.76	0.03	0.87(安全)

紧约束下只有 GAS 在全部任务上同时做到「安全且最优」；CDT 奖励虽高但多场景违约（\(C>1\)），FISOR 安全却奖励被严重压低。松约束下 GAS 奖励 0.86 显著高于 CDT 的 0.80，验证拼接带来的奖励最大化优势。

消融实验表格¶

论文消融围绕三大组件（时序分段增强、转移级重标注、数据重塑）与目标函数展开，结论是：去掉拼接相关组件后紧约束安全性下降、去掉数据重塑后训练稳定性变差。CDT 在 \(K=1\) 与 \(K=10\) 记忆长度下性能几乎不变，反证注意力时序建模在 OSRL 中无效，为「用拼接替代注意力」提供了动机依据。

关键发现¶

紧约束下相对 CDT 的安全性提升来自拼接能力——GAS 能把跨时间步、跨轨迹的安全转移缝合起来；松约束下相对 CDT 约 6% 的奖励提升来自更强的奖励最大化。
把记忆长度 \(K\) 从 1 加到 10，CDT 性能几乎不动，说明 OSRL 里长时序注意力没用，纯 MLP 拼接反而更对路。
GAS 保留了生成式方法的零样本阈值适配能力，能鲁棒应对失衡、人指定的奖励-成本目标。

亮点与洞察¶

把「人给的目标」和「数据可达的最优目标」解耦：用目标函数当中介，是这篇最干净的洞察——既不用 Bellman backup（保住了不 OOD 的好处），又补上了拼接，避开了「直接信任用户目标」的脆弱性。
expectile regression 的双重用法：同一个 \(\alpha\)-expectile 框架，奖励侧估「满足约束的最大回报」、成本侧借奖励侧的指示项估「最优回报对应的成本」，两者联合而非各练各的，设计很紧凑。
「注意力无用」的实证反驳：用 \(K=1\) vs \(K=10\) 的训练曲线直接证伪「更长记忆更好」，给「丢掉 Transformer、回到 MLP」提供了说服力，而非拍脑袋简化。
数据重塑切中数据失衡痛点：明确区分保守/激进/理想三类转移并定向上采样理想转移，针对性强。

局限与展望¶

引入了 \(\delta\)（重标注扰动幅度）、\(\alpha\)（expectile）、\(q\)、\(\epsilon\)（重塑比例与采样概率）等多个超参，调参成本与对各超参的敏感性论文披露有限。
评测集中在 Bullet-Safety-Gym / Safety-Gymnasium 的仿真控制任务，向自动驾驶、机器人等高维真实安全场景的迁移性待验证。
目标函数的理论保证建立在数据集覆盖度的隐含假设上，当理想转移在数据里极度稀缺时，估计出的「最优可达目标」可能仍偏保守。
与并发工作 COPDT（把奖励目标作为成本目标的条件生成、面向多约束多任务）的正面对比缺位，多约束扩展是自然的下一步。

评分¶

新颖性: ⭐⭐⭐⭐ 「目标函数当中介校准人指定目标 + 转移级拼接替代注意力」组合在 OSRL 里是新颖且自洽的，且有实证反驳支撑设计动机。
实验充分度: ⭐⭐⭐⭐ 2 基准 12 场景 8 baseline、紧/松约束分别评测、含动机性实证，较扎实；缺与并发多约束方法的直接对比、超参敏感性披露有限。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑清晰，公式与图示配合到位，三类转移、目标函数双用法等关键概念讲得明白。
价值: ⭐⭐⭐⭐ 给生成式 OSRL 补拼接、解决「人给目标不可信」是真实痛点，方法简洁可复用，对安全决策落地有参考价值。