Zero-Shot Context Generalization in Reinforcement Learning from Few Training Contexts¶

会议: NeurIPS 2025
arXiv: 2507.07348
代码: https://github.com/chapman20j/ZeroShotGeneralization-CMDPs
领域: Reinforcement Learning
关键词: 上下文泛化, 上下文MDP, 数据增强, Bellman方程, 零样本迁移

一句话总结¶

提出 Context-Enhanced Bellman Equation (CEBE) 和 Context Sample Enhancement (CSE) 方法，通过利用环境动力学和奖励函数对上下文参数的一阶导数信息，在仅训练于单一上下文的情况下实现对未见上下文的零样本泛化。

深度强化学习（DRL）在游戏、NLP、机器人等领域取得了显著成功，但训练得到的策略往往难以泛化到参数不同的评估环境。例如，在机器人控制中，训练时的摩擦系数、质量等物理参数与实际部署时不同，会导致策略失效。

现有应对策略主要有两类：（1）持续学习（在部署时继续训练），但出于安全和成本考虑常不可行；（2）域随机化（在多个上下文中训练），但构建多样化训练环境可能极度昂贵（如设计复杂机器人）。

核心矛盾在于：没有足够的结构和先验信息，从少量上下文实现零样本泛化是不可能的。但在许多物理控制问题中，我们知道动力学方程的形式，只是参数有不确定性。

本文的切入角度是：利用环境的可微性——既然转移函数 T^c 和奖励函数 R^c 关于上下文参数 c 是可微的，我们可以通过一阶泰勒展开近似邻近上下文的动力学，在不实际采样新环境的前提下进行数据增强，实现"虚拟"域随机化。

给定一个上下文 MDP (CMDP)，在基础训练上下文 c₀ 中收集数据，利用动力学和奖励的上下文梯度 ∂_c T, ∂_c R 对采样数据进行线性近似增强，生成邻近上下文 c 的虚拟样本，然后用这些增强样本优化 CEBE，从而训练出能泛化到未见上下文的策略。

Context-Enhanced Bellman Equation (CEBE)：
- 标准 Bellman 方程在特定上下文 c 下的转移和奖励可能未知
- CEBE 使用近似的转移和奖励函数（一阶泰勒展开）：
  - 确定性转移：T_CE^c(s,a) = δ_{f^{c₀}(s,a) + ∂_c f^{c₀}(s,a)(c-c₀)}
  - 奖励：R_CE^c = R^{c₀} + ∂c R^{c₀}·(c-c₀) + ∂·(c-c₀)} R^{c₀} ∂_c T^{c₀
- 在 c=c₀ 时精确退化为标准 Bellman 方程
一阶精度理论保证（Theorem 2）：
- 核心结论：‖Q_CE^c - Q_BE^c‖_∞ ≤ O(‖c-c₀‖²)
- 即 CEBE 的 Q 函数是真实 Q 函数的一阶近似（误差为二阶）
- 前提条件：转移和奖励函数关于上下文参数充分光滑
- 还证明了 Q 函数在转移和奖励的小扰动下的稳定性（Theorem 1），这是一个通用的 (T,R)-stability 结果
Context Sample Enhancement (CSE)：
- 将 CEBE 转化为实用的数据增强方法（针对确定性转移环境）
- 给定一个样本 (s, a, r, s') 和上下文扰动 Δc，CSE 生成增强样本：
  - r̄ = r + ∂c R·Δc + ∂ R · ∂_c T · Δc
  - s̄' = s' + ∂_c T · Δc
- 实现非常简单：只需要在每个训练 batch 中对采样数据应用线性变换
- 与域随机化（LDR）不同，CSE 不需要真正从新环境采样，只需上下文梯度
策略最优性保证（Theorem 4）：基于 CEBE 优化得到的 ε-最优策略，在原始 CMDP 中是 (2δ+2ε)-最优的，其中 δ 是 CEBE 逼近误差。

使用标准的 off-policy RL 算法（如 SAC），在训练循环中：从 replay buffer 采样 batch → 生成上下文扰动 Δc ∈ B(c, ε) → 用 CSE 增强样本 → 用增强后的样本更新网络。整个过程只需要获取环境的上下文梯度信息。

环境	指标	CSE（本文）	Baseline	LDR（理想上界）
SimpleDirection	Return	接近LDR	显著衰减	最优
PendulumGoal (g 变化)	Return	≈LDR	大幅衰减	≈CSE
PendulumGoal (τ>0.6)	Return	优于LDR	衰减	不如CSE
CheetahVelocity	Return	≈LDR	v>1.5后衰减	≈CSE
AntDirection	Return	≈LDR大部分区域	显著差	≈CSE

配置	Q函数逼近误差	说明
Cliffwalker (奖励1)	斜率≈2 (log-log)	验证 O(‖c-c₀‖²) 一阶精度
Cliffwalker (奖励2)	斜率≈2 (log-log)	不同奖励函数下同样成立