Self-Improving Skill Learning for Robust Skill-based Meta-Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2502.03752
代码: github.com/epsilog/SISL
领域: 强化学习 / 元学习 / 技能学习
关键词: meta-RL, skill learning, noisy demonstrations, self-improvement, maximum return relabeling

一句话总结¶

提出 SISL（Self-Improving Skill Learning），通过解耦高层策略和技能改进策略，结合最大回报重标注的技能优先级机制，在噪声离线演示数据下实现鲁棒的技能学习，显著提升基于技能的元强化学习在长时域任务中的性能。

研究背景与动机¶

现状: 基于技能的元RL方法（如SiMPL）将长状态-动作序列分解为可复用技能，通过分层决策在长时域任务中取得了成功。这些方法依赖离线演示数据学习低层技能库，再用高层策略在线选择技能。

痛点: 现有方法高度依赖高质量离线演示，但现实世界中的数据往往受硬件老化、环境扰动、传感器漂移等因素影响而带有噪声。当离线数据质量下降时，学到的技能库被污染，这种退化会传播到高层策略，最终损害适应性能。

矛盾: 现有方法对所有轨迹一视同仁（均匀采样），导致低质量样本主导技能学习。例如在 Kitchen 微波开门任务中，用噪声数据学到的技能甚至无法完成抓握。

切入角度: 设计一个自我改进机制——解耦高层利用策略和独立的技能改进策略，让改进策略在离线数据分布附近探索更优行为，同时通过回报重标注优先选择高价值轨迹。

方法详解¶

整体框架¶

SISL 包含两个交替阶段： 1. 解耦策略学习: 高层策略 \(\pi_h\) 利用当前技能库最大化回报；技能改进策略 \(\pi_{\text{imp}}\) 在离线数据分布附近探索发现更优行为 2. 技能学习: 每隔 \(K_{\text{iter}}\) 迭代，用高质量数据重新训练技能编码器 \(q\)、技能先验 \(p\) 和低层策略 \(\pi_l\)

关键设计1: 解耦技能自我改进¶

技能改进策略 \(\pi_{\text{imp}}\) 的训练目标结合RL损失和KL约束：

\[\sum_i \mathbb{E}_{\tau^i \sim \mathcal{B}_{\text{imp}}^i \cup \mathcal{B}_{\text{on}}^i} [\mathcal{L}_{\text{imp}}^{\text{RL}}(\pi_{\text{imp}})] + \lambda_{\text{imp}}^{\text{kld}} \mathbb{E}_{\tau^i \sim \mathcal{B}_{\text{on}}^i} \mathcal{D}_{\text{KL}}(\hat{\pi}_d^i \| \pi_{\text{imp}})\]

其中优先在线缓冲区 \(\mathcal{B}_{\text{on}}^i\) 保留高回报轨迹，既为 \(\pi_{\text{imp}}\) 提供自监督信号，又为技能精炼提供高质量样本。

关键设计2: 最大回报重标注的技能优先级¶

训练奖励模型 \(\hat{R}(s_t, a_t, i)\)，为离线轨迹计算跨任务最大假设回报：

\[\hat{G}(\tilde{\tau}) = \max_i \left\{ \sum_t \gamma^t \hat{R}(s_t, a_t, i) \right\}\]

按 softmax 分布采样离线数据 \(P_{\mathcal{B}_{\text{off}}}(\tilde{\tau}) = \text{Softmax}(\hat{G}(\tilde{\tau}) / T)\)，抑制噪声样本。

损失函数与训练策略¶

最终技能学习目标动态混合离线和在线数据：

\[\mathcal{L}_{\text{skill}} = (1 - \beta) \mathbb{E}_{\tilde{\tau} \sim P_{\mathcal{B}_{\text{off}}}} [\mathcal{L}(\pi_l, q, p, z)] + \frac{\beta}{N_{\mathcal{T}}} \sum_i \mathbb{E}_{\tau^i \sim \mathcal{B}_{\text{on}}^i} [\mathcal{L}(\pi_l, q, p, z)]\]

混合系数 \(\beta\) 根据在线和离线平均回报自适应计算：

\[\beta = \frac{\exp(\bar{G}_{\text{on}} / T)}{\exp(\bar{G}_{\text{on}} / T) + \exp(\bar{G}_{\text{off}} / T)}\]

实验关键数据¶

主实验: 四个长时域环境的最终测试平均回报¶

环境 (噪声)	SAC	PEARL	SPiRL	SiMPL	SISL
Kitchen (Expert)	0.01	0.23	3.11	3.40	3.97
Kitchen (σ=0.2)	-	-	2.06	2.18	3.73
Kitchen (σ=0.3)	-	-	0.83	0.81	3.48
Office (Expert)	0.00	0.01	0.65	2.50	2.86
Office (σ=0.3)	-	-	0.42	0.11	1.68
Maze2D (Expert)	0.20	0.10	0.77	0.80	0.87
Maze2D (σ=1.5)	-	-	0.81	0.68	0.99
AntMaze (Expert)	0.00	0.00	0.64	0.67	0.81

消融实验: 各组件贡献（Kitchen σ=0.3）¶

变体	最终回报
SISL (完整)	3.48
无 \(\mathcal{B}_{\text{off}}\)	显著下降
无 \(P_{\mathcal{B}_{\text{off}}}\)（均匀采样）	明显下降
无 \(\mathcal{B}_{\text{on}}\)	显著下降
无 \(\pi_{\text{imp}}\)	明显下降

关键发现¶

SPiRL 和 SiMPL 在噪声增大时性能急剧下降，而 SISL 在所有噪声水平上保持鲁棒
在 Kitchen σ=0.3 时，SiMPL 回报仅 0.81，SISL 达到 3.48（提升4.3倍）
在 Maze2D σ=1.5 时，SISL 达到近乎完美的 0.99 成功率
SISL 仅增加约16%的训练计算开销，元测试成本不变

亮点与洞察¶

独到的问题发现: 首次系统识别了技能库被噪声污染→高层策略退化的传播链条
解耦设计: 高层策略负责利用，改进策略负责探索，避免了两者冲突
自适应混合系数: \(\beta\) 根据在线/离线数据质量动态调节，形成自动课程学习
轻量级增强: 仅增加16%额外计算，不改变元测试流程，易于集成到现有框架

局限与展望¶

元测试阶段仍需微调（0.5K迭代），零样本技能迁移是重要的改进方向
奖励模型依赖简单的子任务完成奖励，在复杂奖励函数场景中可能需要逐任务标准化
温度参数 \(T\) 需要按环境调节（Kitchen用1.0，Maze2D用0.5），理想情况下应自适应
仅测试了四个模拟环境，真实机器人上的验证尚缺

评分¶

新颖性: ⭐⭐⭐⭐ — 解耦改进策略和回报重标注的组合有效且新颖
实验充分度: ⭐⭐⭐⭐ — 四个环境×多个噪声水平，消融充分
写作质量: ⭐⭐⭐⭐ — 动机清晰，图示直观
价值: ⭐⭐⭐⭐ — 解决了实际场景中数据质量不可控的关键问题