跳转至

OrbitZoo: Real Orbital Systems Challenges for Reinforcement Learning

会议: NeurIPS 2025
arXiv: 2504.04160
代码: 有(开源)
领域: 其他
关键词: 多智能体强化学习, 轨道动力学, 高保真仿真, 碰撞规避, PettingZoo

一句话总结

提出 OrbitZoo,一个基于工业级天体动力学库 Orekit 的多智能体 RL 环境,集成高保真轨道动力学(含大气阻力、太阳辐射压、三体效应等)、PettingZoo 多智能体接口和实时 3D 可视化,在 Starlink 真实星历验证中均值 MAPE 仅 0.16%。

研究背景与动机

领域现状:随着卫星和轨道碎片数量激增,低地球轨道(LEO)拥挤成为严峻挑战。碰撞规避、编队维持、轨道转移等任务需要自主决策系统。RL 在这些任务中展现出潜力,能够学习自适应策略应对动态不确定环境。

现有痛点:现有 RL 框架大多从头搭建,使用简化动力学模型(如圆限制性三体问题 CR3BP),忽略真实世界的大气阻力、太阳辐射压力(SRP)、多体引力效应等关键扰动,导致 sim-to-real 差距大。多数环境只支持单智能体、完全观测、脉冲推力等简化设定,缺乏标准化和可复现性。

核心矛盾:高保真仿真与 RL 训练效率之间的矛盾。精确的数值积分器和完整扰动模型计算成本高,但简化模型训练出的策略难以迁移到真实场景。同时,现有环境缺乏统一的多智能体支持和验证标准。

本文目标 (1) 缺乏集成工业级动力学库的标准化多智能体 RL 环境;(2) sim-to-real 差距难以量化;(3) 现有环境的可扩展性和可复现性不足。

切入角度:利用 Orekit(成熟的 Java 天体动力学库)的 Python 封装作为动力学引擎,结合 PettingZoo 多智能体 RL 框架,构建模块化、高保真、开源的轨道 RL 平台。

核心 idea:在工业级轨道仿真库上构建标准化 MARL 环境,用真实星历数据验证保真度,填补 RL 在轨道操控标准化平台的空白。

方法详解

整体框架

OrbitZoo 由三层组成:(1) 底层动力学引擎(Orekit),支持完整轨道扰动和高精度数值积分;(2) RL 环境层(PettingZoo 接口),将轨道操控建模为 POMDP,每个卫星作为独立智能体;(3) 应用层,提供可定制的任务场景(碰撞规避、轨道转移、编队维持等)和实时 3D 可视化。

关键设计

  1. 高保真动力学集成:

    • 功能:提供真实的轨道环境仿真
    • 核心思路:封装 Orekit 的数值传播器,支持 Holmes-Featherstone 谐波引力场、大气阻力(使用历史天气数据计算)、太阳辐射压力(计入月球遮挡)、三体效应(太阳系所有行星、太阳、月球)。支持 Cartesian、Keplerian 和 Equinoctial 三种状态表示,以及可变步长如 Dormand-Prince 的高精度积分方法
    • 设计动机:通过 Orekit 避免自建动力学模型的验证问题,直接获得工业级精度,将 sim-to-real gap 最小化
  2. PettingZoo 多智能体 RL 接口:

    • 功能:支持部分可观测、去中心化的多智能体训练
    • 核心思路:每个卫星作为独立 agent,拥有自己的观测空间(轨道状态 + 邻居信息)和动作空间(极坐标推力参数)。环境建模为 MA-POMDP,支持合作(编队维持)、竞争(追逃)和混合场景。支持集中训练去中心化执行(CTDE)和联邦学习
    • 设计动机:使用成熟的 PettingZoo 框架降低开发门槛,同时利用 Orekit 并行传播实现对千级别天体的可扩展计算
  3. 模块化奖励和可视化框架:

    • 功能:灵活定义任务目标和调试 agent 行为
    • 核心思路:奖励框架整合体间量(相对距离、碰撞概率 PoC)和体特定量(燃料消耗、质量变化),支持稠密/稀疏奖励和多目标优化。内置 Python 实时 3D 可视化工具,直接在训练/评估中实时展示轨道和推力动作
    • 设计动机:轨道任务的奖励设计非平凡(延迟效应、耦合动力学),模块化设计便于实验不同的奖励策略;可视化帮助理解学习行为和诊断失败案例

实验关键数据

主实验

实验 算法 关键结果
Hohmann 转移 (30km) PPO 学到近最优轨道转移,半长轴与理论值匹配
碰撞规避 (CAM) DQN, PPO PPO 在完整扰动下表现更好,有效降低 PoC < \(10^{-6}\)
GEO 编队 (4卫星) PPO + GAE 4天内维持等角分布,泛化到未见扰动
Starlink 验证 31颗卫星 MAPE=0.16%,16.6h 传播 RMSE 低至 24m

消融实验(验证精度分组)

卫星分组 均值 RMSE (m) 说明
Low RMSE 24.14 匹配良好
Medium RMSE 83.75 中等偏差
High RMSE 1924.90 物理参数信息不足

关键发现

  • 连续动作空间(PPO)比离散动作空间(DQN)在高保真动力学下泛化更好
  • 在训练用简化动力学、评估用完整扰动的 sim-to-real 设定下,PPO 仍能有效降低碰撞概率
  • 编队维持中策略能泛化到训练中未见的三体力和 SRP,说明高保真环境训练出的策略更鲁棒
  • Starlink 验证中大部分卫星 RMSE 很低,高 RMSE 卫星主要因物理参数(阻力系数等)信息不足

亮点与洞察

  • 首个集成工业级动力学库的标准化 MARL 轨道环境:对比表显示它是唯一同时满足所有 7 项能力的平台(多智能体、工业仿真器、高保真动力学、连续控制、真实推力建模、交互可视化、开源)。这为航天 RL 研究提供了统一的实验基础设施
  • 真实数据验证方法论:用贝叶斯优化调参(阻力系数、反射系数)匹配 Starlink 星历的思路为 sim-to-real 评估提供了可复用的框架
  • 碰撞规避中不确定性传播的建模:在 CAM 任务中显式建模状态不确定性及其时间演化,比简单用欧氏距离更贴近运维实际

局限与展望

  • 高保真传播的计算成本在千级天体规模下仍然是瓶颈,尚未明确展示大规模星座(如完整 Starlink 4000+ 星)的训练效率
  • 对 sim-to-real gap 的量化仅限于轨道误差,未验证训练策略在真实航天器上的迁移性
  • 奖励函数设计仍需人工调试,缺乏自动化奖励发现机制
  • 安全约束(如燃料硬限制、飞行禁区)的形式化保证未体现

相关工作与启发

  • vs ColAvGym (Kazemi 2024): 单智能体 CAM 环境,同样用 Orekit 但不支持多智能体和交互可视化;OrbitZoo 功能更全面
  • vs Dolan 2023 (GNN-based MARL): 仅用 J2 扰动的简化动力学,无工业仿真器集成;OrbitZoo 动力学保真度远优
  • vs REDA (Holder 2024): 用 Poliastro 做多智能体任务分配但不集成真实轨道数据;OrbitZoo 通过 Starlink 验证提供可信度保证

评分

  • 新颖性: ⭐⭐⭐ 工程集成为主,方法论创新有限
  • 实验充分度: ⭐⭐⭐⭐ 多任务验证 + 真实数据对比
  • 写作质量: ⭐⭐⭐⭐ 对比表系统全面,背景讲解清晰
  • 价值: ⭐⭐⭐⭐ 填补了航天 RL 标准化平台空白,对社区有长期价值