OrbitZoo: Real Orbital Systems Challenges for Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2504.04160
代码: 有（开源）
领域: 其他
关键词: 多智能体强化学习, 轨道动力学, 高保真仿真, 碰撞规避, PettingZoo

一句话总结¶

提出 OrbitZoo，一个基于工业级天体动力学库 Orekit 的多智能体 RL 环境，集成高保真轨道动力学（含大气阻力、太阳辐射压、三体效应等）、PettingZoo 多智能体接口和实时 3D 可视化，在 Starlink 真实星历验证中均值 MAPE 仅 0.16%。

研究背景与动机¶

领域现状：随着卫星和轨道碎片数量激增，低地球轨道（LEO）拥挤成为严峻挑战。碰撞规避、编队维持、轨道转移等任务需要自主决策系统。RL 在这些任务中展现出潜力，能够学习自适应策略应对动态不确定环境。

现有痛点：现有 RL 框架大多从头搭建，使用简化动力学模型（如圆限制性三体问题 CR3BP），忽略真实世界的大气阻力、太阳辐射压力（SRP）、多体引力效应等关键扰动，导致 sim-to-real 差距大。多数环境只支持单智能体、完全观测、脉冲推力等简化设定，缺乏标准化和可复现性。

核心矛盾：高保真仿真与 RL 训练效率之间的矛盾。精确的数值积分器和完整扰动模型计算成本高，但简化模型训练出的策略难以迁移到真实场景。同时，现有环境缺乏统一的多智能体支持和验证标准。

本文目标 (1) 缺乏集成工业级动力学库的标准化多智能体 RL 环境；(2) sim-to-real 差距难以量化；(3) 现有环境的可扩展性和可复现性不足。

切入角度：利用 Orekit（成熟的 Java 天体动力学库）的 Python 封装作为动力学引擎，结合 PettingZoo 多智能体 RL 框架，构建模块化、高保真、开源的轨道 RL 平台。

核心 idea：在工业级轨道仿真库上构建标准化 MARL 环境，用真实星历数据验证保真度，填补 RL 在轨道操控标准化平台的空白。

方法详解¶

整体框架¶

OrbitZoo 由三层组成：(1) 底层动力学引擎（Orekit），支持完整轨道扰动和高精度数值积分；(2) RL 环境层（PettingZoo 接口），将轨道操控建模为 POMDP，每个卫星作为独立智能体；(3) 应用层，提供可定制的任务场景（碰撞规避、轨道转移、编队维持等）和实时 3D 可视化。

关键设计¶

高保真动力学集成:
- 功能：提供真实的轨道环境仿真
- 核心思路：封装 Orekit 的数值传播器，支持 Holmes-Featherstone 谐波引力场、大气阻力（使用历史天气数据计算）、太阳辐射压力（计入月球遮挡）、三体效应（太阳系所有行星、太阳、月球）。支持 Cartesian、Keplerian 和 Equinoctial 三种状态表示，以及可变步长如 Dormand-Prince 的高精度积分方法
- 设计动机：通过 Orekit 避免自建动力学模型的验证问题，直接获得工业级精度，将 sim-to-real gap 最小化
PettingZoo 多智能体 RL 接口:
- 功能：支持部分可观测、去中心化的多智能体训练
- 核心思路：每个卫星作为独立 agent，拥有自己的观测空间（轨道状态 + 邻居信息）和动作空间（极坐标推力参数）。环境建模为 MA-POMDP，支持合作（编队维持）、竞争（追逃）和混合场景。支持集中训练去中心化执行（CTDE）和联邦学习
- 设计动机：使用成熟的 PettingZoo 框架降低开发门槛，同时利用 Orekit 并行传播实现对千级别天体的可扩展计算
模块化奖励和可视化框架:
- 功能：灵活定义任务目标和调试 agent 行为
- 核心思路：奖励框架整合体间量（相对距离、碰撞概率 PoC）和体特定量（燃料消耗、质量变化），支持稠密/稀疏奖励和多目标优化。内置 Python 实时 3D 可视化工具，直接在训练/评估中实时展示轨道和推力动作
- 设计动机：轨道任务的奖励设计非平凡（延迟效应、耦合动力学），模块化设计便于实验不同的奖励策略；可视化帮助理解学习行为和诊断失败案例

实验关键数据¶

主实验¶

实验	算法	关键结果
Hohmann 转移 (30km)	PPO	学到近最优轨道转移，半长轴与理论值匹配
碰撞规避 (CAM)	DQN, PPO	PPO 在完整扰动下表现更好，有效降低 PoC < \(10^{-6}\)
GEO 编队 (4卫星)	PPO + GAE	4天内维持等角分布，泛化到未见扰动
Starlink 验证	—	31颗卫星 MAPE=0.16%，16.6h 传播 RMSE 低至 24m

消融实验（验证精度分组）¶

卫星分组	均值 RMSE (m)	说明
Low RMSE	24.14	匹配良好
Medium RMSE	83.75	中等偏差
High RMSE	1924.90	物理参数信息不足

关键发现¶

连续动作空间（PPO）比离散动作空间（DQN）在高保真动力学下泛化更好
在训练用简化动力学、评估用完整扰动的 sim-to-real 设定下，PPO 仍能有效降低碰撞概率
编队维持中策略能泛化到训练中未见的三体力和 SRP，说明高保真环境训练出的策略更鲁棒
Starlink 验证中大部分卫星 RMSE 很低，高 RMSE 卫星主要因物理参数（阻力系数等）信息不足

亮点与洞察¶

首个集成工业级动力学库的标准化 MARL 轨道环境：对比表显示它是唯一同时满足所有 7 项能力的平台（多智能体、工业仿真器、高保真动力学、连续控制、真实推力建模、交互可视化、开源）。这为航天 RL 研究提供了统一的实验基础设施
真实数据验证方法论：用贝叶斯优化调参（阻力系数、反射系数）匹配 Starlink 星历的思路为 sim-to-real 评估提供了可复用的框架
碰撞规避中不确定性传播的建模：在 CAM 任务中显式建模状态不确定性及其时间演化，比简单用欧氏距离更贴近运维实际

局限与展望¶

高保真传播的计算成本在千级天体规模下仍然是瓶颈，尚未明确展示大规模星座（如完整 Starlink 4000+ 星）的训练效率
对 sim-to-real gap 的量化仅限于轨道误差，未验证训练策略在真实航天器上的迁移性
奖励函数设计仍需人工调试，缺乏自动化奖励发现机制
安全约束（如燃料硬限制、飞行禁区）的形式化保证未体现

评分¶

新颖性: ⭐⭐⭐ 工程集成为主，方法论创新有限
实验充分度: ⭐⭐⭐⭐ 多任务验证 + 真实数据对比
写作质量: ⭐⭐⭐⭐ 对比表系统全面，背景讲解清晰
价值: ⭐⭐⭐⭐ 填补了航天 RL 标准化平台空白，对社区有长期价值