VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play¶
会议: NeurIPS 2025
arXiv: 2502.01932
代码: https://github.com/thu-uav/VolleyBots
领域: 强化学习
关键词: 多无人机系统, 机器人运动, 多智能体强化学习, 博弈论, 仿真到现实
一句话总结¶
本文提出 VolleyBots,一个多无人机排球竞技测试平台,融合了合作-对抗博弈、回合制交互与敏捷 3D 机动控制,基于 Isaac Sim 构建了从单体训练到多体竞技的任务课程体系,并通过分层策略在 3v3 任务中取得 69.5% 胜率,同时展示了零样本 sim-to-real 部署能力。
研究背景与动机¶
机器人运动竞技(robot sports)因其目标明确、规则显式、交互动态等特性,被视为展示具身智能的理想场景。现有工作分别在各自子领域取得进展:足球机器人(RoboCup)侧重团队合作与对抗;乒乓球机器人强调回合制交互;无人机追逃任务要求 3D 空间敏捷机动。然而,没有一个平台能同时涵盖混合合作-对抗博弈、回合制交互和敏捷 3D 机动三大特征。
排球运动天然具备这三大特征:队内需要紧密配合完成传球-扣球序列(合作),队间需要预判和利用对手策略(对抗),球的运动轨迹要求无人机在欠驱动四旋翼动力学下做出快速加速、急转弯和精细定位(3D 机动)。这些特征相互交织,形成了一个同时需要低级运动控制和高级战略博弈的复杂问题,且不存在可用的专家演示数据。
核心切入角度是:以排球运动为载体,借鉴人类学习排球的渐进过程,设计从简单到困难的任务课程体系,系统性地评测和推进多智能体 RL、博弈论算法在复杂具身任务上的能力。
方法详解¶
整体框架¶
VolleyBots 构建于 NVIDIA Isaac Sim 之上,利用 OmniDrones 仿真器实现 GPU 并行数据采集。平台由三部分组成:(1)环境——定义实体、观测、动作和奖励;(2)任务——包含 3 个单体任务、3 个多体合作任务和 3 个多体竞技任务;(3)算法——涵盖 RL、MARL 和博弈论基线。
关键设计¶
-
仿真实体与物理交互:
- 采用 Iris 四旋翼模型,附加半径 0.2m 的虚拟球拍(恢复系数 0.8)
- 球体半径 0.1m、质量 5g、恢复系数 0.8,支持真实的弹跳与碰撞
- 场地遵循标准排球尺寸 \(9\text{m} \times 18\text{m}\),网高 2.43m
- 设计动机:高保真物理交互是 sim-to-real 迁移的基础
-
渐进式任务课程设计:
- 单体任务:Back and Forth(往返冲刺)、Hit the Ball(击球距离)、Solo Bump(连续颠球),评估基础 3D 机动能力
- 合作任务:Bump and Pass(双人对颠)、Set and Spike Easy/Hard(传球-扣球配合),引入队内回合制协调
- 竞技任务:1v1、3v3、6v6,融合合作、对抗、回合制和 3D 机动全部挑战
- 设计动机:模仿人类从基本功到团队配合再到正式比赛的学习路径
-
双层动作空间与分层奖励:
- 动作空间提供两种选择:CTBR(集体推力+角速率,高层抽象)和 PRT(单旋翼推力,细粒度控制)
- 奖励函数由三部分组成:misbehave penalty(通用违规惩罚)、task reward(稀疏任务奖励)、shaping reward(辅助引导奖励)
- 设计动机:PRT 提供更强操控能力但训练较难,CTBR 便于 sim-to-real;分层奖励兼顾探索和学习效率
-
分层策略(Hierarchical Policy):
- 低级层:用 PPO 训练一组基本技能(Hover, Serve, Pass, Set, Attack)
- 高级层:基于规则的事件驱动策略,在每次击球时决定为每架无人机分配哪个低级技能
- 攻击技能中高级策略以等概率选择左右方向
- 设计动机:直接端到端方法在兼顾运动控制和战略博弈时表现不佳,分层解耦能有效缓解这一问题
损失函数 / 训练策略¶
- 单体和合作任务使用标准 PPO/MAPPO 的 clip surrogate objective
- 竞技任务结合 Self-Play、Fictitious Self-Play (FSP)、PSRO(Uniform/Nash meta-solver)等博弈论训练范式
- 所有算法在同一任务内使用统一超参数以评估跨任务鲁棒性
实验关键数据¶
主实验¶
| 任务 | 指标 | PPO (PRT) | TD3 (PRT) | SAC (PRT) | 说明 |
|---|---|---|---|---|---|
| Back and Forth | 到达点数 | 10.04±0.20 | 0.99±0.01 | 0.83±0.25 | PPO 远超 off-policy |
| Hit the Ball | 击球距离(m) | 11.40±0.06 | 5.29±1.28 | 3.87±2.34 | PPO 2x SOTA |
| Solo Bump | 颠球次数 | 10.83±1.24 | 3.68±1.43 | 1.36±0.60 | PPO 优势显著 |
| 竞技任务 | 指标 | SP | FSP | PSRO_Nash | 分层策略 |
|---|---|---|---|---|---|
| 3v3 | Exploitability↓ | 25.76 | 38.86 | 35.83 | — |
| 3v3 | Win Rate↑ | 0.59 | 0.52 | 0.61 | 0.695 |
| 3v3 | Elo↑ | 1077 | 906 | 1268 | — |
消融实验¶
| 配置 | Bump and Pass | Set&Spike (Easy) | Set&Spike (Hard) |
|---|---|---|---|
| MAPPO w/o shaping | 11.32±0.91 | 0.25 | 0.25 |
| MAPPO w. shaping | 13.71±0.58 | 0.99 | 0.75 |
| MADDPG w. shaping | 0.84±0.09 | 0.23 | 0.22 |
| QMIX w. shaping | 0.09±0.00 | 0.02 | 0.02 |
关键发现¶
- On-policy 方法(PPO/MAPPO)在所有任务上一致优于 off-policy 方法,且跨任务超参数鲁棒性更强
- PRT 动作空间最终性能略优于 CTBR,但 CTBR 学习速度更快
- 6v6 任务所有算法均未能收敛到有效策略,暴露当前方法的可扩展性瓶颈
- 分层策略在 3v3 任务中以 69.5% 胜率击败最强基线(SP 的纳什均衡策略)
亮点与洞察¶
- 首个将合作-对抗-回合制-3D 机动统一到一个平台的工作,填补了机器人运动竞技领域的空白,为具身智能研究提供了富有挑战性的标准测试环境。
- 从 sim-to-real 的零样本部署验证了平台的实际意义,训练的 Solo Bump 策略直接在真实四旋翼上成功执行颠球,说明仿真器能够较好地逼近真实物理。
局限与展望¶
- 6v6 赛制目前无算法能收敛,需要更先进的分层或通信机制来处理大规模协调
- 分层策略的高级层仍是手工规则,未来可用 RL/LLM 来自动学习战略决策
- 当前观测空间为 state-based,未来可引入视觉观测探索更真实的感知挑战
相关工作与启发¶
- vs MQE (四足足球): MQE 同样支持合作-对抗,但 VolleyBots 独有回合制交互和 3D 飞行机动,对低级控制要求更高
- vs Robot Table Tennis: 乒乓球机器人有回合制但缺乏多智能体合作,VolleyBots 在多体协调维度更丰富
- vs SMPLOlympics: 人形奥运场景覆盖面广但缺乏 3D 飞行和团队配合的深度
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将排球运动迁移到多无人机平台,任务设计系统但核心贡献偏benchmark
- 实验充分度: ⭐⭐⭐⭐⭐ 9 个任务、多种 RL/MARL/博弈论算法、消融、sim-to-real 全面覆盖
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富,任务描述详尽
- 价值: ⭐⭐⭐⭐ 作为标准化benchmark对多智能体具身智能研究有长期推动作用