Understanding and Improving Hyperbolic Deep Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2512.14202
代码: GitHub
领域: 强化学习
关键词: hyperbolic geometry, PPO, gradient analysis, RMSNorm, categorical value loss
一句话总结¶
通过闭式梯度分析揭示双曲深度 RL 中 Poincaré Ball 保角因子爆炸和大范数嵌入导致 PPO 信赖域失效的根源,提出 Hyper++(RMSNorm + 可学习缩放 + HL-Gauss + Hyperboloid)四组件方案,在 ProcGen 16 环境和 Atari-5 上全面超越先前基线。
研究背景与动机¶
领域现状:序贯决策过程天然产生层级数据——每个状态分支为指数多个后续状态,形成树状结构。欧几里得空间体积仅多项式增长(\(V_d(r) \propto r^d\)),与层级结构的指数增长存在根本几何失配。双曲空间体积指数增长,已在分类、度量学习、图像-文本对齐中取得成功。
现有痛点:双曲深度 RL 面临严重优化困难——Cetin et al. (2023) 首次将双曲几何引入 RL,但训练不稳定,依赖 SpectralNorm + S-RYM(\(\mathbf{x}_E \mapsto \mathbf{x}_E / \sqrt{d}\))缓解,限制整个编码器表达能力。
核心矛盾:双曲空间的几何优势(低失真层级嵌入)vs 训练稳定性(保角因子爆炸 + 梯度病态)之间的根本冲突。
本文目标 1)形式化分析双曲 PPO 的梯度病态来源;2)设计既保证稳定性又保持表达力的双曲 RL agent。
切入角度:从 Poincaré Ball 和 Hyperboloid 两种双曲模型的闭式梯度推导出发,定位不稳定来源,再逐一设计对应组件。
核心 idea:大范数嵌入是双曲 PPO 崩溃的根源,通过 RMSNorm 约束范数 + Hyperboloid 避免保角因子 + 分类损失对齐几何即可根治。
方法详解¶
整体框架¶
Hyper++ 采用 hybrid Euclidean-hyperbolic encoder 架构(Impala-ResNet),共享欧几里得编码器 + 双曲 actor/critic 头。核心改进集中在编码器最后层到双曲层之间的接口:RMSNorm → TanH → 可学习缩放 → Hyperboloid 指数映射 → HL-Gauss 分类值损失。
关键设计¶
-
RMSNorm 正则化(替代 SpectralNorm)
- 功能:约束编码器输出的欧几里得嵌入范数,防止双曲指数映射梯度爆炸
- 核心思路:仅在最后线性层预激活输出应用 RMSNorm + \(1/\sqrt{d}\) 缩放。Proposition 4.2 保证对 1-Lipschitz 激活函数(ReLU/TanH)有 \(\|\hat{\mathbf{x}}\|_2 < 1\),进而保角因子 \(\lambda < 2\cosh^2(\sqrt{c})\)
- 设计动机:Lemma 4.1 证明 SpectralNorm 需应用于所有编码器层才能有效约束范数,但全层应用严重限制 Lipschitz 常数和表达力。RMSNorm 仅需最后一层,保留其余层自由度
-
可学习特征缩放(Learned Euclidean Feature Scaling)
- 功能:扩大 RMSNorm 约束后双曲空间的可用容积
- 核心思路:学习标量 \(\xi_\theta\),缩放嵌入为 \(\hat{\mathbf{x}}_E^{\text{rescale}} = \rho_{\max} \cdot \sigma(\xi_\theta) \cdot \hat{\mathbf{x}}_E\),其中 \(\rho_{\max} = \operatorname{atanh}(\alpha)/\sqrt{c}\),\(\alpha=0.95\)
- 设计动机:RMSNorm 将 Poincaré Ball 可用半径限制为 0.76(\(c=1\)),可用体积 \(\propto r^d\),\(d=32\) 时 \((0.95/0.76)^{32} \approx 1200\times\) 体积增益
-
Hyperboloid 模型 + HL-Gauss 分类值损失
- 功能:从几何和损失两个层面消除不稳定源
- 核心思路:Hyperboloid MLR 无保角因子(\(v^{\text{HB}}\) 公式中不含 \((1-c\|\mathbf{x}\|^2)^{-1}\) 项),梯度更稳定。HL-Gauss 将值函数学习转化为 51 个离散 bin 的分类问题,与双曲 MLR 的超平面距离输出几何对齐
- 设计动机:Poincaré Ball MLR 梯度 \(\propto (1-c\|\mathbf{x}_H\|^2)^{-2}\) 在边界附近爆炸;MSE 回归与双曲 MLR 几何不匹配——分类损失更自然
损失函数 / 训练策略¶
PPO clipped surrogate objective 不变。Critic 使用 HL-Gauss 损失(51 bins, \([-10, 10]\)),TanH 替代 ReLU 作为最后激活。Corollary 4.3 通过 Poincaré Ball-Hyperboloid 等距,将 RMSNorm + 缩放的范数约束传递到 Hyperboloid 时间分量 \(x_0^{\max}\) 的有界性。
实验关键数据¶
主实验 — ProcGen(PPO, 16 环境, 25M steps, 6 seeds)¶
| 指标 | Hyper++ | Hyper+S-RYM | Euclidean | Hyper(无正则) |
|---|---|---|---|---|
| Test IQM ↑ | 0.41 | 0.27 | 0.26 | 0.19 |
| Train IQM ↑ | 0.55 | 0.46 | 0.45 | 0.37 |
| 前向时间 | 14.7ms | 19.3ms | 14ms | — |
| NameThisGame 全程 | 35h25m | 58h21m | 17h52m | — |
消融实验(ProcGen Test IQM, 6 seeds + bootstrap CI)¶
| 配置 | Test IQM | 说明 |
|---|---|---|
| Hyper++ (完整) | 0.40 | 基线 |
| −RMSNorm | 0.00 | 完全学习失败,范数爆炸 |
| −Scaling | 0.33 | 可用体积不足 |
| +MSE (替代 HL-Gauss) | 0.33 | 几何不匹配 |
| +C51 | 0.27 | 分布式损失不如 HL-Gauss |
| +Poincaré (替代 Hyperboloid) | 0.34 | 保角因子轻微影响 |
| +SN Full / +SN Penult. | 0.00 / 0.00 | SpectralNorm 均失败 |
| Euclidean + 全套正则化 | 0.35 | 接近但不如双曲 |
关键发现¶
- Hyper++ 在 PPG(更强基线)上同样有效:PPG IQM 0.52 vs Hyper+S-RYM 0.34 vs Euclidean 0.47
- Atari-5(DDQN, 10M steps):Hyper++ 在所有 5 个游戏的 IQM/median/mean/optimality gap 全面最优
- 欧几里得 + HL-Gauss 反而不如欧几里得 + MSE → 分类损失需要双曲几何配合才有效
- 每个消融都不如完整 Hyper++,证明组件间存在协同效应
亮点与洞察¶
- 梯度分析驱动设计:不是经验性尝试,而是先推导 \(\partial v / \partial \mathbf{x}_H\) 和 \(\partial \mathbf{x}_H / \partial \mathbf{x}_E\) 的闭式表达式,定位 \((1-c\|\mathbf{x}\|^2)^{-2}\) 为罪魁祸首,再针对性设计 RMSNorm
- 一个理论结果解决多个问题:Proposition 4.2 同时保证了嵌入范数有界、保角因子有界、梯度稳定——一石三鸟
- 组件分工清晰:categorical loss 稳定 \(\partial L / \partial v\),Hyperboloid 稳定 \(\partial v / \partial \mathbf{x}_H\),RMSNorm+scaling 稳定 \(\partial \mathbf{x}_H / \partial \mathbf{x}_E\)——方程 (3) 的链式法则每一项都有对应组件
- 性能+效率双赢:回报提升 52% 的同时前向时间减少 ~30%(去掉了 SpectralNorm 的 power iteration)
局限与展望¶
- 聚焦优化视角,未分析双曲表示实际学到了什么层级结构
- 未研究哪些环境最适合双曲表示(哪些 MDP 的状态空间更"树形")
- 几何选择(曲率 \(c\)、维度 \(d\))与不同 RL 算法设计的交互未探索
- ProcGen Phoenix 上 Hyper++ 出现可塑性丧失(plasticity loss),与基线表现相似
相关工作与启发¶
- vs Cetin et al. (2023) Hyper+S-RYM:消除 SpectralNorm 的稳定性-表达力权衡,test IQM 从 0.27 → 0.41
- vs Farebrother et al. (2024) HL-Gauss:他们发现 HL-Gauss 在欧几里得 RL 中不一致地有效,本文揭示其与双曲几何的特殊协同
- vs Mishne et al. (2023) 双曲数值稳定性:他们分析了一般双曲网络的数值稳定性,本文扩展到 RL 的 actor-critic 训练
评分¶
- 新颖性: ⭐⭐⭐⭐ 梯度分析驱动的双曲 RL 修复方案,理论与实践紧密结合
- 实验充分度: ⭐⭐⭐⭐⭐ ProcGen 16环境 + Atari-5 + PPO/PPG/DDQN 三算法 + 大量消融
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,方程-组件-实验三线呼应
- 价值: ⭐⭐⭐⭐ 为双曲深度 RL 提供了首个可靠的实践方案