Understanding and Improving Hyperbolic Deep Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2512.14202
代码: GitHub
领域: 强化学习
关键词: hyperbolic geometry, PPO, gradient analysis, RMSNorm, categorical value loss

一句话总结¶

通过闭式梯度分析揭示双曲深度 RL 中 Poincaré Ball 保角因子爆炸和大范数嵌入导致 PPO 信赖域失效的根源，提出 Hyper++（RMSNorm + 可学习缩放 + HL-Gauss + Hyperboloid）四组件方案，在 ProcGen 16 环境和 Atari-5 上全面超越先前基线。

研究背景与动机¶

领域现状：序贯决策过程天然产生层级数据——每个状态分支为指数多个后续状态，形成树状结构。欧几里得空间体积仅多项式增长（\(V_d(r) \propto r^d\)），与层级结构的指数增长存在根本几何失配。双曲空间体积指数增长，已在分类、度量学习、图像-文本对齐中取得成功。

现有痛点：双曲深度 RL 面临严重优化困难——Cetin et al. (2023) 首次将双曲几何引入 RL，但训练不稳定，依赖 SpectralNorm + S-RYM（\(\mathbf{x}_E \mapsto \mathbf{x}_E / \sqrt{d}\)）缓解，限制整个编码器表达能力。

核心矛盾：双曲空间的几何优势（低失真层级嵌入）vs 训练稳定性（保角因子爆炸 + 梯度病态）之间的根本冲突。

本文目标 1）形式化分析双曲 PPO 的梯度病态来源；2）设计既保证稳定性又保持表达力的双曲 RL agent。

切入角度：从 Poincaré Ball 和 Hyperboloid 两种双曲模型的闭式梯度推导出发，定位不稳定来源，再逐一设计对应组件。

核心 idea：大范数嵌入是双曲 PPO 崩溃的根源，通过 RMSNorm 约束范数 + Hyperboloid 避免保角因子 + 分类损失对齐几何即可根治。

方法详解¶

整体框架¶

Hyper++ 采用 hybrid Euclidean-hyperbolic encoder 架构（Impala-ResNet），共享欧几里得编码器 + 双曲 actor/critic 头。核心改进集中在编码器最后层到双曲层之间的接口：RMSNorm → TanH → 可学习缩放 → Hyperboloid 指数映射 → HL-Gauss 分类值损失。

关键设计¶

RMSNorm 正则化（替代 SpectralNorm）
- 功能：约束编码器输出的欧几里得嵌入范数，防止双曲指数映射梯度爆炸
- 核心思路：仅在最后线性层预激活输出应用 RMSNorm + \(1/\sqrt{d}\) 缩放。Proposition 4.2 保证对 1-Lipschitz 激活函数（ReLU/TanH）有 \(\|\hat{\mathbf{x}}\|_2 < 1\)，进而保角因子 \(\lambda < 2\cosh^2(\sqrt{c})\)
- 设计动机：Lemma 4.1 证明 SpectralNorm 需应用于所有编码器层才能有效约束范数，但全层应用严重限制 Lipschitz 常数和表达力。RMSNorm 仅需最后一层，保留其余层自由度
可学习特征缩放（Learned Euclidean Feature Scaling）
- 功能：扩大 RMSNorm 约束后双曲空间的可用容积
- 核心思路：学习标量 \(\xi_\theta\)，缩放嵌入为 \(\hat{\mathbf{x}}_E^{\text{rescale}} = \rho_{\max} \cdot \sigma(\xi_\theta) \cdot \hat{\mathbf{x}}_E\)，其中 \(\rho_{\max} = \operatorname{atanh}(\alpha)/\sqrt{c}\)，\(\alpha=0.95\)
- 设计动机：RMSNorm 将 Poincaré Ball 可用半径限制为 0.76（\(c=1\)），可用体积 \(\propto r^d\)，\(d=32\) 时 \((0.95/0.76)^{32} \approx 1200\times\) 体积增益
Hyperboloid 模型 + HL-Gauss 分类值损失
- 功能：从几何和损失两个层面消除不稳定源
- 核心思路：Hyperboloid MLR 无保角因子（\(v^{\text{HB}}\) 公式中不含 \((1-c\|\mathbf{x}\|^2)^{-1}\) 项），梯度更稳定。HL-Gauss 将值函数学习转化为 51 个离散 bin 的分类问题，与双曲 MLR 的超平面距离输出几何对齐
- 设计动机：Poincaré Ball MLR 梯度 \(\propto (1-c\|\mathbf{x}_H\|^2)^{-2}\) 在边界附近爆炸；MSE 回归与双曲 MLR 几何不匹配——分类损失更自然

损失函数 / 训练策略¶

PPO clipped surrogate objective 不变。Critic 使用 HL-Gauss 损失（51 bins, \([-10, 10]\)），TanH 替代 ReLU 作为最后激活。Corollary 4.3 通过 Poincaré Ball-Hyperboloid 等距，将 RMSNorm + 缩放的范数约束传递到 Hyperboloid 时间分量 \(x_0^{\max}\) 的有界性。

实验关键数据¶

主实验 — ProcGen（PPO, 16 环境, 25M steps, 6 seeds）¶

指标	Hyper++	Hyper+S-RYM	Euclidean	Hyper(无正则)
Test IQM ↑	0.41	0.27	0.26	0.19
Train IQM ↑	0.55	0.46	0.45	0.37
前向时间	14.7ms	19.3ms	14ms	—
NameThisGame 全程	35h25m	58h21m	17h52m	—

消融实验（ProcGen Test IQM, 6 seeds + bootstrap CI）¶

配置	Test IQM	说明
Hyper++ (完整)	0.40	基线
−RMSNorm	0.00	完全学习失败，范数爆炸
−Scaling	0.33	可用体积不足
+MSE (替代 HL-Gauss)	0.33	几何不匹配
+C51	0.27	分布式损失不如 HL-Gauss
+Poincaré (替代 Hyperboloid)	0.34	保角因子轻微影响
+SN Full / +SN Penult.	0.00 / 0.00	SpectralNorm 均失败
Euclidean + 全套正则化	0.35	接近但不如双曲

关键发现¶

Hyper++ 在 PPG（更强基线）上同样有效：PPG IQM 0.52 vs Hyper+S-RYM 0.34 vs Euclidean 0.47
Atari-5（DDQN, 10M steps）：Hyper++ 在所有 5 个游戏的 IQM/median/mean/optimality gap 全面最优
欧几里得 + HL-Gauss 反而不如欧几里得 + MSE → 分类损失需要双曲几何配合才有效
每个消融都不如完整 Hyper++，证明组件间存在协同效应

亮点与洞察¶

梯度分析驱动设计：不是经验性尝试，而是先推导 \(\partial v / \partial \mathbf{x}_H\) 和 \(\partial \mathbf{x}_H / \partial \mathbf{x}_E\) 的闭式表达式，定位 \((1-c\|\mathbf{x}\|^2)^{-2}\) 为罪魁祸首，再针对性设计 RMSNorm
一个理论结果解决多个问题：Proposition 4.2 同时保证了嵌入范数有界、保角因子有界、梯度稳定——一石三鸟
组件分工清晰：categorical loss 稳定 \(\partial L / \partial v\)，Hyperboloid 稳定 \(\partial v / \partial \mathbf{x}_H\)，RMSNorm+scaling 稳定 \(\partial \mathbf{x}_H / \partial \mathbf{x}_E\)——方程 (3) 的链式法则每一项都有对应组件
性能+效率双赢：回报提升 52% 的同时前向时间减少 ~30%（去掉了 SpectralNorm 的 power iteration）

局限与展望¶

聚焦优化视角，未分析双曲表示实际学到了什么层级结构
未研究哪些环境最适合双曲表示（哪些 MDP 的状态空间更"树形"）
几何选择（曲率 \(c\)、维度 \(d\)）与不同 RL 算法设计的交互未探索
ProcGen Phoenix 上 Hyper++ 出现可塑性丧失（plasticity loss），与基线表现相似

评分¶

新颖性: ⭐⭐⭐⭐ 梯度分析驱动的双曲 RL 修复方案，理论与实践紧密结合
实验充分度: ⭐⭐⭐⭐⭐ ProcGen 16环境 + Atari-5 + PPO/PPG/DDQN 三算法 + 大量消融
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，方程-组件-实验三线呼应
价值: ⭐⭐⭐⭐ 为双曲深度 RL 提供了首个可靠的实践方案