Relative Value Learning¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ulTRUwrzt9
代码: https://github.com/Hauf3n/relative-value-learning
领域: 强化学习 / 价值函数 / 策略梯度
关键词: 相对价值、反对称函数、成对 Bellman 算子、R-GAE、PPO
一句话总结¶
针对"控制只关心价值之差、绝对价值尺度是冗余自由度"这一观察,本文提出 Relative Value Learning(RV),让 critic 直接学一个反对称函数 \(\Delta_\theta(s_i,s_j)=V^\pi(s_i)-V^\pi(s_j)\),配套给出成对 Bellman 算子(证明是 \(\gamma\)-压缩、唯一不动点等于真实价值差)、良定义的 1-step / n-step / λ-return 目标,以及从成对差重建出的无偏优势估计 R-GAE;接到 PPO 上在 49 个 Atari 游戏上与标准 PPO 持平甚至更好。
研究背景与动机¶
领域现状:主流 value-based RL(TD(λ)、DQN、Rainbow、A2C/PPO 等)都让 critic 去逼近绝对状态价值 \(V^\pi(s)\) 或动作价值 \(Q^\pi(s,a)\),即"单独评估某个状态/动作有多好",再把价值之差当作派生量算出来。
现有痛点:在控制里,动作是靠比较选出来的——贪心选 \(\max_a Q^\pi(s,a)\)、策略梯度用优势 \(A^\pi(s,a)\),这些都只依赖价值之差。给 \(V^\pi\) 整体加一个常数 \(c\)(配合相应的奖励整形)不会改变任何优势、不会改变贪心选择。也就是说,绝对尺度在行为上没有意义,是一个"未被钉死的偏移量"(gauge freedom,规范自由度)。
核心矛盾:绝对 critic 偏偏要去预测这个行为上无意义的标量。这个多余的自由度会带来三类麻烦:① 奖励整形 / baseline 变化时容易发生漂移;② 在只有"比较"或隐式反馈的场景(偏好式 RL、human-in-the-loop RL)里,绝对尺度本身就是模糊的、问题甚至 ill-posed,而成对关系却始终良定义;③ 函数类的不变性与决策问题的不变性不匹配。
本文目标:把价值之差直接当成首要学习对象,让 critic 的函数类从设计上就吻合"只有差有意义"这一不变性,从而消除规范自由度。
切入角度:学一个反对称函数 \(\Delta_\theta:S\times S\to\mathbb{R}\),强制 \(\Delta_\theta(s_i,s_j)=-\Delta_\theta(s_j,s_i)\)(于是自动有 \(\Delta_\theta(s,s)=0\))去逼近 \(V^\pi(s_i)-V^\pi(s_j)\)。这样规范自由度被"构造性地"消掉,而且优势可以从成对差里重建出来、无需知道任何状态的绝对价值。
核心 idea:用一个反对称的成对价值差网络替代绝对 critic,并为它配一套自洽的 Bellman 理论(压缩、目标、优势重建),让"相对价值"成为有干净解析基础的一等公民。
方法详解¶
整体框架¶
RV 把传统 actor-critic 里的"绝对 critic"换成一个成对价值差 critic \(\Delta_\theta(s_i,s_j)\),整套方法围绕"如何良定义地学这个差、再用它喂给 PPO"展开,分四块:(1)在反对称函数空间上定义成对 Bellman 算子 \(T_\pi\),证明它是 \(\gamma\)-压缩且唯一不动点正好等于真实价值差,给出理论合法性;(2)把单步/多步/λ-return 的 bootstrapping 目标全部改写成只含可观测奖励与非终止成对差的形式,解决终止状态导致的 ill-posed 问题;(3)从成对差出发,沿一条轨迹做 telescoping 重建出相对价值,进而得到 R-GAE 优势估计,并证明它与标准 GAE 只差一个轨迹常数、对策略梯度无偏;(4)在一个 batch 含多条轨迹时,用 trajectory ranking 给每条轨迹估一个偏移量,把 R-GAE 的额外方差压下去。最后 critic 用一个共享 CNN 编码器 + siamese 差分头实现,损失就是把 PPO 的 GAE 换成 R-GAE。
关键设计¶
1. 成对 Bellman 算子与压缩性:给"学价值差"一个干净的理论地基
要直接学 \(\Delta^\pi(s_i,s_j)=V^\pi(s_i)-V^\pi(s_j)\),首先得证明这个目标本身满足一条自洽的递归方程、并且能被迭代逼近,否则"学差"只是个工程 trick。本文把两个状态各自的 Bellman 方程相减,得到成对 Bellman 恒等式:
其中两个后继 \(s_i',s_j'\) 独立采样。这个式子只依赖可观测的单步奖励差和后继处的成对差,且对 \(V^\pi\) 的任意整体平移不变。在有界反对称函数的 Banach 空间 \(\mathcal{F}\)(配 \(\ell_\infty\) 范数)上定义算子 \((T_\pi\Delta)(s_i,s_j):=\Delta r^\pi(s_i,s_j)+\gamma(\hat P^\pi\Delta)(s_i,s_j)\),作者证明(Theorem 3.1):对任意 \(\Delta_1,\Delta_2\) 有 \(\|T_\pi\Delta_1-T_\pi\Delta_2\|_\infty\le\gamma\|\Delta_1-\Delta_2\|_\infty\)。证明的关键一步是即时奖励差 \(\Delta r^\pi\) 在相减时直接抵消,只剩 \(\gamma\) 倍的差。由 Banach 不动点定理,\(T_\pi\) 有唯一不动点,且这个不动点恰好等于真实价值差 \(V^\pi(s_i)-V^\pi(s_j)\)。这就保证了"学差"不是近似游戏,而是和标准价值迭代一样有收敛保证。
2. 良定义的成对价值目标:处理终止状态这个隐藏陷阱
直接套用成对 Bellman 算子去构造 bootstrapping 目标会踩坑:当某个后继是终止状态(done flag \(d_i=1\))时,朴素地写 \(\Delta(s_{i+1},s_{j+1})=0-V(s_{j+1})=-V(s_{j+1})\) 需要单点的绝对价值,而 RV 的函数类里根本拿不到绝对价值,目标因此 ill-posed。本文把所有 bootstrapping 目标重排成只含可观测奖励与非终止成对差的形式。1-step 目标写作 \(y^{(1)}_{ij}=(r_i-r_j)+\gamma\delta_{ij}\),其中 bootstrap 项按两条轨迹的终止标志分四种情况:
当两条都终止时,默认取 \(\delta_{ij}=0\)(两个吸收态都是零价值)以降低 episode 末尾的方差。n-step 目标 \(y^{(n)}_{ij}=\sum_{k=0}^{n-1}\gamma^k(r_{i+k}-r_{j+k})+\gamma^n\Delta_\theta(s_{i+n},s_{j+n})\) 假设窗口内不终止(否则取较短轨迹长度),λ-return 则按 \(y^{(\lambda)}_{ij}=(1-\lambda)\sum_{n\ge1}\lambda^{n-1}y^{(n)}_{ij}\) 在 n 上指数加权、并在首个终止处截断。这套改写让目标对算子 \(T_\pi\) 保持兼容、对终止鲁棒。
3. R-GAE:从成对差重建出无偏的优势估计
RV 要给 PPO 当 critic,就必须能产出优势。但 RV 不知道任何绝对价值,怎么算 GAE?本文沿一条 rollout \((s_0,\dots,s_T)\) 做 telescoping 构造相对价值:令 \(\tilde V_\theta(s_0):=0\),\(\tilde V_\theta(s_t):=\sum_{k=0}^{t-1}\Delta_\theta(s_{k+1},s_k)\)(也可直接用 \(\Delta_\theta(s_t,s_0)\) 大步算)。若 \(\Delta_\theta=\Delta^\pi\),则 \(\tilde V_\theta(s_t)=V^\pi(s_t)-V^\pi(s_0)\),即相当于把整条轨迹锚到起点为零。再仿照 GAE 定义相对 TD 残差 \(\tilde\delta_t=r_t+\gamma\tilde V_\theta(s_{t+1})-\tilde V_\theta(s_t)\) 和 \(\tilde A_t=\sum_{l=0}^{T-t}(\gamma\lambda)^l\tilde\delta_{t+l}\)。关键的理论结果(Lemma 3.2)是:\(\tilde A_t=A_t+B_t\),其中 \(A_t\) 是用真实 \(V^\pi\) 算出的标准 GAE,\(B_t=(1-\gamma)C\sum_{l=0}^{T-t}(\gamma\lambda)^l\),\(C:=V^\pi(s_0)\) 是轨迹常数。进一步(Corollary 3.3),把策略梯度里的优势换成 \(\tilde A_t\) 后梯度不变:因为 \(B_t\) 在给定 \(s_t\) 时与动作 \(a_t\) 无关,乘上 score function \(\nabla_\phi\log\pi_\phi(a_t|s_t)\) 取期望为零,所以 \(\nabla_\phi\tilde J(\phi)=\nabla_\phi J(\phi)\)。这意味着 RV 当 critic 时策略梯度是无偏的——锚到零只是一次"逐轨迹的规范固定",类比 average-reward MDP 里的相对价值归一化,区别只在于这里是 per-trajectory 而非全局。
4. Trajectory Ranking 初始化:把多轨迹 batch 的额外方差压下去
无偏不等于零代价:\(\tilde A_t=A_t+B_t\) 里的 \(B_t\) 正比于未知轨迹常数 \(C=V^\pi(s_0)\),\(|C|\) 大时会放大 \(\tilde A_t\) 的幅度、抬高策略梯度方差,让 credit assignment 更难。当一个训练 batch 里混了多条来自不同 episode 的轨迹时,给每条都锚到零是不对的——它们之间还有相对高低。本文用一个数据相关的初始化来让 \(\mathbb{E}_t[B_t]\approx0\):从 batch 里取出所有 start states(每条 rollout 开头以及每个新 sub-episode 开头),用学到的(带噪)\(\Delta_\theta\) 构造 \(N\times N\) 成对差矩阵 \(\Delta_{ij}=\Delta_\theta(s^{(i)}_{\text{start}},s^{(j)}_{\text{start}})\),对每行求均值得到偏移估计 \(O(s^{(n)}_{\text{start}})=\frac1N\sum_j\Delta_{nj}\),再减去 batch 最小值得到非负且可排序的 \(\hat V_\theta(s^{(n)}_{\text{start}})=O(s^{(n)}_{\text{start}})-\min_\ell O(s^{(\ell)}_{\text{start}})\)。最后对 rollout 里任意状态 \(s\),用同一 rollout 中最近的 start state \(s_{\text{start}}\) 给它配偏移:\(\bar V_\theta(s)=\hat V_\theta(s_{\text{start}})+\Delta_\theta(s,s_{\text{start}})\),并用这套带偏移的相对价值跑 R-GAE。行均值 + 减最小值的设计让偏移对预测噪声鲁棒、且在 batch 内"可识别到一个常数"——对排序而言已经足够。
损失函数 / 训练策略¶
critic 用共享 CNN 编码器(与标准 PPO 架构完全一致)把两个状态各自编码 \(f_{\text{enc}}(s)\in\mathbb{R}^d\),再投影它们 embedding 的差:\(\Delta_\theta(s_i,s_j)=\Phi(f_{\text{enc}}(s_i)-f_{\text{enc}}(s_j))\)。为保证反对称,\(\Phi\) 取无偏置的单个学习向量 \(w\in\mathbb{R}^d\)(这样 \(\Delta_\theta(s_i,s_j)=-\Delta_\theta(s_j,s_i)\)、\(\Delta_\theta(s_i,s_i)=0\) 天然成立),不用额外 target encoder、不用 stop-gradient。总损失把 PPO 的 GAE 换成 R-GAE:
其中策略项是用 \(\tilde A_t\) 的 PPO clip 目标 \(L_{\text{policy}}=\mathbb{E}_t[\min(r_t(\theta)\tilde A_t,\,\text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)\tilde A_t)]\),critic 项是回归 n-step 目标的 MSE \(L_{\text{critic}}=\frac12\mathbb{E}_{(i,j)}(\Delta_\theta(s_i,s_j)-y^{(n)}_{ij})^2\),外加熵奖励。所有 49 个游戏共用一套超参。
实验关键数据¶
主实验¶
在 ALE Atari 的 49 个游戏上把 PPO+RV 当成 on-policy 策略梯度的 drop-in critic,与标准 PPO、DAE 对比,训练 40M 帧(10M 环境步),每个游戏 10 个随机种子,报告最后 100 个 episode 的平均得分。
| 游戏(节选) | PPO | DAE | PPO + RV (ours) |
|---|---|---|---|
| BattleZone | 17366.7 | 16302.0 | 21780.0 |
| RoadRunner | 25076.0 | 16146.3 | 43346.3 |
| Robotank | 5.5 | 6.9 | 19.5 |
| TimePilot | 4342.0 | 7252.7 | 10212.7 |
| VideoPinball | 37389.0 | 23958.6 | 138564.8 |
| Enduro | 758.3 | 0.0 | 1080.2 |
| Gravitar | 737.2 | 443.5 | 1441.0 |
| Centipede | 4386.4 | 3915.8 | 1226.1 |
| Pong | 20.7 | 20.7 | 16.8 |
| Zaxxon | 5008.7 | 5612.2 | 845.8 |
聚合指标(human-normalized,95% 分层 bootstrap 置信区间)上,PPO+RV 在 Median、IQM、Mean 三项都高于 PPO 与 DAE,Optimality Gap 更低——即整体上 RV 这个相对 critic 是绝对 critic 的一个有效替代,而非仅仅持平。
消融 / 关键设置¶
| 设置 | 做法 | 结果 / 说明 |
|---|---|---|
| R-GAE vs \(\Delta_\gamma\) 变体 | 用非反对称的 \(\Delta_\gamma(s',s)=\gamma V(s')-V(s)\) 精确匹配 TD 残差(理论上可与 GAE 逐点相等) | 实测效果更差,故仍采用 R-GAE |
| 双终止时的 \(\delta_{ij}\) | 取 \(\delta_{ij}=0\) 而非公式第四行 | 降低 episode 末尾方差,默认采用 |
| 投影头 \(\Phi\) | 单向量 \(w\) vs 反对称非线性 MLP(tanh、无 bias) | 非线性头未观察到额外提升 |
| Trajectory Ranking | 给多轨迹 batch 估偏移使 \(\mathbb{E}_t[B_t]\approx0\) | 压低 R-GAE 因轨迹常数 \(B_t\) 带来的方差 |
关键发现¶
- RV 在像 VideoPinball、RoadRunner、Robotank、Gravitar 这类游戏上对 PPO 有大幅领先,但在 Centipede、Zaxxon、Pong、Tennis 等少数游戏上明显落后,说明相对 critic 并非全面占优、而是整体聚合更好。
- 理论上能逐点等于 GAE 的 \(\Delta_\gamma\) 变体反而在实践中更差,作者最终坚持反对称的 R-GAE,并靠 trajectory ranking 控制其额外方差——可见"无偏 + 控方差"这条工程链路是落地关键。
- 全程不用 target network、不用 stop-gradient,critic 仅靠 siamese 差分头就稳定训练,说明反对称约束本身带来了良好的训练性质。
- 计算成本:每次 40M 帧约 65 分钟(单 A100 + 12 CPU),490 次运行共 530 GPU-小时(22.1 A100-天)。
亮点与洞察¶
- 把"规范自由度"这件被默认无害的事变成方法论起点:大家都知道给 \(V\) 加常数不改变行为,但只有本文把它当成应当从函数类里直接消掉的冗余,用反对称网络结构性地钉死,思路很干净。
- 成对 Bellman 算子的压缩证明很优雅:即时奖励差在相减时抵消,一行就得到 \(\gamma\)-压缩,且不动点恰好是真实价值差——理论自洽度高。
- R-GAE 的无偏性论证可迁移:"重建出的优势只差一个与动作无关的常数,故策略梯度无偏"这一论证,本质上是 baseline 不影响策略梯度的推广,可以借鉴到任何"只学相对量再重建优势"的设定(如偏好式 RL)。
- 终止状态的目标改写是容易被忽视但必须处理的细节,本文把它显式列成四种情况,给后来者省了踩坑。
局限与展望¶
- 只在 Atari + PPO 上验证:RV 作为 drop-in critic 仅在 ALE 离散动作、on-policy 的设定下测过,对连续控制、off-policy(如 Q-learning 系)是否同样有效未知。
- 成对结构带来额外开销与方差:需要构造状态对、跑成对差,trajectory ranking 还要在 batch 内算 \(N\times N\) 矩阵;虽然单向量头很轻,但相对价值的方差控制仍依赖额外机制。
- 在部分游戏明显掉点(Centipede、Pong、Zaxxon、Tennis 等),论文未深入分析这些失败模式的成因。
- 动机里强调的偏好式 / human-in-the-loop RL 场景并未实验验证——这正是相对价值最该发光的地方,留作未来工作会更有说服力。
- 反对称非线性头、\(\Delta_\gamma\) 变体目前都没带来增益,相对 critic 的表达能力上限还没探到。
相关工作与启发¶
- vs 绝对 critic(DQN / Rainbow / 分布式 critic): 它们都在绝对价值空间里预测一个任意尺度的标量;分布式方法只是重构了 target、仍在绝对空间。RV 在模型层面就去掉了偏移自由度,让函数类吻合决策的不变性。
- vs Direct Advantage Estimation (DAE): DAE 直接学优势 \(A^\pi(s,a)\) 绕开价值学习;RV 则学状态对之间的价值差 \(\Delta(s_i,s_j)\) 并配一个显式的成对 Bellman 算子,本文实验里 PPO+RV 整体强于 DAE。
- vs Dueling 网络: Dueling 把 \(Q=V+A\) 分解以提升样本效率,但仍在绝对空间;RV 用 siamese 差分头从设计上强制反对称与零自差。
- vs 偏好式 / human-in-the-loop RL 与 inverse RL: 这些工作里也出现过成对目标,但没把它做成一个 Bellman-自洽的价值 critic;本文填了这个空白。average-reward MDP 里的相对价值迭代(只到加性常数)则是其规范固定思想的近亲。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把"只有价值差有意义"做成有完整 Bellman 理论的反对称 critic,视角新且自洽
- 实验充分度: ⭐⭐⭐⭐ 49 游戏 × 10 种子很扎实,但只覆盖 Atari+PPO,且动机强调的偏好式 RL 未验证
- 写作质量: ⭐⭐⭐⭐⭐ 动机—理论—算法—实验环环相扣,定理与算法推导清晰
- 价值: ⭐⭐⭐⭐ 提供了一个干净的相对价值框架,对偏好式/隐式反馈 RL 有迁移潜力