Reliability-Adjusted Prioritized Experience Replay¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hmQk2Iwdh0
代码: 论文称将开源(补充材料含源码)
领域: 强化学习 / 经验回放
关键词: 经验回放, 优先采样, 时序差分误差, 目标可靠性, 离策略 RL
一句话总结¶
本文指出 PER 用绝对时序差分误差(TDE)做采样权重时,若目标 Q 值本身不准会"误导学习",于是提出一个基于轨迹内后续 TDE 之和的"可靠性分数"\(R_t\),把采样权重改成"可靠性 × 绝对 TDE",理论上证明收敛误差严格优于 PER,在经典控制和 Atari-10 上一致超过 PER(Atari-10 峰值中位数高 22.97%)。
研究背景与动机¶
领域现状:离策略 RL(DQN 系列)普遍用经验回放从历史 transition 里反复学习以提升样本效率。最朴素的做法是从回放缓冲区里均匀采样,但不同 transition 的"学习价值"差别很大。Schaul 等人提出的 PER(Prioritized Experience Replay)按 transition 的绝对时序差分误差 \(\delta^+_t = |\delta_t|\) 成比例采样,认为 TDE 越大说明预测和目标偏差越大、学习潜力越高。PER 至今仍是被 SOTA 算法广泛采用的唯一优先采样策略。
现有痛点:PER 的核心假设——"绝对 TDE 大 = 学习价值高"——其实有偏。TDE 定义为 \(\delta_t = Q_{\text{target}}(S_t) - Q(S_t, A_t)\),而 bootstrapped 目标 \(Q_{\text{target}}(S_t) = R_{t+1} + \gamma(1-d_{t+1})\max_a Q(S_{t+1},a)\) 本身也是个估计值。如果目标 Q 值不准,那么 TDE 大很可能只是因为"目标算错了",按它去采样反而会把不可靠的目标偏差放大,导致 Q 值估计退化、收敛变慢甚至最终策略变差。
核心矛盾:TDE 同时混杂了两种信息——transition 真实的"价值估计误差"(该学的)和"目标偏差"(不该被它带偏的)。PER 无法区分二者,于是会把"目标本身就错"的 transition 当成"高学习价值"反复采样。
切入角度:作者用下棋(井字棋、围棋)打比方:越靠近终局的状态,剩余步数越少、rollout 越短,价值估计越可靠;越靠开局,依赖的后续估计越长、越不可靠。这意味着轨迹内部存在时序层级依赖——要先把后面的 transition 学准,前面的目标才会变可靠。因此采样应该"从后往前"地优先解决 TDE。
核心 idea:用一个可靠性分数 \(R_t\) 给绝对 TDE 加权,得到"可靠性调整后的 TDE" \(\Psi_t = R_t \cdot \delta^+_t\) 作为采样准则——既保留 PER"挑高 TDE"的样本效率,又压制不可靠目标带来的负面更新。该方法算法无关,可插进任意离策略 RL。
方法详解¶
整体框架¶
ReaPER 在 PER 的采样管线上只改一处:把采样权重从"绝对 TDE"换成"可靠性 × 绝对 TDE"。整体逻辑是——对缓冲区里每条 transition,先算它在所属轨迹中的可靠性 \(R_t\)(由该 transition 之后的累积绝对 TDE 占整条轨迹累积 TDE 的比例决定),再乘上自身的绝对 TDE 得到优先级 \(\Psi_t\),归一化成采样概率后抽 mini-batch;抽中后用重要性采样权重修正非均匀采样引入的偏差,最后做 Q 学习更新。理论侧再补上"收敛层级"和"方差缩减"两条证明,说明为什么这样加权一定不差于 PER。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["回放缓冲区<br/>transition 流"] --> B["可靠性分数 R_t<br/>后续累积 TDE 占比"]
B --> C["可靠性调整 TDE<br/>Ψ_t = R_t · δ⁺_t"]
C -->|未终止 episode| D["保守可靠性估计<br/>用最大轨迹 TDE 和 F 兜底"]
C --> E["正则化指数<br/>Ψ_t = R_t^ω · (δ⁺_t)^α"]
D --> E
E --> F["归一化采样 + 重要性采样<br/>抽 mini-batch、修偏、更新 Q"]
关键设计¶
1. 可靠性分数:用"后续 TDE 占比"度量目标 Q 值有多可信
PER 的根本问题是没区分"该学的误差"和"目标偏差"。作者从三个观察出发把这件事形式化:(i) 非终止 transition 的目标依赖 \(Q(S_{t+1},\cdot)\),可能不准,会把更新带偏;(ii) 终止 transition 的目标 \(Q_{\text{target}}(S_n)=R_n\) 直接由环境给出,精确无偏;(iii) 把靠后的 transition 学准后,会递归地改善靠前 transition 的目标可靠性。结论是 transition 应"从后往前"地解决。据此把目标 \(Q_{\text{target}}(S_t)\) 的可靠性定义为与"后续绝对 TDE 之和"成反比:
直觉很清楚:如果一条 transition 后面的 TDE 都已经很小(说明后续状态已经学准了),它的目标就可靠,\(R_t\) 接近 1;如果后面还有一大堆未解决的大 TDE,\(R_t\) 就被拉低。终局 transition 后面没有 transition,可靠性最高。把它乘进采样准则得到 \(\Psi_t = R_t \cdot \delta^+_t\),高 \(\Psi_t\) 同时意味着"更新幅度大"且"目标可信"。
2. 收敛层级:理论证明 ReaPER ⪰ PER ⪰ 均匀采样
光有直觉不够,作者要证明这样加权确实更优。把"真实价值误差平方"的期望变化分解成三项:TDE 方差项、真实平方误差项、以及偏差-误差交互项 \(2\eta\sum_t \mu_t \mathbb{E}[e_t \varepsilon_t]\),其中 \(e_t = Q(S_t,A_t)-Q^\star(S_t,A_t)\) 是真实误差、\(\varepsilon_t = Q_{\text{target}}(S_t)-Q^\star(S_t,A_t)\) 是目标偏差。PER 通过挑大 TDE 来加速消解"真实平方误差",但它管不住偏差-误差交互项。本文在关键假设 3.4("目标偏差被下游绝对 TDE 之和上界控制",\(|\varepsilon_t| \le \lambda\sum_{i=t+1}^n \delta^+_i\))下证明引理 3.5:\(|\varepsilon_t| \le \lambda(1-R_t)\sum_{i=1}^n \delta^+_i\),即可靠性越高、目标偏差越小。由此得到收敛层级(命题 3.6):
也就是说在该假设下,ReaPER 的期望 Q 值误差严格不大于 PER。作者还给出 Remark 3.7 把它推广到次优策略(加一个策略诱导偏差项 \(\zeta\))。
3. 方差缩减:ReaPER 近似最优逆方差采样
第二条理论支柱是从"更新方差"角度看。固定 episode、把当前 Q 值当常数,更新方差可写成 \(\sum_t \mu_t \sigma^2_t\)(\(\sigma^2_t\) 是 bootstrapped 目标的方差)。命题 3.8 证明使方差最小的最优分布是 \(\mu^\star_t \propto \delta^+_t / \sigma^2_t\)。由于真实目标 \(Q^\star\) 是常数,跨 run 的目标方差大部分来自目标偏差 \(\varepsilon\),所以 \(\sigma^2\) 与 \(\varepsilon\) 直接相关;在假设 3.4 下自然有 \(R \propto 1/\sigma^2\)。因此 \(\Psi_t = R_t \delta^+_t\) 恰好近似了"逆方差加权"的最优采样策略——这给了"乘可靠性"一个比直觉更硬的理由:它本质上在做方差缩减。
4. 四个工程修正:把朴素算法变成可跑、不破坏 RL 稳定性的实现
直接照定义实现 ReaPER 会有几个致命问题,作者给了四个补丁。(I) 优先级更新:每步重算所有 TDE 不现实,于是沿用 PER 的惰性更新——新 transition 入缓冲时给最大优先级,某条 transition 被用来更新 Q 时才更新它的 TDE;而同一 episode 内任意 transition 被更新时都要更新该 episode 所有 transition 的可靠性(因为 TDE 之和变了)。(II) 正则化:TDE 可能因别处更新而过期,仿照 PER 引入指数 \(\alpha,\omega \in (0,1]\) 抑制极端值,\(\Psi_t = R^\omega_t \cdot (\delta^+_t)^\alpha\)。(III) 未终止 episode 的可靠性:episode 没结束时 TDE 总和未定义,用缓冲区内任意 episode 的最大 TDE 之和 \(F\) 做保守兜底(并用位置编码向量 \(\phi\) 标记每条 transition 属于哪条轨迹);该公式刻意只看 episode 内方差、不按 episode 长度归一,因为作者发现按长度归一会偏向短轨迹、实测有害。(IV) 加权重要性采样:非均匀采样违反 i.i.d. 假设、引入偏差,用重要性采样权重 \(w_t = \big(\frac{1}{N}\cdot\frac{1}{p_t}\big)^\beta\) 缩放损失(用 \(\delta_t \cdot w_t\) 代替 \(\delta_t\) 更新)来修正。
损失函数 / 训练策略¶
训练沿用标准 DDQN 的 Q 学习更新 \(Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \eta\cdot\delta_t\),唯一变化是用 \(w_j\cdot\delta_j\)(重要性采样修正后的 TDE)累积权重梯度。关键超参为正则化指数 \(\alpha,\omega\)、重要性采样指数 \(\beta\) 和学习率 \(\eta\);作者强调结果是在几乎不调参的情况下取得的,预期细调还能更好。
实验关键数据¶
实验用统一的 DDQN agent、相同网络结构与超参,固定随机种子、同种子配对比较,唯一变量就是经验回放算法(Uniform / PER / ReaPER)。
主实验¶
| 环境类型 | 环境 / 基准 | 指标 | ReaPER vs PER | ReaPER vs Uniform |
|---|---|---|---|---|
| 连续控制 | ACROBOT | 达阈步数减少 | −16.6% | −25.0% |
| 连续控制 | CARTPOLE | 达阈步数减少 | −32.6% | −41.4% |
| 连续控制 | LUNARLANDER | 达阈步数减少 | −21.1% | −37.1% |
| 高维 | ATARI-10 | 峰值得分中位数 | +22.97% | +229.78% |
| 高维(部分可观测) | ATARI-10 (POMDP) | 峰值得分中位数 | +34.98% | — |
在三个连续控制环境里,ReaPER 比 PER 少 16.6%–32.6% 的步数就能达到预设分数阈值(20 次 run)。在 Atari-10 上,ReaPER 在 10 个游戏中 8 个胜出、2 个打平,峰值中位数比 PER 高 22.97%;在部分可观测变体下差距扩大到 34.98%。
消融 / 分析¶
| 配置 | 关键观察 | 说明 |
|---|---|---|
| Full ReaPER(\(\Psi=R\cdot\delta^+\)) | 三环境 + Atari 一致最优 | 完整方法 |
| PER(\(\Psi=\delta^+\),即 \(R\equiv 1\)) | 比 ReaPER 慢/低 | 退化为不带可靠性 |
| Uniform | 最差 | 无优先级 |
| 可靠性按 episode 长度归一 | 实测有害 | 偏向短轨迹,故采用 within-episode 方差形式 |
| 部分可观测设定 | 优势从 22.97%→34.98% | 目标越不可靠,可靠性加权收益越大 |
关键发现¶
- 可靠性加权是收益来源:ReaPER 与 PER 的唯一区别就是乘了 \(R_t\),去掉它(\(R\equiv 1\))就退回 PER,所有环境都掉,说明增益完全来自可靠性这一项。
- 越难/越不可观测,收益越大:从低复杂度连续控制(16.6%–32.6%)到 Atari(22.97%)再到部分可观测 Atari(34.98%),目标 Q 值越不可靠,压制目标偏差的价值越突出——和"目标偏差大时 TDE 最不可信"的动机自洽。
- 几乎免调参:上述结果在最少调参下取得,作者认为细调 \(\alpha,\omega,\beta,\eta\) 还有空间。
亮点与洞察¶
- 把"目标可靠性"显式拉进采样准则:以往优先采样只盯 TDE 幅度,本文第一次把"这个 TDE 可不可信"量化进权重,且用"后续累积 TDE 占比"这个纯靠已有 TDE 就能算的量来近似可靠性,不需要额外网络或不确定性估计,工程代价小。
- 理论-直觉双闭环:井字棋"从终局往回学"的直觉,对应到引理 3.5(可靠性上界目标偏差)和命题 3.8(ReaPER 近似逆方差最优采样),让"乘可靠性"既有画面感又有硬证明,这是它比一堆 heuristic PER 变体更有说服力的地方。
- 算法无关、即插即用:只改采样权重,可挂到任意离策略算法上,迁移成本极低;"用结构化的轨迹内信息(后续 TDE)来判断当前样本可信度"的思路也可迁移到其他需要 bootstrapping 的设定。
局限与展望¶
- 依赖终止状态:可靠性分数需要 episode 终止才能算出完整 TDE 之和,对无限时域 / 没有清晰终止的任务(持续控制)不直接适用,未终止 episode 只能用保守兜底。
- 计算开销:要维护每条 episode 的累积 TDE 之和,TDE 更新时带来开销,朴素实现是 \(O(N)\),优化后可降到 \(O(n-t)\),但仍比 PER 重。
- 假设的适用边界:核心假设 3.4(目标偏差被下游 TDE 上界控制)在训练早期、价值估计尚未稳定时可能被违反,理论保证主要在价值趋稳后成立。
- 展望:作者提出可探索自适应可靠性估计、扩展到 actor-critic 与无限时域、以及与表示学习结合。
相关工作与启发¶
- vs PER(Schaul et al. 2015):PER 用 \(\delta^+_t\) 做权重,本文用 \(R_t\cdot\delta^+_t\),区别在于显式扣掉不可靠目标的影响;ReaPER 在 \(R\equiv 1\) 时严格退化为 PER,因此是"超集"而非替换,理论上一致不差、实测更好。
- vs Prioritized Sequence Experience Replay(Brittain et al. 2019):它把绝对 TDE 沿 episode 反向传播后再做采样准则;本文同样利用了轨迹内时序信息,但落点不同——不是传播 TDE,而是用后续 TDE 之和构造一个 \([0,1]\) 的可靠性权重去乘,目的在"压偏差"而非"传信号"。
- vs Uncertainty Prioritized Experience Replay(Carrasco-Davis et al. 2025)/ 基于学习的选择(Zha 2019, Oh 2021):这些方法引入额外的不确定性/学习式选择机制;ReaPER 的卖点是不引入额外模型、仅靠缓冲区里已有的 TDE 就近似出可靠性,更轻量、更易复现。
评分¶
- 新颖性: ⭐⭐⭐⭐ "可靠性 = 后续 TDE 占比"这一刻画简单却新,把目标偏差显式纳入采样属于干净的增量创新。
- 实验充分度: ⭐⭐⭐⭐ 覆盖经典控制 + Atari-10 + 部分可观测,配对种子严谨;但缺与更多 PER 变体的横向对比、调参较保守。
- 写作质量: ⭐⭐⭐⭐⭐ 直觉(井字棋)→ 定义 → 引理 → 命题层层递进,理论与工程修正都交代清楚。
- 价值: ⭐⭐⭐⭐ 算法无关、即插即用且有理论支撑,对仍在用 PER 的离策略系统是低成本可落地的改进。