Transitive RL: Value Learning via Divide and Conquer¶

会议: ICLR 2026
arXiv: 2510.22512
代码: 无
领域: 强化学习 / 目标条件RL
关键词: 分治算法, 值函数学习, 离线RL, 目标条件强化学习, 三角不等式

一句话总结¶

本文提出 Transitive Reinforcement Learning（TRL），一种基于分治范式的新型值函数学习算法，利用目标条件RL中固有的三角不等式结构，将值函数更新递归分解为子问题，在长时间跨度任务上实现了优于TD学习和蒙特卡洛方法的性能。

研究背景与动机¶

目标条件强化学习（Goal-Conditioned RL, GCRL）关注一个基本问题：学习一个策略，能够从任意状态以最少步数到达任意目标状态。这一问题在机器人导航、操控规划等领域有广泛应用。

GCRL中学习值函数（描述从一个状态到目标状态所需的最小步数）主要有两种经典范式：

时序差分（TD）学习：通过逐步的单步自举（bootstrapping）传播值信息。优点是方差低（动态规划），但缺点是偏差累积——对于长度为 \(T\) 的轨迹，需要 \(O(T)\) 次递归更新才能传播完整信息，每次更新都可能引入近似误差，误差会逐步累积。

蒙特卡洛（MC）方法：直接使用完整轨迹的回报来估计值函数。优点是无偏倚，但缺点是高方差——长轨迹的总回报方差随轨迹长度增长。

这两种方法各有致命弱点，特别是在长时间跨度（long-horizon）任务中：

TD方法的偏差累积使得估计越来越不准确
MC方法的高方差使得学习极其缓慢

本文的核心洞察是：GCRL问题中存在一个三角不等式结构——从A到C的最短距离不超过从A到B再从B到C的距离之和。这一结构可以被利用来设计比TD和MC都更好的值函数学习算法。

方法详解¶

整体框架¶

TRL 面向离线目标条件强化学习（offline Goal-Conditioned RL, GCRL）：手里只有一批无奖励、无标注的轨迹，要学一个目标条件值函数 \(Q(s, a, g)\) 来度量"从状态 \(s\) 出发、到达目标 \(g\) 最少要几步"，再据此抽取策略。真正的难点是长时跨度（论文里的机器人任务动辄上千步）：TD 沿轨迹逐格回传值信息要 \(O(T)\) 次 Bellman 递归、偏差越滚越大；MC 直接吃整条回报又方差爆炸。

TRL 的破法是分治——不沿轨迹一步步传，而是把"\(s\) 到 \(g\)"劈成"\(s\) 到子目标（subgoal）\(w\)"和"\(w\) 到 \(g\)"两段、各自的值组合起来，递归二分下去，理想情况下只要 \(O(\log T)\) 次递归。整条 pipeline 是：从数据集采一条轨迹、再采三元组 \(i<k<j\)（用 \(s_k\) 当子目标）→ 用目标网络读出两个短片段的值 → 按三角不等式组合成长片段的更新目标 → 套上样本内期望分位 + 行内子目标来抑制高估、再按距离重加权 → 回归更新 \(Q\) → 最后抽取策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    D["离线无奖励轨迹数据集"] --> S["采样三元组 (i, k, j)<br/>取 s_k 作子目标 w"]
    S --> TB["三角不等式与传递式 Bellman 更新<br/>组合两短片段值 Q(s,w)·Q(w,g)"]
    TB --> IM["行内子目标上的样本内最大化<br/>期望分位 + 行内子目标抑制高估"]
    IM --> RW["基于距离的重加权<br/>短片段优先算准"]
    RW --> U["回归更新值函数 Q(s,a,g)"]
    U -->|"目标网络 Q̄ 提供下一轮目标"| TB
    U --> P["策略抽取<br/>重参数化梯度 / 拒绝采样"]

关键设计¶

1. 三角不等式与传递式 Bellman 更新：把最短路结构变成分治更新规则

TD 的偏差累积和 MC 的高方差，根子上都在于"信息只能沿轨迹一步步传或一整条传"。TRL 抓住 GCRL 的一个固有几何性质：值函数本质是最短路距离，天然满足三角不等式——绕任意子目标 \(w\) 走的距离不短于直达，\(d^*(s, g) \leq d^*(s, w) + d^*(w, g)\)，\(w\) 落在最优路径上时取等。换算到值函数 \(V^* = \gamma^{d^*}\) 就成了 \(V^*(s, g) \geq V^*(s, w)\,V^*(w, g)\)，于是最优值是所有子目标里"最松"的那个界，给出传递式（transitive）Bellman 更新：

\[V(s, g) \leftarrow \max_{w}\, V(s, w)\,V(w, g)\]

（相邻状态对直接是 1 步 \(\gamma^1\)、\(s = g\) 时为 \(\gamma^0\)）。这其实就是图论里 Floyd-Warshall 最短路"用中转点松弛边权"搬到连续状态空间。它的价值在递归深度：把长片段不断二分，\(O(T)\) 的逐格传播被压到 \(O(\log T)\)，而每层仍是动态规划式的组合（不是 MC 吃整条回报），于是同时绕开 TD 的偏差累积和 MC 的高方差。

2. 行内子目标上的样本内最大化：让分治更新在离线高维任务上不崩

更新规则里的 \(\max_w\) 是落地最大的坑：在函数逼近 + 离线设定下，对大量子目标取 max 会专挑那个被正向高估的值，导致灾难性高估——这正是以往传递式方法只能在二维玩具迷宫上跑、一上机器人任务成功率就归零的原因。TRL 用两个改动驯服它。其一，把硬 \(\max\) 换成软的期望分位回归（expectile，\(\kappa \in [0.5, 1)\)）：\(\mathbb{E}[\ell^2_\kappa(V(s, g) - \bar V(s, w)\bar V(w, g))]\)，不必显式枚举状态就能近似最大值。其二，子目标只从轨迹内部取（称为行内 / 行为子目标，behavioral subgoals）——更新 \(V(s_i, s_j)\) 时只用同一条轨迹上 \(i \leq k \leq j\) 的 \(s_k\)，而非全状态空间任取。看似保守，却是关键：任取状态当子目标"有效"的概率极低，会逼着用更激进的分位、训练随之失稳；限制在轨迹内即便数据是随机原子动作也够用（类比一步 RL 的行为值函数在次优数据上往往就够）。

3. 基于距离的重加权：先把短片段算准，再支撑长片段

传递式更新里，长片段 \((s_i, s_j)\) 的目标值靠两个短片段 \((s_i, s_k)\)、\((s_k, s_j)\) 拼出来，所以短片段必须先准。TRL 给每个样本 \((s_i, s_j)\) 的损失乘上权重 \(w(s_i, s_j) := 1/(1 + \log_\gamma Q(s_i, a_i, s_j))^\lambda\)（\(\lambda\) 为超参），让权重大致与估计距离成反比、把训练重心压在短片段上——正对应经典动态规划"先解小子问题、再拼大问题"的求解次序。

损失函数 / 训练策略¶

合上三件套，TRL 的值损失采用 Q 版传递算子、实测用二元交叉熵（BCE）：

\[\mathcal{L}_{\text{TRL}}(Q) = \mathbb{E}_{\tau \sim \mathcal{D}}\big[\, w(s_i, s_j)\, D_\kappa\big(Q(s_i, a_i, s_j),\ \bar Q(s_i, a_i, s_k)\,\bar Q(s_k, a_k, s_j)\big)\,\big]\]

其中 \(D_\kappa(x, y) := |\kappa - \mathbb{I}(x > y)|\,D(x, y)\) 是损失 \(D\) 的期望分位变体，\(\bar Q\) 为目标网络；边界情形下若 \(k - i \leq 1\) 则用 \(\gamma^{k-i}\) 替换 \(\bar Q(s_i, a_i, s_k)\)（另一段同理）。训练每步：采一条轨迹、采 \(i < k < j\)（均匀采样），\(s_k\) 作子目标。值函数学好后抽取策略，默认用重参数化梯度（DDPG+BC），在行为策略高度多模态的长时跨度拼图任务上改用拒绝采样更好。

实验关键数据¶

主实验¶

在高难度、长时间跨度的离线GCRL基准上与现有算法比较：

基准任务	指标	TRL	TD-based最佳	MC-based最佳	其他GCRL
长距离导航	成功率	最优	偏差累积退化	高方差表现差	中等
复杂操控	成功率	最优	中等	差	中等
超长距离规划	成功率	最优	严重退化	几乎不可用	差

消融实验¶

配置	关键指标	说明
TRL (完整)	最优	基准配置
去除分治 (TD替代)	显著下降	验证分治的核心作用
去除动态规划 (MC替代)	明显下降	验证DP的方差控制作用
不同递归深度	\(\log T\) 最优	过深过浅均非最优
中间点采样数量	适度即可	多中间点略有帮助

关键发现¶

分治递归深度 \(O(\log T)\) 的优势显著：这是TRL的核心理论优势。对于长达上千步的轨迹，TD需要上千次递归传播值信息（每次都有近似误差），而TRL理想情况下只需约 \(\log T\) 层（千步轨迹也就十层左右）。论文同时证明，即便不严格取中点、而是在 \(i\) 与 \(j\) 之间随机采子目标，理想表格情形下仍保持 \(O(\log T)\) 递归。
在长时间跨度任务上优势尤为明显：当轨迹长度增加时，TD和MC方法的性能快速退化，而TRL的性能退化缓慢，差距越来越大。
兼得TD和MC的优点：TRL既有TD的低方差特性（通过动态规划），又避免了TD的偏差累积问题（通过对数级递归），实现了两全其美。
对离线数据质量的鲁棒性：即使离线数据集中的轨迹不是最优的，TRL仍能通过三角不等式的最小化操作找到更短的路径。

亮点与洞察¶

巧妙利用问题结构：三角不等式是GCRL问题的固有几何性质。将其转化为算法设计原则（分治更新规则）是非常优雅的思路。与Floyd-Warshall的联系提供了良好的直觉。
理论保证优美：\(O(\log T)\) vs \(O(T)\) 的递归深度差异直接转化为偏差累积的阶数差异，理论分析清晰有力。
概念简单但效果显著：算法的核心思想一句话就能描述——"用中间点把长路径分成两段"——但这个简单思想在实验中带来了巨大的性能提升。
通用性：分治思想不局限于特定的环境或任务，适用于任何满足三角不等式的值函数学习问题。

局限与展望¶

仅适用于GCRL：TRL利用的是最短路径的三角不等式结构，不能直接推广到一般的RL问题（如含奖励折扣的累积奖励最大化）。
中间点的选择：在连续空间中，如何高效地找到好的中间点是一个实际挑战。如果数据集中缺少"桥梁"状态，分治效果会打折扣。
离线设定的局限：目前仅在离线设定下验证。在线版本（结合探索）可能需要额外的设计。
函数逼近误差：虽然递归深度减少了，但每一层的函数逼近误差仍然可能累积。\(O(\log T)\) 层的累积误差是否在实践中始终可控需要更多验证。
与分层RL的关系：分治策略与分层强化学习（Hierarchical RL）有天然联系，但本文未深入探讨。结合子目标发现方法可能进一步提升性能。
离线数据的覆盖度要求：TRL需要数据集中包含足够的"中间状态"来构建分治路径。对于稀疏数据集，这一要求可能成为瓶颈。

评分¶

新颖性: ⭐⭐⭐⭐⭐ （分治 + RL的创新结合，概念清晰优雅）
实验充分度: ⭐⭐⭐⭐ （长时间跨度基准上的优越表现）
写作质量: ⭐⭐⭐⭐ （算法动机和理论分析清晰易懂）
价值: ⭐⭐⭐⭐ （为GCRL值学习开辟了新范式）