Multistep Quasimetric Learning for Scalable Goal-Conditioned Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=UElh7vzgKX
论文: 项目页
代码: https://mqe-paper.github.io (项目页含代码)
领域: 强化学习 / 目标条件 RL / 离线 RL / 机器人操作
关键词: 目标条件强化学习, 拟度量学习, 多步回传, 时序距离, 长程泛化

一句话总结¶

本文提出 MQE（Multistep Quasimetric Estimation），把多步蒙特卡洛回传嫁接到拟度量距离架构上，端到端学一个满足三角不等式的目标条件 Q 函数，在最长 4000 步的离线 GCRL 任务和真实机械臂多阶段操作上首次实现了无层级、无规划器的"拼接"（stitching）与组合泛化。

研究背景与动机¶

领域现状：目标条件强化学习（GCRL）的核心是估计两个观测之间的"时序距离"——从当前状态走到目标要多少步。离线场景下主流分两派：一派用时序差分（TD）做局部更新（GCIQL、QRL、nSAC+BC），理论上能逼近最优 \(Q^*\)；另一派用蒙特卡洛（MC）/对比学习做全局更新（CRL、CMD、TMD），把未来状态当目标、用多步回报传播价值。

现有痛点：两派各有硬伤。TD 方法在长程任务上会因为 bootstrap 的复合误差不断累积，horizon 一拉长就崩；MC/对比学习方法虽然在实践里更稳，但只能恢复行为策略下的 \(Q^\beta\)，拿不到最优值，且对比学习参数化的距离不带全局几何约束，难以做组合拼接。结果是：离线 RL 在短程任务上很好扩展，一到需要复杂推理的长程任务就失灵。

核心矛盾：局部更新（TD，有最优性保证但长程发散）与全局更新（MC，长程稳但只到行为策略）之间存在 trade-off，没有方法能同时吃到两边的好处——既快速地全局传播价值，又保持局部一致性与全局几何结构。

本文目标：设计一个离线 GCRL 方法，能在同一套价值函数里同时做局部和全局价值传播，从而（i）显著增强 horizon 泛化、做出拼接行为；（ii）在带噪数据上稳定抽取强目标到达策略；（iii）稳定到能直接搬上真实机器人、不需额外设计。

切入角度：作者注意到拟度量（quasimetric）架构天然带三角不等式 \(d(s_0,g)\le d(s_0,s_w)+d(s_w,g)\)，这正是"把难问题分解成易问题"的最优子结构；而多步回报能把价值一次传得更远。如果把多步回传写进拟度量距离的回归目标里，就能让"局部一致性 + 全局几何约束"同时生效。

核心 idea：用拟度量距离参数化 Q/V，并把单步 TD 回归扩展成"对任意中间路点（waypoint）的多步回归"，从而首次把多步 MC 回报和拟度量结构结合起来——MQE。

方法详解¶

整体框架¶

MQE 是一个离线 GCRL 算法，整条管线只学一个评论家（拟度量网络 \(d\)）和一个目标到达策略 \(\pi_\mu\)，没有任何层级结构或高层规划器。它把目标条件 Q/V 表示成"状态/状态-动作对到目标"的距离：

\[Q_g(s,a)=V_g(g)\,e^{-d((s,a),g)},\qquad V_g(s)=V_g(g)\,e^{-d(s,g)}.\]

距离越小、Q 越大。距离 \(d\) 用 MRN（Metric Residual Network）参数化，保证满足拟度量三条性质（非负、自反 \(d(x,x)=0\)、三角不等式）。训练时每个 batch 采样 \(\{s_i,a_i,s'_i,s^w_i,g_i\}\)，其中 \(s^w\) 是从轨迹未来采的"路点"。三个损失协同更新网络：多步回传 \(\mathcal{L}_{T_\beta}\) 负责把价值传远，动作不变性 \(\mathcal{L}_I\) 把 Q 压成 V（做价值学习），策略损失 \(\mathcal{L}_\mu\)（DDPG+BC）把学到的距离蒸馏成可执行策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["离线数据集 D<br/>无标注视觉/状态轨迹"] --> B["采样 (s,a,s',sw,g)<br/>路点 sw 取自未来状态"]
    B --> C["拟度量距离架构<br/>MRN 表示 Q/V 为距离 d"]
    C --> D["多步回传 + 路点采样<br/>最小化 LTβ"]
    C --> E["动作不变性<br/>最小化 LI 做价值学习"]
    D --> F["策略抽取 DDPG+BC<br/>最小化 Lµ"]
    E --> F
    F --> G["目标到达策略 πµ<br/>长程拼接 / 组合泛化"]

关键设计¶

1. 拟度量距离架构：给价值函数装上三角不等式这道全局约束

GCRL 要做拼接（把短任务串成长任务），本质上依赖一条全局结构——从起点到目标的距离不应超过经过任意中转点的距离之和。普通 MLP 评论家或对比学习的点积/范数参数化都不保证这一点，于是长程组合无从谈起。本文改用 MRN 把距离 \(d\) 参数化：把表示切成 \(N\) 等份，每份取一个非对称分量（ReLU 后取 max）加一个对称分量（\(\ell_2\) 范数）之和，

\[d_{\text{MRN}}(x,y)\triangleq\frac{1}{N}\sum_{k=1}^{N}\max_{m}\max(0,x_{kM+m}-y_{kM+m})+\lVert x_{kM+m}-y_{kM+m}\rVert_2,\]

当 \(M\) 足够大时这一参数化对任意拟度量是万能逼近的。关键差别在于：三角不等式被硬编码进网络结构，而不是靠数据拟合出来，所以学到的距离天生支持"分解难问题为易问题"，这是后面拼接和 horizon 泛化的几何地基。

2. 多步回传 + 路点采样：把单步 TD 回归扩展成对任意中间路点的多步回归

单步 TD 在长程上误差复合发散，纯 MC 又只能恢复行为策略价值。本文的洞察是：拟合距离的回归目标 \(e^{-d((s,a),g)}\leftarrow \gamma\,e^{-d(s',g)}\)（记为 \(\mathcal{T}\)）里的"下一状态" \(s'\) 没必要只取一步——可以把这条不变性推广到当前状态与目标之间的任意路点 \(s^w\)。路点这样采：

\[s^w_t \leftarrow s_{t+k'},\quad k'\sim\min(\text{Geom}(1-\lambda),K)\ \text{以概率}\ 1-p,\quad k'=1\ \text{以概率}\ p,\]

于是单步回归变成多步回归目标 \(\mathcal{T}_\beta\)：\(e^{-d((s,a),g)}\leftarrow \gamma^{k'} e^{-d(s^w_t,g)}\)。其中混合伯努利+几何分布是为了既能采到"远路点"快速传播价值（几何项），又保留一定概率取 \(k'=1\) 守住局部一致性（伯努利项，对应 \(p\)）。损失采用 LINEX 形式的 Bregman 散度 \(D_T(d,d')\triangleq\exp(d-d')-d'\)，好处是当两个距离值已经接近时梯度不会消失，训练后期仍能继续打磨。当 \(p=1\) 时 \(\mathcal{T}_\beta\) 退化回单步 \(\mathcal{T}\)，消融显示只用 \(\mathcal{T}\) 学不出好距离，说明多步回传是性能来源的核心。

3. 动作不变性：用一个无超参的平滑损失把 Q 压成 V，实现价值学习

最优评论家应满足 \(V^*_g(s)=\max_a Q^*_g(s,a)\)，在本文的距离构造下等价于 \(d(s,(s,a))=0\)（动作不变性）。但网络初始并不满足，需要用梯度下降显式逼 \(d(\psi(s),\varphi(s,a))\to 0\)。直接拿 L1/L2 回归会出事——网络很快坍缩到平凡解 \(\varphi(s,a)=\psi(s)=0\)，学不到任何有意义的距离（TMD 为此额外引入超参 \(\zeta\) 调梯度幅度）。本文换成

\[\mathcal{L}_I=\sum_{i,j}\big(e^{-d(\psi(s_i),\varphi(s_i,a_j))}-1\big)^2,\]

损失幅度随违反程度自适应缩放：违反小时梯度温和、违反大时梯度强，既稳定了训练动态，又省掉了调乘子超参。其作用类似 IQL/TMD 里的价值损失（相当于 \(\tau\approx1\) 的期望分位回归），但更稳。

4. 策略抽取：用 DDPG+BC 把"最小化距离"等价为"最大化 Q"

距离学好后要落地成可执行策略。由于 \(Q_g(s,a)=V_g(g)e^{-d((s,a),g)}\)，距离越小 Q 越大，所以最大化 Q 等价于让策略输出的动作把距离压到最小。本文用行为正则化的确定性策略梯度：

\[\mathcal{L}_\mu=\mathbb{E}\Big[\sum_{i,j}d\big((s_i,\pi(s_i,g_j)),g_j\big)-\alpha\log\pi(a_i\mid s_i,g_i)\Big],\]

前项最小化拟度量距离（=最大化 Q），后项是行为克隆正则防止策略偏离数据分布，BC 系数 \(\alpha\) 按环境调。整个流程只有一个评论家、一个策略，比层级 RL（HIQL 等）实现简单得多，也因此无需额外设计就能搬上真实机器人。

损失函数 / 训练策略¶

总目标见 Algorithm 1：每步采 batch \(\{s_i,a_i,s'_i,s^w_i,g_i\}\)，依次（4）用 \(\mathcal{L}_{T_\beta}\) 做多步回传更新拟度量网络、（5）用 \(\mathcal{L}_I\) 加动作不变性约束、（6）用 DDPG+BC 的 \(\mathcal{L}_\mu\) 更新策略，迭代 \(T\) 次返回 \(\pi_\mu\)。理论上（Theorem 1）在表格设定、行为策略 \(\pi_\beta\) 对状态-动作对全支撑的假设下，先最小化 \(\mathcal{L}_{T_\beta}+\mathcal{L}_I\)、再经路径松弛算子 \(P(d)(x,z)=\min_y[d(x,y)+d(y,z)]\) 投影到拟度量空间、最后抽策略，可保证 \(V^\pi_g(s)\ge V^{\pi_\beta}_g(s)\)，即对行为策略做了策略提升。

实验关键数据¶

主实验¶

仿真用 OGBench：13 个状态环境 + 5 个像素环境（\(64\times64\times3\)），每个 5 个任务，共 95 个任务；并自造一个比 giant 大 50% 的 colossal 迷宫，单趟需约 4000 步。真实环境用 BridgeData（WidowX250，6DoF，5Hz）。

评测	设定	MQE 表现	对比基线
OGBench 90+ 挑战任务聚合成功率	状态+像素	大幅领先所有基线	TMD/CMD/CRL/QRL/GCIQL/HIQL/nSAC+BC
humanoidmaze-giant-stitch	长程拼接	较此前最佳约 10× 提升	HIQL、nSAC+BC（显式 horizon 缩减）
antmaze horizon 泛化	仅 4m 轨迹训练，colossal 评测 horizon 长 1000%	唯一在 colossal 迷宫仍非零成功率	TMD/CRL/HIQL 归零
视觉操作	像素 manipulation	唯一落后场景	HIQL 更优
BridgeData 组合 PnP	连续 1→4 个物体	任务数增多仍保持高 task progress	GCBC/GCIQL/TRA 随任务数退化
最难任务（四连 PnP、开抽屉+放置）	带依赖的多阶段	与 TRA 是仅有的非零成功率	GCBC/GCIQL 归零

消融实验¶

均在 humanoidmaze-giant-stitch 上进行（成功率 %）：

配置	成功率	说明
完整 MQE（含 \(\mathcal{L}_I\)，\(k'\sim\)Eq.(8)）	26.5 (±1.3)	完整模型
去掉 \(\mathcal{L}_I\)	7.9 (±0.7)	动作不变性贡献最大，掉约 18.6
用 expectile \(\kappa=0.7\) 代替 \(\mathcal{L}_I\)	11.3 (±1.1)	期望分位价值学习明显更差
用 expectile \(\kappa=0.9\)	8.8 (±0.7)	同上
路点 \(k'\sim\text{Geom}(1-\lambda)\)	22.1 (±1.1)	去掉伯努利混合略降
路点 \(k'\sim\text{Unif}[1,K]\)	18.9 (±0.9)	均匀采样更差
路点 \(k'\sim\text{Unif}[1,50]\)	17.8 (±1.3)	固定区间均匀更差
固定 \(k'=50\)	1.7 (±0.5)	只远不近，崩
固定 \(k'=1\)（纯单步 \(\mathcal{T}\)）	0 (±0.0)	纯单步完全学不出

关键发现¶

动作不变性 \(\mathcal{L}_I\) 是单点贡献最大的组件：去掉后成功率从 26.5 跌到 7.9，且用 IQL 式 expectile 损失替代也只有 8.8~11.3，验证了平滑自适应损失优于固定分位回归。
路点要"既远又近"：纯远（\(k'=50\)）几乎学不动、纯单步（\(k'=1\)）直接归零；几何分布优于均匀分布，作者归因于目标本身按几何分布采样，路点与目标分布匹配才利于泛化。
超参 \(\lambda\) 与 \(p\) 都需偏高：\(\lambda\) 高保证路点足够远让价值快速传播、\(p\) 高保证局部一致性被尊重；但 \(p\) 过高会退化成纯单步 \(\mathcal{T}\) 而学不出好距离——印证多步回传不可或缺。

亮点与洞察¶

把"多步 MC 回传"与"拟度量三角不等式"统一进一个距离回归目标，是首个在拟度量架构上跑通多步返回并在真实机器人上成功的工作；两类历来对立的范式（TD 局部 vs MC 全局）被一个 waypoint 采样优雅地缝合。
无层级、无高层规划器、单评论家单策略却能在 BridgeData 上做端到端四连 PnP 与"开抽屉再放入"这类带依赖的组合任务——此前只有显式层级或规划方法能做到，工程上极具吸引力。
\(\mathcal{L}_I\) 的平滑自适应设计（损失随违反幅度缩放）是个可迁移的小 trick：凡是需要"软约束两个表示相等、又怕坍缩到平凡解"的场景都能借用，省去调乘子超参。
LINEX/Bregman 损失避免了距离接近时梯度消失，是长程价值精修能继续推进的隐性功臣。

局限与展望¶

路点采样基于启发式（几何+伯努利混合），超出本文评测范围的环境可能需要重新搜索最优采样方式，带来额外计算开销；作者承认未给出"如何采路点"的理论最优解。
唯一落后的是视觉操作任务（HIQL 更优），说明像素输入下的拟度量表示学习仍有短板。
理论保证（Theorem 1 的策略提升）只在表格设定、行为策略全支撑假设下成立，高维随机连续控制下的保证仍是开放问题。
展望：研究路点采样与后继距离的理论联系、考察对 action-chunking 等不同策略类的影响、把方法推广到 offline-to-online 或纯 online RL。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把多步返回与拟度量架构结合并在真实机器人跑通的工作，缝合了 TD/MC 两派
实验充分度: ⭐⭐⭐⭐⭐ 95 个仿真任务 + 真实机械臂多阶段操作 + 细致消融，覆盖到 4000 步长程
写作质量: ⭐⭐⭐⭐ 思路清晰、动机扎实，但公式密集、路点采样的直觉解释偏简略
价值: ⭐⭐⭐⭐⭐ 无层级即可做组合拼接，对离线 GCRL 与真实机器人学习有直接落地意义