RD-HRL: Generating Reliable Sub-Goals for Long-Horizon Sparse-Reward Tasks¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=5E5sd3TWGD
代码: https://github.com/Looomo/RD-HRL-public
领域: 强化学习 / 分层强化学习 / 离线RL
关键词: 分层强化学习, 子目标规划, 离线目标条件RL, 价值泛化误差, 长程稀疏奖励

一句话总结¶

针对离线分层强化学习里"高层策略靠带泛化噪声的价值函数挑子目标、结果选错"的痛点，本文提出 RD-HRL，先从离线数据里抽出连接多条轨迹的"过渡区域"作为可靠决策空间，再让一个 TI 模块在这些区域里选出决策级目标交给高层策略，从而把子目标选择和跨轨迹价值估计解耦，在 antmaze、Kitchen、CALVIN 等 9 个长程稀疏奖励基准上 8 个达到 top-3%。

研究背景与动机¶

领域现状：长程稀疏奖励任务（如目标条件导航、机器人操作）在离线 RL 里一直很难，因为奖励只在到达远处目标时才出现，信用分配（credit assignment）极其困难。主流解法是分层强化学习（HRL）：高层策略借助价值函数提出中间子目标，低层策略学习如何到达这些子目标，从而把有效规划视野缩短，缓解长程信用分配。

现有痛点：高层策略用来提出子目标的价值函数在实践中往往带有泛化误差。作者用一个直观例子说明：智能体从 $s_t$ 出发去目标 $g$，最优路径本应经过某个子目标 $s^1_{t+H}$，但 $s^1_{t+H}$ 的价值估计依赖跨轨迹的 Bellman backup（即泛化的 Bellman 回传），这个泛化信号常常被衰减、不可靠，导致最优子目标的价值被低估，高层策略转而选了次优子目标 $s^2_{t+H}$，最终走出一条次优轨迹。

核心矛盾：子目标的可靠性，本质上取决于价值函数在哪些状态上估值。一旦让高层策略去比较那些"价值信号本身就靠泛化撑起来"的候选子目标，泛化噪声就会直接污染决策。问题的根源不在策略本身，而在它被迫在一个需要泛化才能比较价值的空间里做决策。

本文目标：把不可靠的子目标规划拆成两个都"可靠"的子问题——(1) 提供合适的决策级目标（decision-level target），(2) 在决策级目标的条件下产出可靠的动作级目标（action-level target，即原来意义上的子目标）。

切入角度：作者观察到，如果能阻止高层策略去比较那些价值信号不可靠的候选，把它的决策空间限制在不需要泛化的局部区域内，泛化误差的影响就能大幅减小。数据里恰好存在这样的区域——多条轨迹彼此靠近、可以互相连接的地方，作者称之为"过渡区域"（transition region）。

核心 idea：引入一个可靠性驱动的决策机制（reliability-driven decision mechanism），从过渡区域里为高层策略挑选决策级目标，把高层决策限制在无需泛化的区域，从而把子目标选择与跨轨迹价值估计解耦。

方法详解¶

整体框架¶

RD-HRL 建立在标准 HRL（高层策略 $\pi^h$ + 低层策略 $\pi^l$）之上，额外插入一个由三个模块组成的可靠性驱动决策机制。整条流程是：从离线数据集出发，TRE 模块先把状态聚类成块、再筛出"过渡区域"集合 $Z$ 作为可靠的候选决策空间；TE 模块只在这些过渡区域内做价值评估，给出低噪声的价值；TI 模块借助 TE 的评估，从 $Z$ 中为当前状态选出一个过渡区域作为决策级目标 $g_{TI}$；然后高层策略以 $g_{TI}$ 为条件生成动作级目标 $g^h$，低层策略再据此输出实际动作 $a_t$。

整条决策链可写成： $$g_{TI} \sim TI_{\theta_{TI}}(\cdot|s_t, g), \quad g^h \sim \pi^h_{\theta^h}(\cdot|s_t, g_{TI}), \quad a_t \sim \pi^l_{\theta^l}(\cdot|s_t, g^h)$$

关键在于：高层策略不再直接面对整个状态空间去比较子目标价值，而是被 $g_{TI}$ 约束在一个不需要泛化的区域里，泛化噪声因此被挡在决策之外。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["离线数据集 D"] --> B["过渡区域抽取 TRE<br/>K-Means 聚类 + FDI 筛选<br/>得到过渡区域集合 Z"]
    B --> C["目标评估 TE<br/>仅在 Z 内做跨轨迹价值更新<br/>低噪声 + 时序抽象"]
    C --> D["目标识别 TI<br/>从 Z 选决策级目标 g_TI"]
    D --> E["高层策略 πʰ<br/>以 g_TI 为条件<br/>生成动作级目标 gʰ"]
    E --> F["低层策略 πˡ<br/>输出动作 aₜ"]

关键设计¶

1. 过渡区域抽取 TRE：把"可靠的决策空间"从数据里筛出来

这是整个方法的地基，针对的痛点是"价值信号在哪里可靠"。作者定义过渡区域为多条轨迹彼此靠得很近、能互相连接的状态块——直觉上，在这些区域做决策天然能跨轨迹连接而不必依赖泛化。TRE 用两步实现：先对数据集里的状态做 K-Means 聚类 $C = \text{K-Means}(\{s|s\sim D\}, N)$ 得到 $N$ 个块；再用一个未来多样性指数（Future Diversity Index, FDI）来量化每个块能通向多少种未来，以此识别过渡区域。对簇 $c$，FDI 定义为 $$FDI(c) = \frac{|\{c_{s_{t+1}} | s_t \in c, s_t \in \tau\}| - 2}{N}, \quad \tau \sim D$$ 即"从该簇出发，下一步能落到多少个不同簇"再减 2 归一化（减 2 是因为任何簇至少有"转出"和"留在原地"两种平凡未来）。能连接更多轨迹的过渡区域，自然拥有更多样的未来方向，因此 FDI 越大越像过渡区域。作者把所有 $FDI(c) > 0$ 的簇取为过渡区域集合 $Z = \{c | FDI(c) > 0\}$，簇数 $N$ 用类内平方和（WCSS）来定。

2. 目标识别 TI：把高层决策空间限制到无需泛化的区域

TI 模块 $TI_{\theta_{TI}}(g_{TI}|s_t, g)$ 负责在 $Z$ 里选一个过渡区域 $z$ 当作决策级目标 $g_{TI}$，交给高层策略。它针对的痛点正是"高层策略在需要泛化的空间里挑子目标会被噪声误导"——一旦决策级目标只能从过渡区域里选，高层策略的决策空间就被自然地收窄到不需要泛化的局部，子目标选择与跨轨迹价值估计就此解耦。TI 用 AWR 风格目标优化： $$L_{\theta_{TI}} = \mathbb{E}_{z\in Z, s_z\in z}\big[\exp(\beta^{d(s_t,s_z)} \cdot A_{TI}(s_z, s_t, g)) \cdot \log TI_{\theta_{TI}}(s_z|s_t, g)\big]$$ 其中优势 $A_{TI}(s_z, s_t, g) = TE_{\theta_{TE}}(s_z, g) - TE_{\theta_{TE}}(s_t, g)$ 完全由 TE 模块给出，$d(s_t, s_z)$ 是时序距离。值得注意的是，学 TI 时作者特意从与 $s_t$ 同一条轨迹的 $z$ 内采 $s_z$，以避免决策级的不确定性；而由于 $s_z$ 与 $s_t$ 的时序距离不一定是 1，权重要取到 $d(s_t, s_z)$ 次幂。消融实验（RD-HRL-HP）显示，决策级目标 $g_{TI}$ 对低层策略可能"够不着"，仍需要高层策略去分解它，所以 TI 绝不只是"更高一层的 $\pi^h$ 替身"。

3. 目标评估 TE：靠跨轨迹直更 + 时序抽象给出低噪声价值

TI 要选得准，前提是有人给过渡区域打出可靠的分。TE 模块 $TE_{\theta_{TE}}(s, g)$ 就专门干这个，且只对 $s \in z, z\in Z$ 的状态估值，而不是对全部 $s\in D$。它的更新目标是 $$L_{\theta_{TE}} = \mathbb{E}_{\tau\sim D}\big[\|TE_{\theta_{TE}}(s_{t_1}, g) - (r_{t_1,t_2} + \gamma^{d(s_{t_1},s_{t_2})}TE_{\bar\theta_{TE}}(s_{t_2}, g))\|^2\big]$$ 其中 $z_1, z_2$ 是轨迹骨架 $\hat\tau = \{\ldots, z_i, z_{i+1}, \ldots\}$ 上相邻的两个过渡区域，$s_{t_1}\in z_1$、$s_{t_2}\in z_2$。它的可靠性来自两点：其一，$s_{t_1}$ 和 $s_{t_2}$ 可能来自不同轨迹，于是价值信号是被直接跨轨迹回传而非靠泛化外推，从根上避开了泛化误差；其二，TE 只在过渡区域上更新，把中间细粒度的 RL 步骤抽象成一个宏步（temporal abstraction），价值更新次数大幅减少，从而抑制了每步更新累积的误差。作者还在附录给出理论证明，TE 能有效降低长程稀疏奖励场景下的价值噪声。

4. 与 HRL 耦合：决策级目标→动作级目标的两段式可靠规划

最后把可靠性驱动决策机制接回 HRL，构成 RD-HRL。训练顺序是：先用 $Z$ 学 TE，再用 TE 提供的优势学 TI；常规价值函数 $V_{\theta_V}(s,g)$ 按标准 TD 目标学；高层策略 $\pi^h_{\theta^h}(s_{t+H}|s_t, s_z)$ 和低层策略 $\pi^l_{\theta^l}(a_t|s_t, s_{t+H})$ 仍按 AWR 目标（式 3、式 4）学，但高层策略此时把条件 $g$ 替换为过渡区域里的 $s_z$。这样一来，原本"一步到位却不可靠"的子目标规划被拆成两段都可靠的子问题：TI 在无需泛化的过渡区域给出决策级目标，高层策略再在其条件下产出对低层免疫于泛化噪声的动作级目标。

损失函数 / 训练策略¶

训练分四块、按依赖顺序进行：(1) 用过渡区域 $Z$ 学 TE 模块（式 8，跨轨迹直更）；(2) 用 TE 的优势按 AWR 学 TI 模块（式 10）；(3) 学常规价值函数 $V$（式 11，标准 TD）；(4) 按 AWR 学高层、低层策略（式 3、式 4），高层条件由任务目标 $g$ 换成过渡区域状态 $s_z$。$\beta$ 为 AWR 温度，$H$ 为 waysteps 超参，$N$（簇数）由 WCSS 选定。

实验关键数据¶

主实验¶

在 9 个长程稀疏奖励基准上对比 9 个 HRL/规划基线（HIQL、PlanDQ、MSCP、V-ADT、DTAMP、HD-DA、HILP、HILP-Plan、DiffuserLite），50 个随机种子取均值。RD-HRL 在 9 个任务里 8 个进入 top-3%（≥0.97×MAX）。

数据集	HIQL（骨干）	PlanDQ	DiffuserLite	RD-HRL
antmaze-medium-diverse	86.8	93.0	87.6	94.6
antmaze-large-play	86.1	85.3	69.4	95.3
antmaze-ultra-diverse	52.9	70.0	69.3	81.1
antmaze-ultra-play	39.2	71.5	63.7	72.9
kitchen-mixed	67.7	71.7	64.8	72.9
CALVIN	43.8	45.0	52.1	68.8

在最复杂的 antmaze-ultra-{play, diverse} 上，RD-HRL 相对骨干 HIQL 分别提升 85.9% 和 53.3%；在高维操作任务 CALVIN 上相对 HIQL 提升 57%，验证了在高维空间同样有效。唯一未进 top-3% 的是 kitchen-partial，作者归因于该数据集缺少跨子任务的完整轨迹，导致 TRE 无法识别出过渡区域。

消融实验¶

配置	ultra-diverse	ultra-play	说明
RD-HRL（完整）	81.1	72.9	完整模型
RD-HRL-TRE	59.8	52.9	TI 改用 $s_{t+2H}$ 而非 $z\sim Z$
RD-HRL-HP	27.8	32.6	去掉高层策略，$g_{TI}$ 直接给低层
RD-HRL-TE	35.3	57.8	用 $V$ 替换 TE 模块
RD-HRL-CU	68.1	66.0	去掉 TE 的跨轨迹直更（保留时序抽象）
HIQL（骨干对照）	52.9	39.2	—

关键发现¶

过渡区域的价值不止是"能用更大的 H"：RD-HRL-TRE 把 $Z$ 换成 $\{s_{t+2H}\}$ 后在所有 antmaze 任务上都低于完整模型，说明过渡区域本身带来的可靠性才是关键；但 RD-HRL-TRE 在多数任务上仍优于 HIQL，说明单纯增大 $H$ 也有一定增益。
TI 不是"高一层的 $\pi^h$"：去掉高层策略、把 $g_{TI}$ 直接喂低层（RD-HRL-HP）在 ultra-diverse/play 上分别暴跌 65.2% 和 55.3%——决策级目标常常对低层"够不着"，必须由高层策略再分解。
TE 的优势来自两半：替换成普通 $V$（RD-HRL-TE）在复杂环境掉点明显；只去掉跨轨迹直更、保留时序抽象（RD-HRL-CU）在 ultra-diverse 上掉 16.1% 但仍稳定优于 RD-HRL-TE，说明跨轨迹直更和时序抽象各自都有实打实的贡献。

亮点与洞察¶

把"价值可不可靠"变成"在哪些状态上估值"的空间选择问题：与其去修价值函数的泛化误差，不如直接把决策限制在不需要泛化的过渡区域，这个换框思路很干净。
FDI 这个指标朴素但好用：用"下一步能落到多少个不同簇"来度量一个区域连接了多少条轨迹，把"过渡区域"这种抽象概念落成了一个可计算、可阈值化的量。
TE 的跨轨迹直更避开 Bellman 泛化：让相邻过渡区域的价值在不同轨迹间直接回传，而不是靠函数逼近外推，这是降噪的根本，外加时序抽象减少更新次数压低累积误差，两个机制叠加。
"决策级目标 / 动作级目标"的两段式分解可迁移到其他需要长程规划的离线任务——先在可靠区域里定锚点，再让策略逐级细化。

局限与展望¶

依赖数据里存在过渡区域：kitchen-partial 上失效正是因为数据集缺少跨子任务的完整轨迹，TRE 抽不出过渡区域；对覆盖稀疏、轨迹彼此不交叠的数据集，方法可能退化。
多处依赖聚类与超参：簇数 $N$ 靠 WCSS 选、FDI 阈值取 0、waysteps $H$ 等都需要设定，聚类质量直接影响过渡区域的好坏，论文未充分讨论这些选择的敏感性（消融集中在模块层面）。
流程偏复杂：在标准 HRL 之上又叠了 TRE/TI/TE 三个模块和多阶段训练，工程与调参成本不低；能否简化（如端到端学过渡区域）值得探索。
主要在状态空间=目标空间的设定下验证，对图像等高维观测、目标空间与状态空间不一致的场景还需进一步检验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用"过渡区域 + 决策级目标"把子目标可靠性问题重述为决策空间选择，角度新颖且有理论支撑
实验充分度: ⭐⭐⭐⭐ 9 基准 50 种子 + 四组对照消融，但超参/聚类敏感性分析偏少
写作质量: ⭐⭐⭐⭐ 动机用 Figure 1 讲得很清楚，但 TRE/TI/TE 三模块命名密集、初读需对照
价值: ⭐⭐⭐⭐ 为离线 HRL 的泛化噪声问题给出可落地方案，在最难的 ultra/CALVIN 上增益显著