跳转至

QHyer: Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL

会议: ICML 2026
arXiv: 2605.01862
代码: 未公开
领域: 强化学习 / 序列建模 / 离线目标条件 RL
关键词: Offline GCRL, Decision Transformer, Normalizing Flows, Mamba, 轨迹拼接

一句话总结

QHyer 用 Normalizing Flows 估计的状态依赖 Q 值取代 Decision Transformer 中的轨迹依赖 RTG,再叠加门控式 Attention-Mamba 混合骨干以实现内容自适应的历史压缩,在 OGBench/D4RL 的非马尔可夫与马尔可夫离线目标条件 RL 数据集上同时刷新 SOTA。

研究背景与动机

领域现状:离线目标条件强化学习(Offline GCRL)从静态数据集中学习"到达目标"的策略。当前两条主流路线:基于 Bellman 备份的价值方法(IQL/HIQL 等)和把决策视为序列建模的 Decision Transformer(DT)系。后者天然处理历史依赖,因此被认为更适合包含 non-Markovian 行为策略的真实数据集(如 OGBench play)。

现有痛点:把 DT 直接搬到 Offline GCRL 会撞两堵墙。其一,DT 用 RTG(Return-to-Go)作为条件信号,但稀疏目标奖励下 RTG 只剩"这条轨迹是否成功"的近似二值信号——同一个状态在成功轨迹中得 1、在失败轨迹中得 0,完全无法跨轨迹比较状态质量,于是失败演示里那些"局部有用的片段"再也拼不进新策略,stitching 能力崩塌。其二,纯注意力对时间结构不敏感;LSDT / DMixer 用固定窗的因果卷积补"局部分支",但 play 数据需要长记忆、noisy 数据只需短记忆,固定感受野要么浪费容量、要么截断关键依赖。

核心矛盾:这两个限制是耦合的。只换 Q 值留住 RTG-style 固定窗,仍然在 non-Markovian play 上吃卷积病;只换骨干留住 RTG,仍然解不开稀疏奖励下的 stitching 瓶颈。必须同时解决——既需要"状态依赖的价值信号",又需要"内容自适应的有效记忆"。

本文目标:(i) 给 DT 找一个能在稀疏目标奖励下区分状态质量的条件信号;(ii) 给骨干设计一种能按 token 动态调节记忆长度的时序模块。

切入角度:作者注意到目标可达 Q 函数 \(Q^\beta(s,a,g)=p^\beta_+(g\mid s,a)\) 表示"从 \((s,a)\) 到达目标 \(g\) 的概率",与轨迹无关——这正好是 stitching 需要的"轨迹无关价值度量"。同时 Mamba 的选择性 SSM 把离散化步长 \(\Delta_t\) 做成输入相关函数,可在不动结构的前提下让有效记忆按 token 漂移。两个观察拼起来正好对应两个限制。

核心 idea:用 Normalizing Flows 估计 MC Q-value 作为 conditioning token 取代 RTG,并用 Attention+Mamba 学习门控融合的混合骨干替换纯注意力,让 sequence modeling 真正适配 Offline GCRL。

方法详解

整体框架

QHyer 把每个时间步表示成 \((Q_t, [s_t;g], a_t)\) 三元组:\(Q_t=\log p_\theta(g\mid s_t,a_t)\) 是 NFs 给的"到达目标"对数概率,\([s_t;g]\) 是状态-目标拼接 token(保证目标信号每步可见且不增加序列长度从 \(3T\)\(4T\))。这个序列被送入 \(L\) 层 Hybrid Attention-Mamba block,每个 block 有两条并行分支(注意力做全局目标规划、Mamba 做时序压缩),输出由一个标量门 \(\alpha=\sigma(\mathbf{w}^\top x + b)\) 加权融合。训练端到端联合优化 NFs 似然、Q 期望分位回归与行为克隆。推理时两阶段自回归:先预测最大 Q,再以最大 Q 为条件生成 action。

关键设计

  1. NFs-based Q 值取代 RTG

    • 功能:给 DT 提供轨迹无关的状态-动作-目标价值信号,让模型能在失败演示中找到"高 Q 片段"进行 stitching。
    • 核心思路:用 coupling-layer NFs 建模条件密度 \(p_\theta(g\mid s,a)\),由可逆映射 \(f_\theta(\cdot;z)\) 与变量替换公式得到精确对数似然 \(Q^\beta_\theta(s,a,g)=\log p_0(f_\theta(g;z))+\log\bigl|\det\partial f_\theta(g;z)/\partial g\bigr|\)。再用期望分位回归 \(L^2_\tau(u)=|\tau-\mathds{1}(u<0)|\cdot u^2\)\(\tau\in(0.5,1)\))从 behavior \(Q^\beta\) 学一个 transformer 自己的 \(\hat Q_\phi(s,g)\),向分布内最大 Q 收敛(Theorem 3.1 给出偏差 \(\epsilon_\tau\)\(\tau\) 提升而下降)。
    • 设计动机:作者论证了为什么 CVAE(只能给 ELBO 下界)、Contrastive RL(密度比有目标相关偏移)、Diffusion(似然需 ODE+Hutchinson 估计引入方差)都不适合——它们要么不归一化、要么把"跨多目标的 Q-token 序列"扭曲。NFs 的三角 Jacobian 让对数密度精确且廉价,正是 transformer 跨目标 conditioning 所需的属性,作者实测 NFs 估计误差最低(Appendix G.4)。RTG 在稀疏奖励下覆盖率仅 25%,而 NFs Q 值条件下达 92%。
  2. Hybrid Attention-Mamba 骨干

    • 功能:用一条注意力分支处理全局目标导向推理,用一条 Mamba 分支做内容自适应的历史压缩,二者通过可学门加权融合。
    • 核心思路:Mamba 分支用因果卷积提取局部特征 \(x'_t\),再走选择性 SSM \(h_t=\bar A h_{t-1}+\bar B x'_t,\ y_t=Ch_t\),其中 \(\bar A_t=\exp(\Delta_t\cdot A)\)\(\Delta_t=\mathrm{softplus}(\mathrm{Linear}_\Delta(x'_t))\)。当 \(\Delta_t\) 小时 \(\bar A_t\approx 1\) 保留长历史(适合 play),\(\Delta_t\) 大时 \(\bar A_t\approx 0\) 只看局部(适合 noisy)。门 \(\alpha=\sigma(\mathbf w^\top x+b)\) 在两分支之间动态分配容量。
    • 设计动机:LSDT/DMixer 把卷积当局部分支时受困于固定核——卷积对 \(j<k\) 的影响是固定权重 \(w_j\)、超出即硬截断;Mamba 提供"输入相关的平滑遗忘",跨数据集自动调节有效记忆而无需手调感受野,这是固定窗结构根本做不到的。
  3. 拼接 State-Goal 分词 + 端到端三损失

    • 功能:把目标信息嵌入每个 timestep token,序列长度仍是 \(3T\),避免新增 token 带来注意力二次开销。
    • 核心思路:每步 token 序列为 \((Q_t,[s_t;g],a_t)\) 而非 \((Q_t,s_t,g,a_t)\)。训练损失 \(\mathcal L_{\text{QHyer}}=\lambda_{\text{critic}}\mathcal L_{\text{NFs}}+\lambda_{\text{BC}}\mathcal L_{\text{BC}}+\lambda_Q \mathcal L_Q\) 分别对应 NFs 极大似然、Q-conditioned 行为克隆与 transformer 端 Q 期望回归。
    • 设计动机:拼接而非分离 token 既维持目标可见性又压住计算开销,是工程上把 NFs Q 信号无缝接入 DT pipeline 的关键 trick。

损失函数 / 训练策略

NFs 用 hindsight relabeling 配合 \(-\log p_\theta(g\mid s_t,a_t)\) 做极大似然训练;transformer 端 BC 损失 \(\mathcal L_{\text{BC}}=-\mathbb E[\log\pi_\theta(a_t\mid Q_t,[s_t;g])]\);期望分位 \(\tau=0.9\) 用于低覆盖 play、\(\tau=0.95\) 用于高覆盖 noisy 数据。推理两阶段:先生成 \(\hat Q(s_t,g)\),再以其为条件生成 \(a_t\)

实验关键数据

主实验

OGBench manipulation(5 个 test goal,平均成功率 %)与 D4RL Maze(normalized score)。

数据集 任务 第二好 QHyer 增益
OGBench cube-play single GCIQL 68 84 +16
OGBench cube-play double GCIQL 40 56 +16
OGBench cube-noisy double GCIQL 23 30 +7
OGBench puzzle-play 4x5 GCIQL 14 31 +17
D4RL AntMaze-v2 large-play IQL 39.6 44.2 +4.6
D4RL AntMaze-v2 medium-diverse LSDT 75.8 94.0 +18.2
D4RL Maze2d medium QT 172.0 173.0 +1.0

总分:OGBench cube-play 24→152(HIQL 基线对比),AntMaze 总分 303.6→483.4,Maze2d 总分 136.5→291.5。在 RTG 系列(DT/EDT/DC)几乎归零的 large maze 上 QHyer 直接破局。

消融实验

配置 cube-single-play cube-single-noisy 结论
RTG + Attention(≈DT) RTG 失效
NFs Q + Attention only 74 60 缺时序自适应
NFs Q + Mamba only 80 91 缺全局推理
NFs Q + Hybrid(QHyer) 84 95 互补门控
Hybrid + No Q -- -- 退化为 BC
Hybrid + CVAE Q < CRL < CRL ELBO 下界扭曲
Hybrid + CRL Q < NFs < NFs 负采样偏差

期望分位 \(\tau\) 从 0.5 单调爬升到 0.9 最佳,超过 0.95 因覆盖不足而退化。

关键发现

  • 两个创新各自必要、组合最优:固定 NFs 换骨干、固定 RTG 换骨干、固定骨干换 Q 估计器,三套独立消融均显示 QHyer 的两个改动是叠加而非冗余。
  • Mamba 的 \(\Delta_t\) 真的"按数据形状"漂移:play 上 mean \(\Delta_t=0.38\)\(\bar A_t=0.92\),有效记忆约 12 步,门把 0.57 容量给 attention;noisy 上 \(\Delta_t=1.05\)\(\bar A_t=0.61\),有效记忆约 3 步,门把 0.58 给 Mamba。
  • NFs > CRL > CVAE > No-Q:精确归一化对数密度是 sequence modeling stitching 的关键瓶颈。

亮点与洞察

  • "两个 limitation 是耦合的" 论证非常干净:作者明确指出只解一边的失败模式(保持卷积的"非马尔可夫病"或保持 RTG 的"轨迹依赖瓶颈"),为同时改两处提供强动机,比常见"我们加了 A 又加了 B"叙事更有说服力。
  • NFs 选型的"结构性论证":把"为什么不能用 CVAE/CRL/Diffusion"上升到 transformer 跨多目标读 Q-token 这个具体场景的归一化需求,给出超越实验数字的设计原则——这种"在哪种使用场景下密度模型的属性才决定性"的分析很可迁移。
  • 门控 + Mamba 自适应 Δ 的"双层自适应":粗粒度由门在分支间分配容量,细粒度由 \(\Delta_t\) 按 token 调节记忆长度。这种"层级化的自适应性"是面对异质时间结构数据集的好范式,可迁移到机器人多任务、对话历史压缩等场景。

局限与展望

  • 在 visual-noisy 上仍受限:像素级 NFs 密度估计成为主要误差来源,Markovian 行为又抵消了非马尔可夫建模优势。
  • 理论分析基于确定性转移假设(继承自 R2CSL),扩展到随机环境是公开问题。
  • 训练成本高于纯 DT:NFs critic + Mamba SSM + expectile 三个组件叠加;论文未给详细 wall-clock 对比。
  • 期望分位 \(\tau\) 与覆盖 \(\tilde c\) 强耦合,跨数据集仍需手动选 \(\tau\in\{0.9,0.95\}\)

相关工作与启发

  • vs DT/EDT/DC/DMamba:都用 RTG 作条件,在稀疏目标奖励下退化为二值信号;QHyer 用 NFs Q 取代,stitching 能力质变。
  • vs QDT/CGDT/QT/Reinformer/VDT:仍保留 RTG,把 Q 当辅助损失或正则;QHyer 直接用 Q-token 替换 RTG,对稀疏目标奖励更彻底。
  • vs LSDT/DMixer:用固定核卷积补局部,受感受野硬约束;QHyer 用 Mamba 选择性 SSM 做"内容自适应"记忆,跨 play/noisy 不需手调。
  • vs HIQL/SAW/OTA:层级方法假设子目标间 Markovian 转移,在 play 数据上不成立;QHyer 直接序列建模天然处理 non-Markovian。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个把 NFs Q + Hybrid Attention-Mamba 用于 Offline GCRL,且把"两个限制耦合"的论证讲透。
  • 实验充分度: ⭐⭐⭐⭐⭐ OGBench + D4RL 双 benchmark、3 个 Q 估计器消融、3 个骨干消融、\(\tau\) 敏感性、\(\Delta_t\)/门权重可视化,闭环验证两个创新的必要性。
  • 写作质量: ⭐⭐⭐⭐⭐ "限制 → 根因 → 选择"的层层递进,NFs 选型的对比论证教科书级。
  • 价值: ⭐⭐⭐⭐ 给 Offline GCRL 注入了一条"序列建模 + 精确密度 Q"的可行路线,对机器人、长时程导航等下游有直接迁移价值。