QHyer: Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL¶

会议: ICML 2026
arXiv: 2605.01862
代码: 未公开
领域: 强化学习 / 序列建模 / 离线目标条件 RL
关键词: Offline GCRL, Decision Transformer, Normalizing Flows, Mamba, 轨迹拼接

一句话总结¶

QHyer 用 Normalizing Flows 估计的状态依赖 Q 值取代 Decision Transformer 中的轨迹依赖 RTG，再叠加门控式 Attention-Mamba 混合骨干以实现内容自适应的历史压缩，在 OGBench/D4RL 的非马尔可夫与马尔可夫离线目标条件 RL 数据集上同时刷新 SOTA。

研究背景与动机¶

领域现状：离线目标条件强化学习（Offline GCRL）从静态数据集中学习"到达目标"的策略。当前两条主流路线：基于 Bellman 备份的价值方法（IQL/HIQL 等）和把决策视为序列建模的 Decision Transformer（DT）系。后者天然处理历史依赖，因此被认为更适合包含 non-Markovian 行为策略的真实数据集（如 OGBench play）。

现有痛点：把 DT 直接搬到 Offline GCRL 会撞两堵墙。其一，DT 用 RTG（Return-to-Go）作为条件信号，但稀疏目标奖励下 RTG 只剩"这条轨迹是否成功"的近似二值信号——同一个状态在成功轨迹中得 1、在失败轨迹中得 0，完全无法跨轨迹比较状态质量，于是失败演示里那些"局部有用的片段"再也拼不进新策略，stitching 能力崩塌。其二，纯注意力对时间结构不敏感；LSDT / DMixer 用固定窗的因果卷积补"局部分支"，但 play 数据需要长记忆、noisy 数据只需短记忆，固定感受野要么浪费容量、要么截断关键依赖。

核心矛盾：这两个限制是耦合的。只换 Q 值留住 RTG-style 固定窗，仍然在 non-Markovian play 上吃卷积病；只换骨干留住 RTG，仍然解不开稀疏奖励下的 stitching 瓶颈。必须同时解决——既需要"状态依赖的价值信号"，又需要"内容自适应的有效记忆"。

本文目标：(i) 给 DT 找一个能在稀疏目标奖励下区分状态质量的条件信号；(ii) 给骨干设计一种能按 token 动态调节记忆长度的时序模块。

切入角度：作者注意到目标可达 Q 函数 \(Q^\beta(s,a,g)=p^\beta_+(g\mid s,a)\) 表示"从 \((s,a)\) 到达目标 \(g\) 的概率"，与轨迹无关——这正好是 stitching 需要的"轨迹无关价值度量"。同时 Mamba 的选择性 SSM 把离散化步长 \(\Delta_t\) 做成输入相关函数，可在不动结构的前提下让有效记忆按 token 漂移。两个观察拼起来正好对应两个限制。

核心 idea：用 Normalizing Flows 估计 MC Q-value 作为 conditioning token 取代 RTG，并用 Attention+Mamba 学习门控融合的混合骨干替换纯注意力，让 sequence modeling 真正适配 Offline GCRL。

方法详解¶

整体框架¶

QHyer 把每个时间步表示成 \((Q_t, [s_t;g], a_t)\) 三元组：\(Q_t=\log p_\theta(g\mid s_t,a_t)\) 是 NFs 给的"到达目标"对数概率，\([s_t;g]\) 是状态-目标拼接 token（保证目标信号每步可见且不增加序列长度从 \(3T\) 到 \(4T\)）。这个序列被送入 \(L\) 层 Hybrid Attention-Mamba block，每个 block 有两条并行分支（注意力做全局目标规划、Mamba 做时序压缩），输出由一个标量门 \(\alpha=\sigma(\mathbf{w}^\top x + b)\) 加权融合。训练端到端联合优化 NFs 似然、Q 期望分位回归与行为克隆。推理时两阶段自回归：先预测最大 Q，再以最大 Q 为条件生成 action。

关键设计¶

NFs-based Q 值取代 RTG：
- 功能：给 DT 提供轨迹无关的状态-动作-目标价值信号，让模型能在失败演示中找到"高 Q 片段"进行 stitching。
- 核心思路：用 coupling-layer NFs 建模条件密度 \(p_\theta(g\mid s,a)\)，由可逆映射 \(f_\theta(\cdot;z)\) 与变量替换公式得到精确对数似然 \(Q^\beta_\theta(s,a,g)=\log p_0(f_\theta(g;z))+\log\bigl|\det\partial f_\theta(g;z)/\partial g\bigr|\)。再用期望分位回归 \(L^2_\tau(u)=|\tau-\mathds{1}(u<0)|\cdot u^2\)（\(\tau\in(0.5,1)\)）从 behavior \(Q^\beta\) 学一个 transformer 自己的 \(\hat Q_\phi(s,g)\)，向分布内最大 Q 收敛（Theorem 3.1 给出偏差 \(\epsilon_\tau\) 随 \(\tau\) 提升而下降）。
- 设计动机：作者论证了为什么 CVAE（只能给 ELBO 下界）、Contrastive RL（密度比有目标相关偏移）、Diffusion（似然需 ODE+Hutchinson 估计引入方差）都不适合——它们要么不归一化、要么把"跨多目标的 Q-token 序列"扭曲。NFs 的三角 Jacobian 让对数密度精确且廉价，正是 transformer 跨目标 conditioning 所需的属性，作者实测 NFs 估计误差最低（Appendix G.4）。RTG 在稀疏奖励下覆盖率仅 25%，而 NFs Q 值条件下达 92%。
Hybrid Attention-Mamba 骨干：
- 功能：用一条注意力分支处理全局目标导向推理，用一条 Mamba 分支做内容自适应的历史压缩，二者通过可学门加权融合。
- 核心思路：Mamba 分支用因果卷积提取局部特征 \(x'_t\)，再走选择性 SSM \(h_t=\bar A h_{t-1}+\bar B x'_t,\ y_t=Ch_t\)，其中 \(\bar A_t=\exp(\Delta_t\cdot A)\) 且 \(\Delta_t=\mathrm{softplus}(\mathrm{Linear}_\Delta(x'_t))\)。当 \(\Delta_t\) 小时 \(\bar A_t\approx 1\) 保留长历史（适合 play），\(\Delta_t\) 大时 \(\bar A_t\approx 0\) 只看局部（适合 noisy）。门 \(\alpha=\sigma(\mathbf w^\top x+b)\) 在两分支之间动态分配容量。
- 设计动机：LSDT/DMixer 把卷积当局部分支时受困于固定核——卷积对 \(j<k\) 的影响是固定权重 \(w_j\)、超出即硬截断；Mamba 提供"输入相关的平滑遗忘"，跨数据集自动调节有效记忆而无需手调感受野，这是固定窗结构根本做不到的。
拼接 State-Goal 分词 + 端到端三损失：
- 功能：把目标信息嵌入每个 timestep token，序列长度仍是 \(3T\)，避免新增 token 带来注意力二次开销。
- 核心思路：每步 token 序列为 \((Q_t,[s_t;g],a_t)\) 而非 \((Q_t,s_t,g,a_t)\)。训练损失 \(\mathcal L_{\text{QHyer}}=\lambda_{\text{critic}}\mathcal L_{\text{NFs}}+\lambda_{\text{BC}}\mathcal L_{\text{BC}}+\lambda_Q \mathcal L_Q\) 分别对应 NFs 极大似然、Q-conditioned 行为克隆与 transformer 端 Q 期望回归。
- 设计动机：拼接而非分离 token 既维持目标可见性又压住计算开销，是工程上把 NFs Q 信号无缝接入 DT pipeline 的关键 trick。

损失函数 / 训练策略¶

NFs 用 hindsight relabeling 配合 \(-\log p_\theta(g\mid s_t,a_t)\) 做极大似然训练；transformer 端 BC 损失 \(\mathcal L_{\text{BC}}=-\mathbb E[\log\pi_\theta(a_t\mid Q_t,[s_t;g])]\)；期望分位 \(\tau=0.9\) 用于低覆盖 play、\(\tau=0.95\) 用于高覆盖 noisy 数据。推理两阶段：先生成 \(\hat Q(s_t,g)\)，再以其为条件生成 \(a_t\)。

实验关键数据¶

主实验¶

OGBench manipulation（5 个 test goal，平均成功率 %）与 D4RL Maze（normalized score）。

数据集	任务	第二好	QHyer	增益
OGBench cube-play	single	GCIQL 68	84	+16
OGBench cube-play	double	GCIQL 40	56	+16
OGBench cube-noisy	double	GCIQL 23	30	+7
OGBench puzzle-play	4x5	GCIQL 14	31	+17
D4RL AntMaze-v2	large-play	IQL 39.6	44.2	+4.6
D4RL AntMaze-v2	medium-diverse	LSDT 75.8	94.0	+18.2
D4RL Maze2d	medium	QT 172.0	173.0	+1.0

总分：OGBench cube-play 24→152（HIQL 基线对比），AntMaze 总分 303.6→483.4，Maze2d 总分 136.5→291.5。在 RTG 系列（DT/EDT/DC）几乎归零的 large maze 上 QHyer 直接破局。

消融实验¶

配置	cube-single-play	cube-single-noisy	结论
RTG + Attention（≈DT）	低	低	RTG 失效
NFs Q + Attention only	74	60	缺时序自适应
NFs Q + Mamba only	80	91	缺全局推理
NFs Q + Hybrid（QHyer）	84	95	互补门控
Hybrid + No Q	--	--	退化为 BC
Hybrid + CVAE Q	< CRL	< CRL	ELBO 下界扭曲
Hybrid + CRL Q	< NFs	< NFs	负采样偏差

期望分位 \(\tau\) 从 0.5 单调爬升到 0.9 最佳，超过 0.95 因覆盖不足而退化。

关键发现¶

两个创新各自必要、组合最优：固定 NFs 换骨干、固定 RTG 换骨干、固定骨干换 Q 估计器，三套独立消融均显示 QHyer 的两个改动是叠加而非冗余。
Mamba 的 \(\Delta_t\) 真的"按数据形状"漂移：play 上 mean \(\Delta_t=0.38\)、\(\bar A_t=0.92\)，有效记忆约 12 步，门把 0.57 容量给 attention；noisy 上 \(\Delta_t=1.05\)、\(\bar A_t=0.61\)，有效记忆约 3 步，门把 0.58 给 Mamba。
NFs > CRL > CVAE > No-Q：精确归一化对数密度是 sequence modeling stitching 的关键瓶颈。

亮点与洞察¶

"两个 limitation 是耦合的" 论证非常干净：作者明确指出只解一边的失败模式（保持卷积的"非马尔可夫病"或保持 RTG 的"轨迹依赖瓶颈"），为同时改两处提供强动机，比常见"我们加了 A 又加了 B"叙事更有说服力。
NFs 选型的"结构性论证"：把"为什么不能用 CVAE/CRL/Diffusion"上升到 transformer 跨多目标读 Q-token 这个具体场景的归一化需求，给出超越实验数字的设计原则——这种"在哪种使用场景下密度模型的属性才决定性"的分析很可迁移。
门控 + Mamba 自适应 Δ 的"双层自适应"：粗粒度由门在分支间分配容量，细粒度由 \(\Delta_t\) 按 token 调节记忆长度。这种"层级化的自适应性"是面对异质时间结构数据集的好范式，可迁移到机器人多任务、对话历史压缩等场景。

局限与展望¶

在 visual-noisy 上仍受限：像素级 NFs 密度估计成为主要误差来源，Markovian 行为又抵消了非马尔可夫建模优势。
理论分析基于确定性转移假设（继承自 R2CSL），扩展到随机环境是公开问题。
训练成本高于纯 DT：NFs critic + Mamba SSM + expectile 三个组件叠加；论文未给详细 wall-clock 对比。
期望分位 \(\tau\) 与覆盖 \(\tilde c\) 强耦合，跨数据集仍需手动选 \(\tau\in\{0.9,0.95\}\)。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把 NFs Q + Hybrid Attention-Mamba 用于 Offline GCRL，且把"两个限制耦合"的论证讲透。
实验充分度: ⭐⭐⭐⭐⭐ OGBench + D4RL 双 benchmark、3 个 Q 估计器消融、3 个骨干消融、\(\tau\) 敏感性、\(\Delta_t\)/门权重可视化，闭环验证两个创新的必要性。
写作质量: ⭐⭐⭐⭐⭐ "限制 → 根因 → 选择"的层层递进，NFs 选型的对比论证教科书级。
价值: ⭐⭐⭐⭐ 给 Offline GCRL 注入了一条"序列建模 + 精确密度 Q"的可行路线，对机器人、长时程导航等下游有直接迁移价值。