跳转至

Offline Reinforcement Learning with Adaptive Feature Fusion

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=uD9UT0gHLH
代码: https://github.com/wangtieru2/QDFFDT (有)
领域: 离线强化学习 / 序列建模 / Decision Transformer
关键词: 离线RL, RCSL, Decision Transformer, 特征融合, 轨迹拼接

一句话总结

这篇论文针对 Decision Transformer 这类「把强化学习当序列建模」的方法容易过拟合历史次优子轨迹、拼不出更优轨迹的问题,提出 QDFFDT:用一个可学习的、随状态变化的融合系数,把「全局序列特征」和「局部单步马尔可夫特征」自适应地加权融合,再叠加 Q 学习模块做价值引导,在 D4RL 基准上达到 SOTA。

研究背景与动机

领域现状:离线强化学习只能从一份固定的、提前采集好的数据里学策略,不能和环境交互。近年来 Transformer 被引入这一领域,催生了 Return-Conditioned Supervised Learning(RCSL)范式——以 Decision Transformer(DT)为代表,把轨迹建模成 (回报-to-go, 状态, 动作) 的序列,根据历史上下文和目标回报来预测动作,把 RL 变成一个监督学习问题,因而训练稳定、数据效率高。

现有痛点:把 RL 当成纯序列建模有一个根本缺陷——模型会过拟合到历史子轨迹里那些具体的、往往是次优的动作。结果就是,哪怕你在评测时把目标回报设得很高,模型也合成不出对应的高质量动作序列。论文给了一个直观例子(图 2):在一个简单网格里存在两条训练轨迹 ABCDKAIJDE,DT 在前期能找到最优子段 ABCD,但走到状态 D 时,历史上下文会把它误导回训练数据里通往 K 的轨迹,从而错过真正最优的 ABCDE。把 DT 序列长度设为 1 得到的单步版本(SSDT)反而 100% 找到最优解,而标准 DT(K=3)成功率为 0。

核心矛盾:序列建模的目标(可靠复现训练集里出现过的轨迹)和 RL 的目标(把多条轨迹的最优片段拼起来、发现超越任何单条轨迹的新策略)本质上是错位的。已有一些工作意识到长序列依赖的问题,但要么缺乏灵活平衡全局/局部信息的能力,要么需要针对每个数据集做繁琐的超参调优。即便像 QT 那样引入 Q 函数做价值引导,由于其策略目标同时要优化动作价值又要约束策略贴近行为分布,行为克隆项依然会把前面的次优子轨迹影响压不下去。

本文目标:设计一种能在「利用长程上下文」和「优先单步最优决策」之间自适应取舍、且不依赖逐数据集调参的离线 RL 架构。

核心 idea:显式地把全局序列特征和局部马尔可夫特征分离成两路,再用一个依赖状态的可学习融合权重把它们自适应地组合起来——当某个状态的训练回报明显低于其可达的最优回报时,就降低对序列特征的依赖、转而信任单步特征;同时叠加 Q 学习模块提供显式的价值引导。

方法详解

整体框架

QDFFDT 的核心是一个双路特征融合的 Decision Transformer。输入是去掉动作 token 的轨迹片段 \(\tau_t = (\hat{R}_{t-K+1}, s_{t-K+1}, \dots, \hat{R}_t, s_t)\)(每一项是「回报-to-go + 状态」对),输出是当前时刻动作 \(a_t\)。整条流程分三步:先由一个「Alpha 网络」根据状态算出一个融合系数 \(\hat{\alpha}(s)\);再把同一份输入分别送进 Casual Transformer(提全局序列特征)和轻量 MLP(提局部单步特征),用 \(\hat{\alpha}\) 把两路特征加权融合、投影到动作空间;最后在监督式行为克隆损失之外,再挂一个 Q 学习模块做价值引导的策略改进。前两步组成 DFFDT,加上 Q 模块就是完整的 QDFFDT。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["轨迹输入<br/>(RTG, 状态) 序列"] --> B["自适应融合权重学习<br/>期望回归估上界 + Alpha网络出 α̂(s)"]
    A --> C["Casual Transformer<br/>全局序列特征 h_glo"]
    A --> D["MLP<br/>局部单步特征 h_loc"]
    B --> E["双特征融合<br/>h = (1-α̂)·h_loc + α̂·h_glo"]
    C --> E
    D --> E
    E --> F["投影到动作空间<br/>预测动作 a_t"]
    F --> G["Q增强RCSL优化<br/>行为克隆 + Q值引导策略改进"]

关键设计

1. 双特征融合架构:把全局与局部两种归纳偏置显式分开再融合

痛点很明确:纯序列建模会优先「续写」历史观察到的子轨迹,哪怕存在更好的动作;纯单步建模虽然能直接挑选高回报动作、利于轨迹拼接,但在 Atari 这类像素环境里,压缩后的状态表示常常信息不足,必须靠时序上下文补全。两者各有死穴,所以论文不二选一,而是把它们做成两条并行支路。具体地,每个「回报-状态」对 \((\hat{R}_t, s_t)\) 经一个轻量 MLP 得到局部表示 \(h^{\text{loc}}_t\),同时经自注意力(与 DT 相同)得到捕捉长程依赖的全局表示 \(h^{\text{glo}}_t\),两路再按融合系数线性组合:

\[h = (1 - \hat{\alpha}(s_t)) \cdot h^{\text{loc}}_t + \hat{\alpha}(s_t) \cdot h^{\text{glo}}_t\]

融合前两路特征都先做 Layer Normalization 对齐尺度,避免量纲不一致让某一路主导。这个结构本身就引入了一种「优先单步动态、同时不丢长程信息」的结构性偏置,是后面所有自适应行为的载体。

2. 自适应融合权重:用期望回归识别次优数据,动态决定信谁

光有两路还不够,关键是「在什么状态下该多信哪一路」。论文用期望回归(expectile regression)来估计某个状态下回报-to-go 的经验上界。给定 \(\sigma \in (0,1)\),期望回归通过非对称最小二乘 \(L^\sigma_2(u) = |\sigma - \mathbb{1}(u<0)| u^2\) 求解,当 \(\sigma > 0.5\) 时对偏大的样本赋更高权重。据此训练一个状态价值函数 \(V_\psi(s)\) 去逼近该状态可达回报的上界:\(L_V(\psi) = \mathbb{E}_{(s,\hat{R})\sim D}[L^\sigma_2(\hat{R} - V_\psi(s))]\)。注意这与 IQL 用期望回归逼近最优 Q 值不同,这里 \(V_\psi(s)\) 的作用是识别次优数据——当 \(V_\psi(s)\) 明显大于实际观测到的回报 \(\hat{R}(s)\),说明后续轨迹是次优的。

随后用一个 Alpha 网络产出序列特征的融合系数。它的损失把「次优程度」当作惩罚信号:

\[L_\alpha(\omega) = \mathbb{E}_{(s,\hat{R})\sim D}\left[\frac{\alpha_\omega(s) \cdot \max(V_\psi(s) - \hat{R}, 0)}{T}\right]\]

其中 \(T\) 是温度超参,\(\alpha_\omega(s) \in (0,1)\) 经 Sigmoid 输出,最终系数 \(\hat{\alpha}(s) = \alpha_{\min} + (1-\alpha_{\min})\cdot \alpha_\omega(s)\),并用 \(\alpha_{\min}\) 兜底一个最小序列权重。机制很巧妙:训练初期把 Alpha 网络最后一层初始化为零权重 + 大正偏置(如 5),让 \(\alpha_\omega(s) \approx 1\),先充分依赖序列建模;之后一旦某状态 \(V_\psi(s) > \hat{R}\)(即数据次优),损失就压低 \(\alpha_\omega(s)\),把权重让给局部马尔可夫特征;当 \(V_\psi(s) \le \hat{R}\)(高质量轨迹)时惩罚项消失,系数保持高位、保留序列建模的贡献。于是「该不该信历史」这件事变成了数据驱动、逐状态自适应,省掉了逐数据集手调权重的麻烦。

3. Q 增强的 RCSL 优化:用动态规划的价值引导做显式策略改进

RCSL 的 RTG 信号常常无法准确反映状态-动作对的真实价值,目标 RTG 与最优 RTG 的错配会让 RCSL 收敛不到理论最优。为此论文叠加一个 Q 学习模块:用五个网络(两个 Q 网络 \(Q_{\phi_1}, Q_{\phi_2}\)、两个目标 Q 网络、一个目标策略网络),借鉴 QT 的实现做 TD 学习,目标值 \(\hat{Q}_m\) 支持 n-step 或 1-step Bellman 两种形式(实践中手动二选一,论文发现 QT 宣称的 n-step 一定更好并不总成立)。最终策略损失是行为克隆项和价值引导项的加权和:

\[L_\pi(\theta) = \lambda \cdot L_{\text{DFFDT}}(\theta) - \mathbb{E}_{\tau_t \sim D}\mathbb{E}_{s_i \sim \tau_t} Q_\phi(s_i, \pi_\theta(\tau_t)_i)\]

其中 \(\lambda\) 平衡监督学习与价值改进,\(L_{\text{DFFDT}}\) 是预测动作与真值动作的 MSE。仿照 TD3+BC,Q 函数做了归一化以缓解不同离线数据集间的尺度失配、避免两个目标的梯度失衡。这一项让策略不只是模仿数据,而是被显式地推向高价值区域,弥补纯回报条件信号不可靠的短板。

损失函数 / 训练策略

整体优化三类损失协同:价值函数 \(V_\psi\) 的期望回归损失 \(L_V\)、Alpha 网络的次优惩罚损失 \(L_\alpha\)、以及策略损失 \(L_\pi\)(行为克隆 MSE + Q 值引导项)。Q 网络按标准 TD 学习更新。收敛性方面,作者论证 DFFDT(RCSL)部分继承了 QT 已验证的收敛到行为策略的性质,Q 增强部分遵循动态规划,二者组合虽无形式化证明但有理论根据并经实验验证。

实验关键数据

主实验

在 D4RL 基准(Gym-MuJoCo、Maze2D、AntMaze、Kitchen、Adroit)上对比大量 value-based、RCSL 及扩散/VAE 类方法,报告归一化分数。下表摘取各域平均分:

任务域 指标 QDFFDT 之前最好(基线) 提升
Gym MuJoCo(9 任务平均) 归一化分数 94.3 90.3 (QCS) +4.0
Maze2D(3 任务平均) 归一化分数 159.8 154.4 (QT) +5.4
AntMaze(6 任务平均) 归一化分数 88.3 80.4 (QCS) +7.9
Kitchen(2 任务平均) 归一化分数 64.9 61.6 (D-QL) +3.3
Adroit(2 任务平均) 归一化分数 94.5 90.1 (QCS) +4.4

在带马尔可夫性的次优数据集(medium、medium-replay)上对 QT 提升尤为明显,例如 halfcheetah-m 从 QT 的 51.4 提到 65.7、hopper-m 从 96.9 提到 101.4。在需要长程推理的 Maze2D / AntMaze 上同样领先,且无需 LSDT、QCS 所要求的显式目标条件。

消融实验

特征分支消融(图 4,定性结论):

配置 表现 说明
纯序列(DT / QRC-Transformer) 全可观测任务上偏弱 易受历史次优片段拖累,拼接与局部特征提取都受损
纯单步(RC-MLP / QRC-MLP) Gym、AntMaze 上更强 强调即时信息,利于轨迹拼接
融合(DFFDT / QDFFDT) 各基准一致最优 在 Atari 部分可观测任务上靠序列补全信息,在全可观测任务上靠局部避开次优

值得注意的是在 Atari 这类高维像素、压缩导致部分可观测的环境,序列建模反而占优(靠历史上下文补回压缩损失的信息),说明两路谁更重要确实因环境而异,正好支撑了自适应融合的必要性。

动态 vs 静态融合系数(表 3,Maze2D + AntMaze 平均):

配置 平均分 说明
\(\hat{\alpha}=0\)(纯局部) 86.9 完全靠单步信息
\(\hat{\alpha}=0.25\) 80.4 固定低序列权重
\(\hat{\alpha}=0.5\) 85.0 固定均衡
\(\hat{\alpha}=0.75\) 94.9 固定高序列权重
\(\hat{\alpha}=1\)(纯序列) 101.2 完全靠序列
QDFFDT(动态学习) 105.3 自适应系数

关键发现

  • 动态学习的融合系数(105.3)高于任何固定取值,且固定系数要在不同数据集间取得好成绩必须逐个手调,泛化性差——这正是自适应机制的价值所在。
  • 环境的可观测性决定了序列与单步哪路更关键:全可观测任务里局部特征更可靠,部分可观测(Atari 像素)任务里序列特征更重要,固定权重无法同时照顾。
  • 把 Q 价值学习并入纯回报条件模型(相比 DT、LSDT)在稀疏奖励环境(AntMaze)带来显著增益,凸显价值引导的重要性。

亮点与洞察

  • 用期望回归当「次优探测器」而非「最优 Q 估计器」:同样的统计工具,IQL 用它逼近最优 Q 值,本文却用 \(V_\psi(s)\) 与实际回报的差来判断数据好坏,进而调度两路特征——同一工具换个用途,思路很可迁移。
  • Alpha 网络的零权重大偏置初始化是个实用 trick:让训练初期先信序列建模、随后被数据驱动地逐步降权,给了一个平滑的「先全局后局部」课程,避免一上来两路打架。
  • 把「全局 vs 局部」的归纳偏置做成可学习的连续权重,比起 EDT 那种动态调上下文长度、或纯把序列截断到 1,给了更细粒度、状态级别的控制,也避免了脆弱的逐数据集超参调优。

局限与展望

  • 论文自承组合方法(DFFDT + Q 增强)缺乏形式化收敛证明,只靠分项的理论根据加实验验证。
  • n-step 与 1-step Bellman 仍需手动二选一,说明价值估计这一环并非完全免调参,自适应只解决了融合权重那一侧。
  • 期望回归的 \(\sigma\)、温度 \(T\)\(\alpha_{\min}\)\(\lambda\) 等仍是超参,虽然论文强调省掉了「逐数据集」调权重,但这些全局超参的敏感性论文正文未充分展开。
  • 在线/真实机器人等更复杂场景的迁移性尚未验证,实验集中在 D4RL + Atari 仿真基准。

相关工作与启发

  • vs DT / DC / EDT(纯 RCSL):它们把 RL 当纯序列建模,DC 换卷积骨干、EDT 动态调上下文长度,但都没解决「过拟合历史次优子轨迹」的根本矛盾;本文显式拆出局部单步支路并自适应降权,直击轨迹拼接难题。
  • vs QT / QCS(RCSL + 价值):QT 把轨迹建模与 Q 值预测结合、QCS 自适应注入 Q 引导,但 QT 的策略目标里行为克隆项压不住次优子轨迹影响;本文先在特征层面用融合权重削弱次优序列特征,再叠加 Q 引导,从两个层面而非单靠价值项来对抗次优历史。
  • vs IQL:同样用期望回归,IQL 用来逼近最优 Q 值做策略改进,本文用来估计回报上界、识别次优数据以调度特征融合,用途完全不同。

评分

  • 新颖性: ⭐⭐⭐⭐ 「可学习的状态级全局/局部特征融合权重 + 期望回归当次优探测器」组合清晰且有动机,但各组件(DT、Q 增强、期望回归)多为已有积木的重组。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 D4RL 五大域 + Atari,主表对比基线丰富,动态 vs 静态系数与分支消融都有,但部分消融只给定性图、超参敏感性偏弱。
  • 写作质量: ⭐⭐⭐⭐ 动机用网格反例讲得直观,方法公式完整;个别记号(Alpha 网络与 Q 模块的交互)需对照原文。
  • 价值: ⭐⭐⭐⭐ 免逐数据集调参、在次优与稀疏奖励数据上稳定领先,对落地离线 RL 有实用意义。