Dual Advantage Fields¶
会议: ICML 2026 Workshop on Decision Making
arXiv: 2606.04188
代码: 未公开(ICML 2026 Workshop 论文)
领域: 强化学习 / 离线目标条件 RL
关键词: 离线 GCRL、对偶目标表示、双线性价值、优势加权回归、策略抽取
一句话总结¶
本文观察到双线性目标条件价值模型 \(V_\theta(s,g)=\psi_\theta(s)^\top\phi_\theta(g)\) 中,目标嵌入 \(\phi_\theta(g)\) 恰好就是价值场对状态嵌入的梯度方向,于是用一个 "动作特征位移预测器" \(u_\xi(s,a)\approx\gamma\psi(s')-\psi(s)\) 与目标嵌入做内积,得到一个免学习 Q 网络的局部优势分数,在 OGBench 长程导航 + 操控 + 谜题任务上把 RLiable 聚合指标全面拉高。
研究背景与动机¶
领域现状:离线目标条件强化学习(GCRL)要同时解决两件事:(1) 长程可达性——从固定数据集里推断哪些状态之间能跨多步连通,从而把不同轨迹片段"缝合"起来;(2) 局部动作选择——在当前状态下从若干可选动作里挑出最有利于到达目标的那一个。近期 dual goal representation(Park et al. 2024 等)用双线性势函数 \(V_\theta(s,g)=\psi_\theta(s)^\top\phi_\theta(g)\) 漂亮地解决了长程可达性——它编码温度结构、支持跨轨迹缝合、能泛化到未见 \((s,g)\) 对。
现有痛点:价值面 \(V_\theta(s,g)\) 只告诉你"当前状态对这个目标有多好",没有告诉你哪个动作比另一个更好。两个不同动作 \(a_1,a_2\) 从同一 \(s\) 出发共享同样的 \(V_\theta(s,g)\),但只有一个真正推动 agent 向目标移动——这是个全局价值 vs 局部优势的不匹配。现有方案要么再训一个目标条件 Q 网络(开销大、和价值表示割裂),要么用层级子目标做高低双策略(HIQL)——后者在长程导航上强,但在需要 "先做夹爪预抓取、再去目标位置" 这种局部反直觉控制的操控任务上弱(直接指向终点反而不对)。
核心矛盾:本想要 "保留对偶表示的全局缝合能力 + 获得一个不需要额外 Q 网络的局部动作比较信号"。如果能从 \(\phi_\theta(g)\) 这个已经训好的目标嵌入里直接读出 "局部优势方向",就能用一个 actor-free 的轻量机制替代单独 Q 网络。
本文目标:(1) 把对偶表示的全局价值场和一个新提出的"局部优势场"配对;(2) 设计 actor-free 的策略抽取目标;(3) 在 OGBench 全套(locomotion + manipulation + puzzle)上验证它能否在 hierarchical 和 quasimetric 两大门派之间取得更一致的表现。
切入角度:在双线性参数化下,价值场对状态嵌入的梯度有简洁闭式:\(\nabla_\psi V_\theta(s,g)=\phi_\theta(g)\)。所以目标嵌入本身就是 "在表示空间中价值上升最快的方向"。一个动作的好坏,可以由它在 \(\psi\)-空间中诱发的位移 \(\Delta\psi\) 和目标方向 \(\phi(g)\) 的内积衡量——这把策略改进变成了表示空间中的几何对齐问题。
核心 idea:学一个 action-effect 模型 \(u_\xi(s,a)\approx\gamma\psi(s')-\psi(s)\),定义 Dual Advantage Field 分数 \(z_\theta(s,a,g)=u_\xi(s,a)^\top\phi_\theta(g)\),再加上 reward 项就是模型诱导的 Bellman 优势;用它做优势加权回归(AWR)就完成策略抽取,全程不需要训目标条件 Q 网络。
方法详解¶
整体框架¶
DAF 把离线 GCRL 拆成三部分模型:(1) 双线性临界网络 \(V_\theta(s,g)=\psi_\theta(s)^\top\phi_\theta(g)\)(用 IQL 的 expectile loss 训);(2) 动作位移预测器 \(u_\xi(s,a)\)(用 sg-stop 的回归损失训);(3) 策略 \(\pi_\omega(a|s,c)\)(用 DAF 分数做权重的 AWR 训)。训练时单批次内并行更新这三者,外加 twin critics \(Q_\theta^{(1)},Q_\theta^{(2)}\) 做悲观估计,目标网络做 Bellman backup 稳定。推断时直接采样 \(\pi_\omega\),不需要在线规划、不需要 maxQ 操作。
整个核心观察是 Proposition 3.1:双线性 \(V\) 关于 \(\psi\) 的梯度等于 \(\phi(g)\),因此任意一步转移的价值差 \(V(s',g)-V(s,g)=\phi(g)^\top(\psi(s')-\psi(s))\) 退化为一个内积。
关键设计¶
-
DAF 分数:把 Bellman 优势写成 "位移 · 梯度":
- 功能:给每个离线样本 \((s,a,s',g)\) 计算一个标量分数 \(\hat{A}_\theta(s,a,s',g)=r(s,a,g)+\phi_\theta(g)^\top(\gamma\psi_\theta(s')-\psi_\theta(s))\),作为局部优势信号。
- 核心思路:在双线性模型下把 \(\gamma V_\theta(s',g)-V_\theta(s,g)\) 直接展开为 \(\phi_\theta(g)^\top(\gamma\psi_\theta(s')-\psi_\theta(s))\)(公式 7),把 GCRL 的优势写成了"动作引起的特征位移"与"目标方向"的内积。在 realizable 情形下(即 \(V^\pi=\psi^\top\phi\) 精确成立),这与真 Bellman 优势 \(A^\pi(s,a,g)\) 严格相等(Corollary 3.2 + Appendix F.1),所以基于它做 AWR 是标准的策略改进步骤。
- 设计动机:传统做法要么训 Q 网络(昂贵、和 \(V\) 表示割裂、bootstrap 误差累积),要么用 V 的差分(仍需要 \(s'\),对随机环境敏感);DAF 把 "动作如何改变特征" 这一项独立学习成 \(u_\xi(s,a)\),然后用闭式内积合成优势,重用了对偶临界的几何而不是重复学习。
-
Action-effect 模型 \(u_\xi(s,a)\):把 \(s'\) 依赖移到训练时:
- 功能:预测一个动作在表示空间中诱发的折扣位移 \(u_\xi(s,a)\approx\mathbb{E}_{s'\sim p(\cdot|s,a)}[\gamma\psi_\theta(s')-\psi_\theta(s)]\)。
- 核心思路:训练目标 \(\mathcal{L}_{\mathrm{ae}}=\mathbb{E}[\|u_\xi(s,a)-\mathrm{sg}(\gamma\psi_\theta(s')-\psi_\theta(s))\|_2^2]\),其中 \(\mathrm{sg}\) 是 stop-gradient,保证 \(u_\xi\) 跟踪固定的目标特征动力学,不会反向干扰 \(\psi\) 的训练。推断 / 策略抽取时直接用 \(u_\xi(s,a)\),不再需要环境模型给 \(s'\)。
- 设计动机:如果直接用样本 \(s'\) 计算 \(\hat{A}\),在随机环境下每个 \((s,a)\) 只有一条样本,方差大;学一个回归模型 \(u_\xi\) 等价于对 \(s'\) 做了隐式期望,方差小且能在线生成无 \(s'\) 的优势分数。同时这一步把 "动作-状态" 转移与 "价值-目标" 完全解耦,模型可以分别用合适的归纳偏置(如 MLP / Transformer)。
-
Actor-free 耦合 + AWR 策略抽取:
- 功能:把 DAF 分数 \(z_\theta(s,a,g)=u_\xi(s,a)^\top\phi_\theta(g)\) 转换成 softmax 权重 \(w_\theta=\min\{\exp(\alpha z_\theta),W_{\max}\}\),然后训练 \(\pi_\omega\) 最小化 \(-\mathbb{E}[w_\theta\log\pi_\omega(a|s,c)]\),等价于带温度 \(\alpha\) 的优势加权行为克隆。
- 核心思路:因为 \(z_\theta\) 不依赖 \(\omega\),policy loss 退化成简单的加权 BC——上权那些 "局部 \(\psi\) 位移与目标方向对齐" 的数据集动作。同时引入 Perrin-Gilbert 的 actor-free 耦合(Appendix E)把 \(V_\theta\) 与 \(z_\theta\) 通过一个一致性损失绑定,避免对 \(\max_a Q\) 的脆弱依赖;这是连续控制下的稳定技巧。
- 设计动机:训目标条件 Q 网络需要面对 \(\max_a Q\) 的高估问题(尤其是离线场景),DAF 完全绕开——用对偶表示直接给优势打分,再用 AWR 做行为克隆式的策略改进。在 OGBench 的实证上,这种"无 Q 单 V + 局部优势"结构比 HIQL 的 hierarchical 方案更稳。
损失函数 / 训练策略¶
总损失:(1) Bellman/expectile loss 训 \(V_\theta=\psi^\top\phi\) + twin \(Q^{(j)}\);(2) \(\mathcal{L}_{\mathrm{ae}}\) 训 \(u_\xi\);(3) AWR loss 训 \(\pi_\omega\);(4) Actor-free 耦合 loss 连接 \(V_\theta\) 与 \(z_\theta\)。超参 \(\alpha\) 控温度,\(W_{\max}\) 防爆炸,IQL 的 expectile \(\tau>0.5\)。
实验关键数据¶
主实验¶
OGBench 全套,state-based,对比 HIQL、OTA、MQE、CRL(含 DUAL 变体)、GCIQL、GCIVL(含 DUAL 变体),用 [0,1] 成功率,每个数值是若干 seed 的均值 ± 标准差,95% 区间内的最高值加粗。
| 环境 | 数据集 | 维度 | DAF | HIQL | OTA | MQE | CRL | CRL DUAL | GCIQL |
|---|---|---|---|---|---|---|---|---|---|
| humanoidmaze | navigate | medium | 0.93±0.03 | 0.91±0.01 | 0.95±0.01 | 0.49±0.09 | 0.59±0.03 | 0.62±0.03 | 0.31±0.04 |
| humanoidmaze | navigate | large | 0.66±0.03 | 0.45±0.04 | 0.83±0.03 | 0.20±0.07 | 0.26±0.03 | 0.21±0.05 | 0.04±0.01 |
| humanoidmaze | stitch | medium | 0.90±0.04 | 0.86±0.03 | 0.92±0.01 | 0.62±0.09 | 0.53±0.03 | 0.57±0.01 | 0.15±0.03 |
| humanoidmaze | stitch | large | 0.48±0.06 | 0.32±0.04 | 0.43±0.04 | 0.18±0.03 | 0.11±0.02 | 0.06±0.03 | 0.02±0.00 |
| antmaze | navigate | teleport | 0.51±0.08 | 0.46±0.03 | 0.53±0.03 | 0.49±0.04 | 0.60±0.01 | 0.57±0.04 | — |
可以看到 DAF 在 humanoidmaze-stitch-large 这种"需要把短轨迹拼成长轨迹"的最难设定上比第二名 OTA 高了 5 个百分点,比 HIQL 高 16 个百分点。在 navigate 任务上与 OTA 持平或略低(OTA 是专门为高层子目标设计的),但 DAF 不用 hierarchical 结构。
局部反直觉行为可视化(cube-single 操控任务)¶
| 方法 | 在 cube 周围 (pre-grasp) 的高层方向 | 行为含义 |
|---|---|---|
| OTA | 指向终点 placement 位置 | 试图直接推过去,但夹爪未抓握 → 失败 |
| DAF | 指向 cube 自身 | 先去抓握,再考虑放置 → 成功 |
通过线性探针把高层潜在输出 \(h_m(\tilde{s}_i,g)\) 解码到 XY 平面,可以直观看到 DAF 在 cube 附近产生"指向 cube"的向量场(pre-grasp 行为),而 OTA 产生"指向终点"的向量场——本质上是 DAF 学到了局部子目标 ≠ 最终目标的几何。
关键发现¶
- DAF 的优势在 stitch 数据集上最大:navigate 数据集是噪声专家轨迹,全局价值已经足够好;stitch 数据集要求把短片段缝起来,需要"局部能挑出真正推进的动作"——这正是 DAF 的设计目标,所以提升最显著。
- manipulation 任务上的胜出来自局部几何:cube-single 这种需要 pre-grasp 的任务,hierarchical 方法(OTA / HIQL)很容易高层错指方向;DAF 用 \(\phi(g)\) 的局部梯度自然产生预抓取行为,不需要额外的子目标解码。
- DUAL 变体(CRL DUAL / GCIVL DUAL)不一定比原版好:单纯把 dual goal representation 套到现有方法上提升有限——关键是要像 DAF 一样用对偶表示的几何来生成动作优势,而不只是用它当个状态表示。
- scaling 上有清晰趋势:在 humanoidmaze-large 这种最大尺寸上,DAF 与 HIQL 的差距从 medium 的 +3% 拉到 +21%,说明 DAF 的局部优势越在长程任务越关键。
亮点与洞察¶
- "目标嵌入 = 价值梯度方向" 是个非常优雅的几何观察:双线性参数化下 \(\nabla_\psi V_\theta=\phi_\theta(g)\) 是一行代数,但把它当 "局部改进方向" 解释、配上 action-effect 模型做内积——是一个 minimal 的策略抽取机制。任何用双线性 / 内积价值函数的方法(contrastive RL、successor features、ICVF)都能套这套思路。
- Actor-free 策略抽取避开了 maxQ 难题:在离线连续控制里,\(\max_a Q\) 一直是高估的重要源头;DAF 用 "对偶价值场 + 加权 BC" 完全绕开,且不损失策略改进保证(realizable case 下严格等于 Bellman 优势)。这种思路对任意 offline RL 都有借鉴。
- 可以迁移到 successor measure 框架:DAF 的 \(u_\xi(s,a)\) 与 successor features 形式上一模一样——把 SF 的 \(\psi\) 当状态特征、把奖励权重当 \(\phi(g)\),DAF 等价于 "用 SF 几何做动作排序",可以无缝复用 GPI/GPE 工具。
- 量化"局部 vs 全局"的需求:通过 cube-single 的可视化把 "local subgoal \(\neq\) final goal" 这种模糊概念具象化为向量场对比,这种几何 diagnostic 比纯成功率数字更有说服力,应该成为操控类 GCRL 的标配可视化。
局限与展望¶
- 强假设:realizable bilinear value:理论保证(DAF 分数 = Bellman 优势)依赖 \(V^\pi(s,g)=\psi(s)^\top\phi(g)\) 严格成立;现实里只是近似,误差如何传到策略改进步上没有量化分析。
- action-effect 模型在大动作空间下可能退化:\(u_\xi(s,a)\) 是个回归模型,在动作维数很大或 multi-modal 转移的环境(如机器人 sim2real)里,单点回归可能 underfit;考虑改用条件流模型 / diffusion 形式。
- 没有比较 image-based 任务:所有实验都在 state-based 设定下,没有验证 DAF 在像素观测(如 OGBench-Visual)上是否还能保持优势——而像素输入下 \(\psi(s)\) 的学习本身就更难。
- 缺少在线 fine-tuning 实验:DAF 的核心卖点之一是 "actor-free,扩展性好";但作者只展示纯离线设定,没有验证它在 offline-to-online 转换中是否依然稳定。
相关工作与启发¶
- vs HIQL (Park et al. 2023):HIQL 用 hierarchical 高低双策略 + 单 V,靠子目标分解长程任务;DAF 用单层 + 局部优势场,不需要解码子目标。在 navigate 上 HIQL 略弱、在 stitch 和 manipulation 上 DAF 显著领先。
- vs OTA / MQE / Quasimetric RL:OTA 用 option-aware 高层抽象;quasimetric 方法用对偶范数。DAF 的优势是不需要专门为长程或操控做模块设计,单一机制在两类任务上都稳。
- vs Dual Goal Representation (原 Park et al. 2024):原工作只用 dual representation 做价值估计;DAF 把同一个表示的梯度信息再利用做策略抽取,等价于"一次表示学习、两次几何利用"。
- vs Successor Features:DAF 的 \(u_\xi(s,a)\) 在结构上与 SF 等价,但训练时用 \(\gamma\psi(s')-\psi(s)\) 一步差分而非完整 SF 累积,因此更简单。SF + GPI 可作为 DAF 的扩展方向。
- vs Dayan & Singh (1996) 的 comparative policy improvement:DAF 是这种 "用相对优势改策略" 思路在 dual representation 框架下的现代实例化,作者明确引用了这一思想史脉络。
评分¶
- 新颖性: ⭐⭐⭐⭐ 几何观察很巧,但本质是双线性梯度 + AWR 的简洁组合,单独看每一块都是已有工具
- 实验充分度: ⭐⭐⭐⭐ OGBench 全套 + RLiable 聚合 + 反直觉案例可视化都做了,但缺像素任务和 online fine-tune
- 写作质量: ⭐⭐⭐⭐ 公式简洁,pre-grasp 可视化讲得非常清楚;Proposition 与 Corollary 编号清晰
- 价值: ⭐⭐⭐⭐ 对离线 GCRL 社区给出一个免 Q 网络的轻量策略抽取范式,可直接替换 IQL / HIQL 的策略模块