Dual Advantage Fields¶

会议: ICML 2026 Workshop on Decision Making
arXiv: 2606.04188
代码: 未公开（ICML 2026 Workshop 论文）
领域: 强化学习 / 离线目标条件 RL
关键词: 离线 GCRL、对偶目标表示、双线性价值、优势加权回归、策略抽取

一句话总结¶

本文观察到双线性目标条件价值模型 \(V_\theta(s,g)=\psi_\theta(s)^\top\phi_\theta(g)\) 中，目标嵌入 \(\phi_\theta(g)\) 恰好就是价值场对状态嵌入的梯度方向，于是用一个 "动作特征位移预测器" \(u_\xi(s,a)\approx\gamma\psi(s')-\psi(s)\) 与目标嵌入做内积，得到一个免学习 Q 网络的局部优势分数，在 OGBench 长程导航 + 操控 + 谜题任务上把 RLiable 聚合指标全面拉高。

研究背景与动机¶

领域现状：离线目标条件强化学习（GCRL）要同时解决两件事：(1) 长程可达性——从固定数据集里推断哪些状态之间能跨多步连通，从而把不同轨迹片段"缝合"起来；(2) 局部动作选择——在当前状态下从若干可选动作里挑出最有利于到达目标的那一个。近期 dual goal representation（Park et al. 2024 等）用双线性势函数 \(V_\theta(s,g)=\psi_\theta(s)^\top\phi_\theta(g)\) 漂亮地解决了长程可达性——它编码温度结构、支持跨轨迹缝合、能泛化到未见 \((s,g)\) 对。

现有痛点：价值面 \(V_\theta(s,g)\) 只告诉你"当前状态对这个目标有多好"，没有告诉你哪个动作比另一个更好。两个不同动作 \(a_1,a_2\) 从同一 \(s\) 出发共享同样的 \(V_\theta(s,g)\)，但只有一个真正推动 agent 向目标移动——这是个全局价值 vs 局部优势的不匹配。现有方案要么再训一个目标条件 Q 网络（开销大、和价值表示割裂），要么用层级子目标做高低双策略（HIQL）——后者在长程导航上强，但在需要 "先做夹爪预抓取、再去目标位置" 这种局部反直觉控制的操控任务上弱（直接指向终点反而不对）。

核心矛盾：本想要 "保留对偶表示的全局缝合能力 + 获得一个不需要额外 Q 网络的局部动作比较信号"。如果能从 \(\phi_\theta(g)\) 这个已经训好的目标嵌入里直接读出 "局部优势方向"，就能用一个 actor-free 的轻量机制替代单独 Q 网络。

本文目标：(1) 把对偶表示的全局价值场和一个新提出的"局部优势场"配对；(2) 设计 actor-free 的策略抽取目标；(3) 在 OGBench 全套（locomotion + manipulation + puzzle）上验证它能否在 hierarchical 和 quasimetric 两大门派之间取得更一致的表现。

切入角度：在双线性参数化下，价值场对状态嵌入的梯度有简洁闭式：\(\nabla_\psi V_\theta(s,g)=\phi_\theta(g)\)。所以目标嵌入本身就是 "在表示空间中价值上升最快的方向"。一个动作的好坏，可以由它在 \(\psi\)-空间中诱发的位移 \(\Delta\psi\) 和目标方向 \(\phi(g)\) 的内积衡量——这把策略改进变成了表示空间中的几何对齐问题。

核心 idea：学一个 action-effect 模型 \(u_\xi(s,a)\approx\gamma\psi(s')-\psi(s)\)，定义 Dual Advantage Field 分数 \(z_\theta(s,a,g)=u_\xi(s,a)^\top\phi_\theta(g)\)，再加上 reward 项就是模型诱导的 Bellman 优势；用它做优势加权回归（AWR）就完成策略抽取，全程不需要训目标条件 Q 网络。

方法详解¶

整体框架¶

DAF 把离线 GCRL 拆成三部分模型：(1) 双线性临界网络 \(V_\theta(s,g)=\psi_\theta(s)^\top\phi_\theta(g)\)（用 IQL 的 expectile loss 训）；(2) 动作位移预测器 \(u_\xi(s,a)\)（用 sg-stop 的回归损失训）；(3) 策略 \(\pi_\omega(a|s,c)\)（用 DAF 分数做权重的 AWR 训）。训练时单批次内并行更新这三者，外加 twin critics \(Q_\theta^{(1)},Q_\theta^{(2)}\) 做悲观估计，目标网络做 Bellman backup 稳定。推断时直接采样 \(\pi_\omega\)，不需要在线规划、不需要 maxQ 操作。

整个核心观察是 Proposition 3.1：双线性 \(V\) 关于 \(\psi\) 的梯度等于 \(\phi(g)\)，因此任意一步转移的价值差 \(V(s',g)-V(s,g)=\phi(g)^\top(\psi(s')-\psi(s))\) 退化为一个内积。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    D["离线数据集 (s, a, s′, g)"] --> C["双线性对偶临界 V_θ(s,g)=ψ(s)·φ(g)<br/>expectile + twin Q + 目标网络"]
    C --> P["Proposition 3.1：φ(g)=∇_ψ V<br/>目标嵌入 = 价值上升最快方向"]
    C --> U["动作位移预测器 u_ξ(s,a)<br/>回归 γψ(s′)−ψ(s)（stop-grad）"]
    P --> Z["DAF 分数 z_θ=u_ξ·φ(g)（+reward）<br/>realizable 下 = Bellman 优势"]
    U --> Z
    Z --> W["AWR 策略抽取<br/>w=min(exp(αz),W_max) 加权 BC"]
    C -.->|AFU 耦合 绑定 V 与 z| W
    W --> I["推断：直接采样 π_ω<br/>无 maxQ、无在线规划"]

关键设计¶

1. DAF 分数：把 Bellman 优势写成"位移 · 梯度"

对偶价值场 \(V_\theta(s,g)\) 只告诉你"当前状态对目标有多好"，却分不出两个动作哪个更推进——它们共享同一个 \(V_\theta(s,g)\)。DAF 注意到双线性模型下一个简洁事实：\(\gamma V_\theta(s',g)-V_\theta(s,g)\) 可以直接展开成 \(\phi_\theta(g)^\top(\gamma\psi_\theta(s')-\psi_\theta(s))\)（公式 7），于是给每个离线样本 \((s,a,s',g)\) 算一个标量优势分数

\[\hat{A}_\theta(s,a,s',g)=r(s,a,g)+\phi_\theta(g)^\top(\gamma\psi_\theta(s')-\psi_\theta(s))\]

也就是把 GCRL 的优势写成"动作引起的特征位移"与"目标方向"的内积。在 realizable 情形下（\(V^\pi=\psi^\top\phi\) 精确成立），它与真 Bellman 优势 \(A^\pi(s,a,g)\) 严格相等（Corollary 3.2 + Appendix F.1），所以拿它做 AWR 就是标准的策略改进步骤。这样就绕开了"再训一个和 \(V\) 表示割裂、还会累积 bootstrap 误差的 Q 网络"——DAF 重用对偶临界已有的几何，把"动作如何改变特征"单独抽出来学，再用闭式内积合成优势。

2. 动作位移预测器 \(u_\xi(s,a)\)（action-effect model）：把对 \(s'\) 的依赖移到训练时

\(\hat{A}\) 里那项 \(\gamma\psi(s')-\psi(s)\) 需要 \(s'\)，但随机环境下每个 \((s,a)\) 只有一条样本，直接用方差很大。DAF 学一个 action-effect 模型来预测表示空间中的折扣位移 \(u_\xi(s,a)\approx\mathbb{E}_{s'\sim p(\cdot|s,a)}[\gamma\psi_\theta(s')-\psi_\theta(s)]\)，训练目标是

\[\mathcal{L}_{\mathrm{ae}}=\mathbb{E}\big[\|u_\xi(s,a)-\mathrm{sg}(\gamma\psi_\theta(s')-\psi_\theta(s))\|_2^2\big]\]

其中 \(\mathrm{sg}\) 是 stop-gradient，保证 \(u_\xi\) 只跟踪固定的目标特征动力学、不会反向干扰 \(\psi\) 的训练。回归一个 \(u_\xi\) 等于对 \(s'\) 做了隐式期望，方差更小，而且推断时不再需要环境给 \(s'\)。它还把"动作-状态"转移与"价值-目标"彻底解耦，两边可以各用合适的归纳偏置（MLP / Transformer）。

3. Actor-free 耦合 + AWR 策略抽取：用对偶几何打分，绕开 maxQ

有了 \(u_\xi\) 和 \(\phi_\theta(g)\)，DAF 分数就是 \(z_\theta(s,a,g)=u_\xi(s,a)^\top\phi_\theta(g)\)。把它转成 softmax 权重 \(w_\theta=\min\{\exp(\alpha z_\theta),W_{\max}\}\)，再训策略 \(\pi_\omega\) 最小化 \(-\mathbb{E}[w_\theta\log\pi_\omega(a|s,c)]\)——因为 \(z_\theta\) 不依赖 \(\omega\)，这就退化成一个带温度 \(\alpha\) 的优势加权行为克隆，给那些"局部 \(\psi\) 位移与目标方向对齐"的数据集动作上权。离线连续控制里 \(\max_a Q\) 一直是高估的重要源头，DAF 完全不碰它，而是用对偶表示直接打优势分；同时引入 Perrin-Gilbert 的 actor-free 耦合（Appendix E）通过一致性损失把 \(V_\theta\) 与 \(z_\theta\) 绑定，避免对 \(\max_a Q\) 的脆弱依赖。在 OGBench 上，这种"无 Q 单 V + 局部优势"结构比 HIQL 的 hierarchical 方案更稳。

损失函数 / 训练策略¶

总损失：(1) Bellman/expectile loss 训 \(V_\theta=\psi^\top\phi\) + twin \(Q^{(j)}\)；(2) \(\mathcal{L}_{\mathrm{ae}}\) 训 \(u_\xi\)；(3) AWR loss 训 \(\pi_\omega\)；(4) Actor-free 耦合 loss 连接 \(V_\theta\) 与 \(z_\theta\)。超参 \(\alpha\) 控温度，\(W_{\max}\) 防爆炸，IQL 的 expectile \(\tau>0.5\)。

实验关键数据¶

主实验¶

OGBench 全套，state-based，对比 HIQL、OTA、MQE、CRL（含 DUAL 变体）、GCIQL、GCIVL（含 DUAL 变体），用 [0,1] 成功率，每个数值是若干 seed 的均值 ± 标准差，95% 区间内的最高值加粗。

环境	数据集	维度	DAF	HIQL	OTA	MQE	CRL	CRL DUAL	GCIQL
humanoidmaze	navigate	medium	0.93±0.03	0.91±0.01	0.95±0.01	0.49±0.09	0.59±0.03	0.62±0.03	0.31±0.04
humanoidmaze	navigate	large	0.66±0.03	0.45±0.04	0.83±0.03	0.20±0.07	0.26±0.03	0.21±0.05	0.04±0.01
humanoidmaze	stitch	medium	0.90±0.04	0.86±0.03	0.92±0.01	0.62±0.09	0.53±0.03	0.57±0.01	0.15±0.03
humanoidmaze	stitch	large	0.48±0.06	0.32±0.04	0.43±0.04	0.18±0.03	0.11±0.02	0.06±0.03	0.02±0.00
antmaze	navigate	teleport	0.51±0.08	0.46±0.03	0.53±0.03	0.49±0.04	0.60±0.01	0.57±0.04	—

可以看到 DAF 在 humanoidmaze-stitch-large 这种"需要把短轨迹拼成长轨迹"的最难设定上比第二名 OTA 高了 5 个百分点，比 HIQL 高 16 个百分点。在 navigate 任务上与 OTA 持平或略低（OTA 是专门为高层子目标设计的），但 DAF 不用 hierarchical 结构。

局部反直觉行为可视化（cube-single 操控任务）¶

方法	在 cube 周围 (pre-grasp) 的高层方向	行为含义
OTA	指向终点 placement 位置	试图直接推过去，但夹爪未抓握 → 失败
DAF	指向 cube 自身	先去抓握，再考虑放置 → 成功

通过线性探针把高层潜在输出 \(h_m(\tilde{s}_i,g)\) 解码到 XY 平面，可以直观看到 DAF 在 cube 附近产生"指向 cube"的向量场（pre-grasp 行为），而 OTA 产生"指向终点"的向量场——本质上是 DAF 学到了局部子目标 ≠ 最终目标的几何。

关键发现¶

DAF 的优势在 stitch 数据集上最大：navigate 数据集是噪声专家轨迹，全局价值已经足够好；stitch 数据集要求把短片段缝起来，需要"局部能挑出真正推进的动作"——这正是 DAF 的设计目标，所以提升最显著。
manipulation 任务上的胜出来自局部几何：cube-single 这种需要 pre-grasp 的任务，hierarchical 方法（OTA / HIQL）很容易高层错指方向；DAF 用 \(\phi(g)\) 的局部梯度自然产生预抓取行为，不需要额外的子目标解码。
DUAL 变体（CRL DUAL / GCIVL DUAL）不一定比原版好：单纯把 dual goal representation 套到现有方法上提升有限——关键是要像 DAF 一样用对偶表示的几何来生成动作优势，而不只是用它当个状态表示。
scaling 上有清晰趋势：在 humanoidmaze-large 这种最大尺寸上，DAF 与 HIQL 的差距从 medium 的 +3% 拉到 +21%，说明 DAF 的局部优势越在长程任务越关键。

亮点与洞察¶

"目标嵌入 = 价值梯度方向" 是个非常优雅的几何观察：双线性参数化下 \(\nabla_\psi V_\theta=\phi_\theta(g)\) 是一行代数，但把它当 "局部改进方向" 解释、配上 action-effect 模型做内积——是一个 minimal 的策略抽取机制。任何用双线性 / 内积价值函数的方法（contrastive RL、successor features、ICVF）都能套这套思路。
Actor-free 策略抽取避开了 maxQ 难题：在离线连续控制里，\(\max_a Q\) 一直是高估的重要源头；DAF 用 "对偶价值场 + 加权 BC" 完全绕开，且不损失策略改进保证（realizable case 下严格等于 Bellman 优势）。这种思路对任意 offline RL 都有借鉴。
可以迁移到 successor measure 框架：DAF 的 \(u_\xi(s,a)\) 与 successor features 形式上一模一样——把 SF 的 \(\psi\) 当状态特征、把奖励权重当 \(\phi(g)\)，DAF 等价于 "用 SF 几何做动作排序"，可以无缝复用 GPI/GPE 工具。
量化"局部 vs 全局"的需求：通过 cube-single 的可视化把 "local subgoal \(\neq\) final goal" 这种模糊概念具象化为向量场对比，这种几何 diagnostic 比纯成功率数字更有说服力，应该成为操控类 GCRL 的标配可视化。

局限与展望¶

强假设：realizable bilinear value：理论保证（DAF 分数 = Bellman 优势）依赖 \(V^\pi(s,g)=\psi(s)^\top\phi(g)\) 严格成立；现实里只是近似，误差如何传到策略改进步上没有量化分析。
action-effect 模型在大动作空间下可能退化：\(u_\xi(s,a)\) 是个回归模型，在动作维数很大或 multi-modal 转移的环境（如机器人 sim2real）里，单点回归可能 underfit；考虑改用条件流模型 / diffusion 形式。
没有比较 image-based 任务：所有实验都在 state-based 设定下，没有验证 DAF 在像素观测（如 OGBench-Visual）上是否还能保持优势——而像素输入下 \(\psi(s)\) 的学习本身就更难。
缺少在线 fine-tuning 实验：DAF 的核心卖点之一是 "actor-free，扩展性好"；但作者只展示纯离线设定，没有验证它在 offline-to-online 转换中是否依然稳定。

评分¶

新颖性: ⭐⭐⭐⭐ 几何观察很巧，但本质是双线性梯度 + AWR 的简洁组合，单独看每一块都是已有工具
实验充分度: ⭐⭐⭐⭐ OGBench 全套 + RLiable 聚合 + 反直觉案例可视化都做了，但缺像素任务和 online fine-tune
写作质量: ⭐⭐⭐⭐ 公式简洁，pre-grasp 可视化讲得非常清楚；Proposition 与 Corollary 编号清晰
价值: ⭐⭐⭐⭐ 对离线 GCRL 社区给出一个免 Q 网络的轻量策略抽取范式，可直接替换 IQL / HIQL 的策略模块