Intention-Conditioned Flow Occupancy Models¶
一句话总结¶
提出 InFOM,利用流匹配(flow matching)构建意图条件化的占据模型(occupancy model),通过变分推断推理数据中的潜在意图,实现无标注数据上的 RL 预训练,在 36 个状态任务和 4 个视觉任务上取得 1.8× 中位回报提升和 36% 成功率提升。
研究背景与动机¶
大规模预训练 - 微调范式在 NLP 和 CV 中取得巨大成功,但在强化学习(RL)中仍然是一个开放问题。RL 的核心难点在于:
时间推理:智能体需要推理当前动作的长期影响,而世界模型(world model)受累积误差限制,长距离推理能力有限
意图推理:大规模离线数据集通常由多个用户执行不同任务收集而来,这些隐含的"意图"未被显式标注
现有方法的局限:行为克隆(BC)只模仿动作、不捕获意图;判别式占据模型训练困难;后继特征(successor features)方法通常忽略用户意图
本文提出 InFOM(Intention-conditioned Flow Occupancy Models),同时学习一个概率模型来捕获时间信息和意图信息,使预训练模型能够感知不同用户的行为目的,从而在下游任务微调时实现更高效的策略学习。
方法详解¶
整体框架¶
InFOM 分预训练和微调两个阶段:预训练时从无标注数据中用变分推断抽出潜在意图 \(z\),并用带 TD 思想的流匹配学一个意图条件化的占据模型 \(q_d(s_f|s,a,z)\),刻画"从当前状态出发、在意图 \(z\) 驱动下未来会落到哪些状态"。微调时把这个生成模型当作未来状态采样器,用蒙特卡洛估计 Q 值,再通过隐式 GPI 蒸馏成可用于策略改进的单一价值函数。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
D["无标注离线数据<br/>(s, a, s', a')"]
subgraph PRE["预训练阶段"]
direction TB
E["变分意图推断<br/>编码器 p_e 从 (s',a') 推潜意图 z"]
F["SARSA 流占据模型<br/>q_d(s_f|s,a,z):TD 注入流匹配"]
E --> F
end
subgraph FT["微调阶段(冻结占据模型)"]
direction TB
G["生成式价值估计<br/>采 N 个 s_f,蒙特卡洛算 Q_z"]
H["隐式广义策略改进<br/>expectile 蒸馏成单一 Q"]
G --> H
end
D --> E
F --> G
H --> P["策略改进<br/>+ BC 正则抑制 OOD 动作"]
关键设计¶
1. 变分意图推断:把数据里没标注的"用户目的"显式抽出来
离线数据集 \(D=\{(s,a,s',a')\}\) 往往由多个用户执行不同任务收集而来,这些隐含意图从未被标注,BC 等方法只能照搬动作而无法感知背后的目的。InFOM 把意图视作潜变量 \(z\),用变分推断从转移中推断它:意图编码器 \(p_e(z|s',a')\) 从下一步转移 \((s',a')\) 出发推断意图,背后是"一致性假设"——一段连续转移共享同一个意图。训练目标是最大化 ELBO \(\mathbb{E}[\log q_d(s_f|s,a,z)] - \lambda D_{\mathrm{KL}}(p_e(z|s',a') \,\|\, p(z))\),先验取标准高斯 \(p(z)=\mathcal{N}(0,I)\),系数 \(\lambda\) 控制 KL 正则的强度,把后验向先验拉拢以防意图编码退化成无意义的噪声。这样占据模型就能按不同意图分别建模未来,下游微调时也能感知不同用户的行为目的。
2. SARSA 流占据模型:用流匹配把"未来占据分布"学成可采样的生成模型,并注入动态规划能力
占据度量描述了从 \((s,a)\) 出发、按折扣 \(\gamma\) 加权的未来状态分布,判别式建模训练困难,于是 InFOM 改用流匹配(flow matching)学一个生成式占据模型 \(q_d(s_f|s,a,z)\) 直接采样未来状态。但单纯的流匹配只会拟合数据中出现过的轨迹,缺乏拼接(stitching)与组合泛化能力,因此作者把时序差分(TD)思想注入流匹配损失:占据损失拆成当前项与未来项 \((1-\gamma)\mathcal{L}_{\text{current}} + \gamma \mathcal{L}_{\text{future}}\),前者拟合"下一步真实到达的状态",后者用自举(bootstrap)把下一状态的占据流回传给当前状态,相当于在流空间里做动态规划。实现上选 SARSA 变体而非 Q-learning 变体——前者沿数据中真实出现的 \((s',a')\) 自举,不引入 OOD 动作,因而更简单稳定,在大数据集上表现更好。
3. 生成式价值估计:把训练好的占据模型当采样器,蒙特卡洛算意图条件 Q 值
微调时占据模型被冻结,价值估计不再需要单独的 critic 网络:对每个 \((s,a)\) 直接从 \(q_d(s_f|s,a,z)\) 采 \(N=16\) 个未来状态 \(s_f^{(i)}\),代入奖励函数后取平均即得意图条件化 Q 函数 \(Q_z(s,a)=\frac{1}{(1-\gamma)N}\sum_i r(s_f^{(i)})\)。这里意图 \(z\) 从先验 \(p(z)\) 采样而非后验,因为下游任务的真实意图未知,从先验采样相当于枚举"如果用户抱着各种可能的意图,价值各是多少",为下一步的策略改进提供一组候选 \(Q_z\)。
4. 隐式广义策略改进:用 expectile loss 把一族 \(Q_z\) 蒸馏成单一 Q,绕开 ODE 反传
朴素 GPI 需要对一组意图取 max 选出最优价值,但意图是连续潜空间、只能采样有限个 \(z\),硬取 max 既受限于采样集合、又要对 \(Q_z\) 求梯度而被迫穿过 ODE 求解器反向传播,极不稳定。InFOM 改用上分位数期望损失(upper expectile loss)把这族 \(Q_z\) 隐式地蒸馏成单一标量函数 \(Q\):\(\mathcal{L}(Q)=\mathbb{E}[L_2^\mu(Q_z(s,a)-Q(s,a))]\),其中 \(\mu>0.5\) 的非对称权重让 \(Q\) 偏向逼近 \(Q_z\) 分布的上分位数,从而近似 max 的效果却无需显式枚举与 ODE 反传。策略提取再附加一项行为克隆正则抑制 OOD 动作。消融显示这一隐式做法比朴素 GPI 回报高 44%、方差小 8×。
实验¶
实验一:ExORL 和 OGBench 基准测试¶
在 36 个状态任务和 4 个视觉任务上与 8 种基线方法对比:
| 任务域 | InFOM | 最强基线 | 提升 |
|---|---|---|---|
| walker (4 tasks avg) | 380.9 | 327.6 (MBPO+ReBRAC) | ~16% |
| jaco (4 tasks avg) | 727.4 | 67.7 (IQL) | ~20× |
| cube single (5 tasks) | 92.5 | 77.8 (MBPO+ReBRAC) | ~19% |
| visual tasks (4 tasks) | — | — | +31% over best |
- 在 9 个域中的 7 个上匹配或超越所有基线
- jaco 域改进最为显著(约 20×),归因于高维状态空间和稀疏奖励
- image-based 任务比最强基线高 31%
- 整体中位回报提升 1.8×,成功率提升 36%
实验二:隐式 GPI 消融实验¶
| 策略提取方式 | quadruped jump 回报 | scene task 1 成功率 |
|---|---|---|
| InFOM (implicit GPI) | 最高 | 最高 |
| InFOM + GPI (朴素 max) | 低 44% | 低,方差 8× |
| FOM + one-step PI | 显著更低 | 显著更低 |
- 隐式 GPI 比朴素 GPI 性能高 44%、方差小 8×
- 去除意图编码器(FOM + one-step PI)导致性能大幅下降,验证意图推理的重要性
亮点¶
- 统一框架:首次将意图推断和流匹配占据模型结合,在一个框架中同时捕获时间和意图信息
- 隐式 GPI:用 expectile loss 替代显式 max 操作,避免了 ODE 反向传播不稳定问题和有限意图集合的局限
- 强实验表现:36+4 个任务上全面优于 8 种基线,jaco 域有 20× 改进
- 意图可视化:t-SNE 可视化表明 InFOM 能发现与真实意图对齐的聚类结构,而 FB 和 HILP 的表征混杂
局限性¶
- 从连续状态-动作对推断意图的简化可能无法准确捕获完整轨迹级别的原始意图
- MC Q 估计带来方差(部分任务跨种子标准差较大)
- 需要同时预训练编码器和流模型,计算开销高于纯 BC 方法
- 一致性假设(连续转移共享意图)在实际复杂场景中可能不成立
相关工作¶
- 离线无监督 RL:FB(Touati & Ollivier, 2021)、HILP(Park et al., 2024)学习技能/表征但通常不同时建模占据度量
- 占据模型/后继表征:Dayan (1993)、Janner et al. (2020)、TD flows(Farebrother et al., 2025)使用流匹配建模占据度量但不建模意图
- 生成式 RL:Decision Transformer、Diffuser 等用生成模型建模轨迹/策略,但通常不显式预测长期状态分布
- 表征学习:对比学习、MAE 等学习通用表征,但不保证有利于策略适应
- InFOM 的创新点:相比最接近的 TD flows,引入变分潜变量建模意图 + 隐式 GPI 替代有限集上的显式 GPI
评分¶
⭐⭐⭐⭐ (4/5)
- 理论动机清晰,将变分推断与流匹配占据模型有机结合
- 实验覆盖广、基线充分,36+4 任务 × 8 基线 × 8 种子
- 隐式 GPI 是优雅的工程/理论贡献
- 扣分点:意图一致性假设较强,MC 估计方差问题未完全解决