Intention-Conditioned Flow Occupancy Models¶

一句话总结¶

提出 InFOM，利用流匹配（flow matching）构建意图条件化的占据模型（occupancy model），通过变分推断推理数据中的潜在意图，实现无标注数据上的 RL 预训练，在 36 个状态任务和 4 个视觉任务上取得 1.8× 中位回报提升和 36% 成功率提升。

研究背景与动机¶

大规模预训练 - 微调范式在 NLP 和 CV 中取得巨大成功，但在强化学习（RL）中仍然是一个开放问题。RL 的核心难点在于：

时间推理：智能体需要推理当前动作的长期影响，而世界模型（world model）受累积误差限制，长距离推理能力有限

意图推理：大规模离线数据集通常由多个用户执行不同任务收集而来，这些隐含的"意图"未被显式标注

现有方法的局限：行为克隆（BC）只模仿动作、不捕获意图；判别式占据模型训练困难；后继特征（successor features）方法通常忽略用户意图

本文提出 InFOM（Intention-conditioned Flow Occupancy Models），同时学习一个概率模型来捕获时间信息和意图信息，使预训练模型能够感知不同用户的行为目的，从而在下游任务微调时实现更高效的策略学习。

方法详解¶

整体框架¶

InFOM 分预训练和微调两个阶段：预训练时从无标注数据中用变分推断抽出潜在意图 \(z\)，并用带 TD 思想的流匹配学一个意图条件化的占据模型 \(q_d(s_f|s,a,z)\)，刻画"从当前状态出发、在意图 \(z\) 驱动下未来会落到哪些状态"。微调时把这个生成模型当作未来状态采样器，用蒙特卡洛估计 Q 值，再通过隐式 GPI 蒸馏成可用于策略改进的单一价值函数。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    D["无标注离线数据<br/>(s, a, s', a')"]
    subgraph PRE["预训练阶段"]
        direction TB
        E["变分意图推断<br/>编码器 p_e 从 (s',a') 推潜意图 z"]
        F["SARSA 流占据模型<br/>q_d(s_f|s,a,z)：TD 注入流匹配"]
        E --> F
    end
    subgraph FT["微调阶段（冻结占据模型）"]
        direction TB
        G["生成式价值估计<br/>采 N 个 s_f，蒙特卡洛算 Q_z"]
        H["隐式广义策略改进<br/>expectile 蒸馏成单一 Q"]
        G --> H
    end
    D --> E
    F --> G
    H --> P["策略改进<br/>+ BC 正则抑制 OOD 动作"]

关键设计¶

1. 变分意图推断：把数据里没标注的"用户目的"显式抽出来

离线数据集 \(D=\{(s,a,s',a')\}\) 往往由多个用户执行不同任务收集而来，这些隐含意图从未被标注，BC 等方法只能照搬动作而无法感知背后的目的。InFOM 把意图视作潜变量 \(z\)，用变分推断从转移中推断它：意图编码器 \(p_e(z|s',a')\) 从下一步转移 \((s',a')\) 出发推断意图，背后是"一致性假设"——一段连续转移共享同一个意图。训练目标是最大化 ELBO \(\mathbb{E}[\log q_d(s_f|s,a,z)] - \lambda D_{\mathrm{KL}}(p_e(z|s',a') \,\|\, p(z))\)，先验取标准高斯 \(p(z)=\mathcal{N}(0,I)\)，系数 \(\lambda\) 控制 KL 正则的强度，把后验向先验拉拢以防意图编码退化成无意义的噪声。这样占据模型就能按不同意图分别建模未来，下游微调时也能感知不同用户的行为目的。

2. SARSA 流占据模型：用流匹配把"未来占据分布"学成可采样的生成模型，并注入动态规划能力

占据度量描述了从 \((s,a)\) 出发、按折扣 \(\gamma\) 加权的未来状态分布，判别式建模训练困难，于是 InFOM 改用流匹配（flow matching）学一个生成式占据模型 \(q_d(s_f|s,a,z)\) 直接采样未来状态。但单纯的流匹配只会拟合数据中出现过的轨迹，缺乏拼接（stitching）与组合泛化能力，因此作者把时序差分（TD）思想注入流匹配损失：占据损失拆成当前项与未来项 \((1-\gamma)\mathcal{L}_{\text{current}} + \gamma \mathcal{L}_{\text{future}}\)，前者拟合"下一步真实到达的状态"，后者用自举（bootstrap）把下一状态的占据流回传给当前状态，相当于在流空间里做动态规划。实现上选 SARSA 变体而非 Q-learning 变体——前者沿数据中真实出现的 \((s',a')\) 自举，不引入 OOD 动作，因而更简单稳定，在大数据集上表现更好。

3. 生成式价值估计：把训练好的占据模型当采样器，蒙特卡洛算意图条件 Q 值

微调时占据模型被冻结，价值估计不再需要单独的 critic 网络：对每个 \((s,a)\) 直接从 \(q_d(s_f|s,a,z)\) 采 \(N=16\) 个未来状态 \(s_f^{(i)}\)，代入奖励函数后取平均即得意图条件化 Q 函数 \(Q_z(s,a)=\frac{1}{(1-\gamma)N}\sum_i r(s_f^{(i)})\)。这里意图 \(z\) 从先验 \(p(z)\) 采样而非后验，因为下游任务的真实意图未知，从先验采样相当于枚举"如果用户抱着各种可能的意图，价值各是多少"，为下一步的策略改进提供一组候选 \(Q_z\)。

4. 隐式广义策略改进：用 expectile loss 把一族 \(Q_z\) 蒸馏成单一 Q，绕开 ODE 反传

朴素 GPI 需要对一组意图取 max 选出最优价值，但意图是连续潜空间、只能采样有限个 \(z\)，硬取 max 既受限于采样集合、又要对 \(Q_z\) 求梯度而被迫穿过 ODE 求解器反向传播，极不稳定。InFOM 改用上分位数期望损失（upper expectile loss）把这族 \(Q_z\) 隐式地蒸馏成单一标量函数 \(Q\)：\(\mathcal{L}(Q)=\mathbb{E}[L_2^\mu(Q_z(s,a)-Q(s,a))]\)，其中 \(\mu>0.5\) 的非对称权重让 \(Q\) 偏向逼近 \(Q_z\) 分布的上分位数，从而近似 max 的效果却无需显式枚举与 ODE 反传。策略提取再附加一项行为克隆正则抑制 OOD 动作。消融显示这一隐式做法比朴素 GPI 回报高 44%、方差小 8×。

实验¶

实验一：ExORL 和 OGBench 基准测试¶

在 36 个状态任务和 4 个视觉任务上与 8 种基线方法对比：

任务域	InFOM	最强基线	提升
walker (4 tasks avg)	380.9	327.6 (MBPO+ReBRAC)	~16%
jaco (4 tasks avg)	727.4	67.7 (IQL)	~20×
cube single (5 tasks)	92.5	77.8 (MBPO+ReBRAC)	~19%
visual tasks (4 tasks)	—	—	+31% over best

在 9 个域中的 7 个上匹配或超越所有基线
jaco 域改进最为显著（约 20×），归因于高维状态空间和稀疏奖励
image-based 任务比最强基线高 31%
整体中位回报提升 1.8×，成功率提升 36%

实验二：隐式 GPI 消融实验¶

策略提取方式	quadruped jump 回报	scene task 1 成功率
InFOM (implicit GPI)	最高	最高
InFOM + GPI (朴素 max)	低 44%	低，方差 8×
FOM + one-step PI	显著更低	显著更低

隐式 GPI 比朴素 GPI 性能高 44%、方差小 8×
去除意图编码器（FOM + one-step PI）导致性能大幅下降，验证意图推理的重要性

亮点¶

统一框架：首次将意图推断和流匹配占据模型结合，在一个框架中同时捕获时间和意图信息
隐式 GPI：用 expectile loss 替代显式 max 操作，避免了 ODE 反向传播不稳定问题和有限意图集合的局限
强实验表现：36+4 个任务上全面优于 8 种基线，jaco 域有 20× 改进
意图可视化：t-SNE 可视化表明 InFOM 能发现与真实意图对齐的聚类结构，而 FB 和 HILP 的表征混杂

局限性¶

从连续状态-动作对推断意图的简化可能无法准确捕获完整轨迹级别的原始意图
MC Q 估计带来方差（部分任务跨种子标准差较大）
需要同时预训练编码器和流模型，计算开销高于纯 BC 方法
一致性假设（连续转移共享意图）在实际复杂场景中可能不成立

评分¶

⭐⭐⭐⭐ (4/5)

理论动机清晰，将变分推断与流匹配占据模型有机结合
实验覆盖广、基线充分，36+4 任务 × 8 基线 × 8 种子
隐式 GPI 是优雅的工程/理论贡献
扣分点：意图一致性假设较强，MC 估计方差问题未完全解决