Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2602.18117
代码: GitHub
领域: 流匹配/强化学习
关键词: Flow Matching, 离线-在线RL, 噪声注入, 探索-利用平衡, 熵引导采样
一句话总结¶
通过在流匹配训练中注入可控噪声扩大策略覆盖范围,并结合熵引导的采样机制在在线微调时动态平衡探索与利用,在有限交互预算下显著提升离线到在线RL的样本效率。
研究背景与动机¶
领域现状:生成模型(扩散/流匹配)因能建模多模态分布,在离线RL中作为策略表示表现优异。Flow Q-Learning (FQL) 已在离线设置中证明了流匹配策略的有效性。
现有痛点:离线预训练的策略过度约束于数据集分布,在线微调阶段探索能力不足。现有方法(如FQL)将在线微调简单视为离线预训练的延续,未专门设计探索机制。在antmaze-giant任务中,FQL agent几乎只沿数据集中存在的上方路径到达目标,完全忽略了其他可行路线。
核心矛盾:离线RL需要保守约束(避免分布外动作),但在线阶段需要广泛探索(超出数据覆盖)。这两个阶段对策略分布的要求本质对立。
本文目标:如何在不增加数据集的前提下,让策略在离线预训练阶段就学到比数据集更广的动作覆盖,并在在线微调时有效利用这种多样性?
切入角度:观察到flow matching的条件概率路径在 \(\sigma_{\min}=0\) 时会将分布坍缩到单个数据点上,限制了覆盖范围。通过向flow matching注入受控噪声,可以扩展条件概率路径的方差。
核心 idea:在flow matching目标中注入噪声以扩大策略支持集,配合熵引导采样在在线阶段自适应地平衡探索与利用。
方法详解¶
整体框架¶
FINO (Flow matching with Injected Noise for Offline-to-online RL) 要解决的核心问题是:离线预训练出来的流匹配策略覆盖太窄,到了在线微调阶段探索不动。它的思路是在「训练目标」和「采样策略」两端同时下手。整体仍沿用 FQL 的双策略 + Q 网络骨架(flow policy 负责表达多模态分布,one-step policy 蒸馏自 flow policy 并直接与环境交互),但做了两处改动:离线阶段把标准 flow matching 的训练目标改成注入噪声的版本,让策略从一开始就学到比数据集更宽的动作支持集;在线阶段不再用固定的贪心或固定温度采样,而是按策略熵自适应调节一个 softmax 温度,动态在探索与利用之间切换。输入是状态-动作对数据集,输出是一个能在有限在线交互预算下高效探索的策略。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
D["离线数据集<br/>状态-动作对"] --> A["噪声注入流匹配<br/>训练目标沿路径注入 ε_t"]
A --> P["宽覆盖策略<br/>flow + one-step + Q 网络"]
P --> S["在线采一批候选动作"]
S --> G["GMM 估熵<br/>拟合样本估计策略熵 H"]
G --> E["熵引导采样<br/>按熵调温度 ξ 做 Q 值 softmax"]
E --> ENV["与环境交互<br/>回收数据更新三网络"]
ENV -->|在线微调循环| S
关键设计¶
1. 噪声注入流匹配:把覆盖范围写进训练目标
标准 flow matching 的条件概率路径在 \(\sigma_{\min}=0\) 时会把分布坍缩到单个数据点上,这正是 FQL 策略覆盖窄、在线探索不动的根源。FINO 的做法是沿插值路径注入时间依赖的高斯噪声 \(\epsilon_t \sim \mathcal{N}(0, \alpha_t^2 I)\),把训练目标改写为
其中噪声幅度由 \(\alpha_t^2 = (\eta^2 - 2\eta)t^2 + 2\eta t\) 决定,\(\eta \in [0,1]\) 是唯一的控制旋钮,\(\eta=0\) 时整个目标退化回标准 flow matching。这个改法之所以站得住脚,靠的是三条理论保证:Theorem 1 说明注入噪声后仍然构成有效的连续归一化流;Theorem 2 进一步证明 FINO 诱导的边际概率路径方差不小于标准 FM,即 \(\text{Var}(X_t^{\text{FINO}}) \geq \text{Var}(X_t^{\text{FM}})\),也就是策略能覆盖更广的动作空间——这正是后续在线探索所需要的多样性。
2. 熵引导采样:让温度跟着学习进度自己动
离线阶段把覆盖撑开还不够,在线微调时还得真的去利用这种多样性。FINO 在线时从策略中采一批候选动作,再按 Q 值构建 softmax 采样分布
关键在于温度 \(\xi\) 不固定,而是按策略熵闭环更新:\(\xi_{\text{new}} = \xi - \alpha_\xi[\mathcal{H} - \bar{\mathcal{H}}]\)。固定温度无法适应学习过程的动态变化——训练早期策略还很乱,晚期已经收敛,同一个温度不可能两头都合适。用熵做信号后,策略熵高(动作还很发散)时温度增大、偏向利用收敛,熵低(动作已经集中)时温度减小、偏向探索发散,整个探索-利用权衡不用手动调参就能自动平衡。
3. 用 GMM 估熵:补上 one-step policy 不可求导的缺口
熵引导采样依赖一个前提——得能算出策略熵,但 FINO 在线推理用的是经蒸馏和 Q 值优化得到的 one-step policy,它的分布没有解析形式,没法直接求熵。FINO 的处理是从同一状态采样多个动作,用高斯混合模型 (GMM) 拟合这批样本后再估计熵,绕开了不可求导的问题。两个工程取值也在这里固定:噪声幅度 \(\eta=0.1\)(基于动作范围 \([-1,1]\) 选定),候选动作数设为动作维度的一半。
损失函数 / 训练策略¶
- 离线阶段:同时训练flow policy(Eq.7)、one-step policy(Eq.5)和Q网络(TD loss)
- 在线阶段:继续优化三个网络,每 \(N_\xi\) 步更新一次温度 \(\xi\)
- 推理时:确定性选择Q值最高的动作
实验关键数据¶
主实验¶
在OGBench和D4RL共45个任务上评估,10个随机种子取平均:
| 任务类别 | 指标 | FINO | FQL | Cal-QL | 提升 |
|---|---|---|---|---|---|
| OGBench humanoidmaze-medium | 在线微调后得分 | 最优 | 3±3 | 0±0 | 显著 |
| D4RL antmaze (6任务平均) | 在线微调后得分 | 最优 | 次优 | - | 稳定提升 |
| D4RL adroit (4任务平均) | 在线微调后得分 | 最优 | 次优 | - | 稳定提升 |
| OGBench (5任务平均) | 在线微调后得分 | 最优 | 次优 | - | 显著 |
消融实验¶
| 配置 | 关键表现 | 说明 |
|---|---|---|
| Full FINO | 最优 | 噪声注入 + 熵引导采样 |
| w/o 噪声注入 (η=0) | 明显下降 | 退化为标准FQL |
| w/o 熵引导 | 下降 | 固定温度无法自适应 |
| 仅噪声注入 | 中等 | 缺乏在线阶段的探索-利用平衡 |
关键发现¶
- 在antmaze-giant任务中,FINO能发现多条到达目标的路线(包括下方路径),而FQL只走上方路径
- 噪声注入使策略在toy实验中明显覆盖了数据点周围更广的区域,但仍以数据为中心
- 在高维动作空间任务(如humanoidmaze)中优势更显著,因为噪声注入提供的探索在高维中更关键
亮点与洞察¶
- 噪声注入的理论保证:三个定理完整论证了噪声注入的合理性——保持有效流(Theorem 1)、扩大覆盖(Theorem 2)、构成合法分布(Proposition 1)。理论严谨且实际有效。
- 离线为在线服务的设计理念:不把离线训练独立看待,而是从一开始就为后续在线微调做准备(注入噪声保留多样性),这种前瞻性设计值得借鉴。
- 自适应温度方案简洁优雅,用策略熵作为信号闭环调节探索-利用权衡,无需手动调参。
局限与展望¶
- \(\eta\) 统一设为0.1,未考虑不同任务/不同状态的最优噪声幅度可能不同
- 熵估计依赖GMM拟合,在极高维动作空间中GMM的准确性可能下降
- 候选动作数设为动作维度的一半,这一启发式规则缺乏理论依据
- 实验主要在locomotion和navigation任务上,未验证在manipulation等精细操作任务上的效果
相关工作与启发¶
- vs FQL: FQL直接用标准flow matching做策略,FINO在训练目标中注入噪声扩大覆盖。FINO在在线微调后性能显著优于FQL,尤其在需要探索的任务中。
- vs Cal-QL/RLPD: 这些方法不使用生成模型作为策略,FINO利用flow matching的表达力优势在复杂任务中更有竞争力。
- 可迁移思路:噪声注入扩大分布覆盖的思路可以迁移到其他生成模型场景,如扩散模型的fine-tuning、条件生成的多样性增强等。
评分¶
- 新颖性: ⭐⭐⭐⭐ 噪声注入flow matching的想法新颖,理论分析扎实
- 实验充分度: ⭐⭐⭐⭐⭐ 45个任务、10个种子、多个baseline、详细消融
- 写作质量: ⭐⭐⭐⭐ 动机清晰,理论推导完整,大量附录支撑
- 价值: ⭐⭐⭐⭐ 为离线-在线RL提供了实用且有理论保障的解决方案