Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2602.18117
代码: GitHub
领域: 流匹配/强化学习
关键词: Flow Matching, 离线-在线RL, 噪声注入, 探索-利用平衡, 熵引导采样
一句话总结¶
通过在流匹配训练中注入可控噪声扩大策略覆盖范围,并结合熵引导的采样机制在在线微调时动态平衡探索与利用,在有限交互预算下显著提升离线到在线RL的样本效率。
研究背景与动机¶
领域现状:生成模型(扩散/流匹配)因能建模多模态分布,在离线RL中作为策略表示表现优异。Flow Q-Learning (FQL) 已在离线设置中证明了流匹配策略的有效性。
现有痛点:离线预训练的策略过度约束于数据集分布,在线微调阶段探索能力不足。现有方法(如FQL)将在线微调简单视为离线预训练的延续,未专门设计探索机制。在antmaze-giant任务中,FQL agent几乎只沿数据集中存在的上方路径到达目标,完全忽略了其他可行路线。
核心矛盾:离线RL需要保守约束(避免分布外动作),但在线阶段需要广泛探索(超出数据覆盖)。这两个阶段对策略分布的要求本质对立。
本文目标:如何在不增加数据集的前提下,让策略在离线预训练阶段就学到比数据集更广的动作覆盖,并在在线微调时有效利用这种多样性?
切入角度:观察到flow matching的条件概率路径在 \(\sigma_{\min}=0\) 时会将分布坍缩到单个数据点上,限制了覆盖范围。通过向flow matching注入受控噪声,可以扩展条件概率路径的方差。
核心 idea:在flow matching目标中注入噪声以扩大策略支持集,配合熵引导采样在在线阶段自适应地平衡探索与利用。
方法详解¶
整体框架¶
FINO (Flow matching with Injected Noise for Offline-to-online RL) 基于FQL框架,包含两个核心组件:(1) 离线预训练阶段注入噪声的流匹配训练;(2) 在线微调阶段的熵引导采样机制。输入为状态-动作对数据集,输出为能在在线交互中高效探索的策略。
关键设计¶
-
噪声注入流匹配 (Noise Injection for Flow Matching):
- 功能:在流匹配训练过程中沿插值路径注入时间依赖的高斯噪声 \(\epsilon_t \sim \mathcal{N}(0, \alpha_t^2 I)\)
- 核心思路:修改训练目标为 \(\mathcal{L}_{\text{FINO}}(\theta) = \mathbb{E}[\|v_\theta(t, s, x_t + \epsilon_t) - (x_1 - (1-\eta)x_0)\|^2_2]\),其中 \(\alpha_t^2 = (\eta^2 - 2\eta)t^2 + 2\eta t\),\(\eta \in [0,1]\) 控制噪声幅度。当 \(\eta=0\) 时退化为标准flow matching。
- 设计动机:Theorem 2 证明FINO诱导的边际概率路径方差大于等于标准FM,即 \(\text{Var}(X_t^{\text{FINO}}) \geq \text{Var}(X_t^{\text{FM}})\),使策略覆盖更广的动作空间。Theorem 1 保证噪声注入后仍构成有效的连续归一化流。
-
熵引导采样 (Entropy-Guided Sampling):
- 功能:在线微调时从策略中采样多个候选动作,基于Q值构建softmax采样分布,并自适应调节温度参数
- 核心思路:采样概率 \(p(i) = \frac{\exp(\xi \cdot Q_\phi(s, a_i))}{\sum_j \exp(\xi \cdot Q_\phi(s, a_j))}\),温度 \(\xi\) 按策略熵自适应更新:\(\xi_{\text{new}} = \xi - \alpha_\xi[\mathcal{H} - \bar{\mathcal{H}}]\)
- 设计动机:固定温度无法适应学习过程的动态变化。策略熵高时增大 \(\xi\) 偏向利用,熵低时减小 \(\xi\) 偏向探索,实现自动平衡。
-
实现细节:
- 功能:解决one-step policy分布不可求导的熵估计问题
- 核心思路:从同一状态采样多个动作,用高斯混合模型(GMM)拟合后估计熵。\(\eta=0.1\)(基于动作范围 \([-1,1]\)),候选动作数为动作维度的一半。
- 设计动机:one-step policy通过蒸馏和Q值优化得到,其分布不可直接计算熵。
损失函数 / 训练策略¶
- 离线阶段:同时训练flow policy(Eq.7)、one-step policy(Eq.5)和Q网络(TD loss)
- 在线阶段:继续优化三个网络,每 \(N_\xi\) 步更新一次温度 \(\xi\)
- 推理时:确定性选择Q值最高的动作
实验关键数据¶
主实验¶
在OGBench和D4RL共45个任务上评估,10个随机种子取平均:
| 任务类别 | 指标 | FINO | FQL | Cal-QL | 提升 |
|---|---|---|---|---|---|
| OGBench humanoidmaze-medium | 在线微调后得分 | 最优 | 3±3 | 0±0 | 显著 |
| D4RL antmaze (6任务平均) | 在线微调后得分 | 最优 | 次优 | - | 稳定提升 |
| D4RL adroit (4任务平均) | 在线微调后得分 | 最优 | 次优 | - | 稳定提升 |
| OGBench (5任务平均) | 在线微调后得分 | 最优 | 次优 | - | 显著 |
消融实验¶
| 配置 | 关键表现 | 说明 |
|---|---|---|
| Full FINO | 最优 | 噪声注入 + 熵引导采样 |
| w/o 噪声注入 (η=0) | 明显下降 | 退化为标准FQL |
| w/o 熵引导 | 下降 | 固定温度无法自适应 |
| 仅噪声注入 | 中等 | 缺乏在线阶段的探索-利用平衡 |
关键发现¶
- 在antmaze-giant任务中,FINO能发现多条到达目标的路线(包括下方路径),而FQL只走上方路径
- 噪声注入使策略在toy实验中明显覆盖了数据点周围更广的区域,但仍以数据为中心
- 在高维动作空间任务(如humanoidmaze)中优势更显著,因为噪声注入提供的探索在高维中更关键
亮点与洞察¶
- 噪声注入的理论保证:三个定理完整论证了噪声注入的合理性——保持有效流(Theorem 1)、扩大覆盖(Theorem 2)、构成合法分布(Proposition 1)。理论严谨且实际有效。
- 离线为在线服务的设计理念:不把离线训练独立看待,而是从一开始就为后续在线微调做准备(注入噪声保留多样性),这种前瞻性设计值得借鉴。
- 自适应温度方案简洁优雅,用策略熵作为信号闭环调节探索-利用权衡,无需手动调参。
局限与展望¶
- \(\eta\) 统一设为0.1,未考虑不同任务/不同状态的最优噪声幅度可能不同
- 熵估计依赖GMM拟合,在极高维动作空间中GMM的准确性可能下降
- 候选动作数设为动作维度的一半,这一启发式规则缺乏理论依据
- 实验主要在locomotion和navigation任务上,未验证在manipulation等精细操作任务上的效果
相关工作与启发¶
- vs FQL: FQL直接用标准flow matching做策略,FINO在训练目标中注入噪声扩大覆盖。FINO在在线微调后性能显著优于FQL,尤其在需要探索的任务中。
- vs Cal-QL/RLPD: 这些方法不使用生成模型作为策略,FINO利用flow matching的表达力优势在复杂任务中更有竞争力。
- 可迁移思路:噪声注入扩大分布覆盖的思路可以迁移到其他生成模型场景,如扩散模型的fine-tuning、条件生成的多样性增强等。
评分¶
- 新颖性: ⭐⭐⭐⭐ 噪声注入flow matching的想法新颖,理论分析扎实
- 实验充分度: ⭐⭐⭐⭐⭐ 45个任务、10个种子、多个baseline、详细消融
- 写作质量: ⭐⭐⭐⭐ 动机清晰,理论推导完整,大量附录支撑
- 价值: ⭐⭐⭐⭐ 为离线-在线RL提供了实用且有理论保障的解决方案