Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2602.18117
代码: GitHub
领域: 流匹配/强化学习
关键词: Flow Matching, 离线-在线RL, 噪声注入, 探索-利用平衡, 熵引导采样

一句话总结¶

通过在流匹配训练中注入可控噪声扩大策略覆盖范围，并结合熵引导的采样机制在在线微调时动态平衡探索与利用，在有限交互预算下显著提升离线到在线RL的样本效率。

研究背景与动机¶

领域现状：生成模型（扩散/流匹配）因能建模多模态分布，在离线RL中作为策略表示表现优异。Flow Q-Learning (FQL) 已在离线设置中证明了流匹配策略的有效性。

现有痛点：离线预训练的策略过度约束于数据集分布，在线微调阶段探索能力不足。现有方法（如FQL）将在线微调简单视为离线预训练的延续，未专门设计探索机制。在antmaze-giant任务中，FQL agent几乎只沿数据集中存在的上方路径到达目标，完全忽略了其他可行路线。

核心矛盾：离线RL需要保守约束（避免分布外动作），但在线阶段需要广泛探索（超出数据覆盖）。这两个阶段对策略分布的要求本质对立。

本文目标：如何在不增加数据集的前提下，让策略在离线预训练阶段就学到比数据集更广的动作覆盖，并在在线微调时有效利用这种多样性？

切入角度：观察到flow matching的条件概率路径在 \(\sigma_{\min}=0\) 时会将分布坍缩到单个数据点上，限制了覆盖范围。通过向flow matching注入受控噪声，可以扩展条件概率路径的方差。

核心 idea：在flow matching目标中注入噪声以扩大策略支持集，配合熵引导采样在在线阶段自适应地平衡探索与利用。

方法详解¶

整体框架¶

FINO (Flow matching with Injected Noise for Offline-to-online RL) 基于FQL框架，包含两个核心组件：(1) 离线预训练阶段注入噪声的流匹配训练；(2) 在线微调阶段的熵引导采样机制。输入为状态-动作对数据集，输出为能在在线交互中高效探索的策略。

关键设计¶

噪声注入流匹配 (Noise Injection for Flow Matching):
- 功能：在流匹配训练过程中沿插值路径注入时间依赖的高斯噪声 \(\epsilon_t \sim \mathcal{N}(0, \alpha_t^2 I)\)
- 核心思路：修改训练目标为 \(\mathcal{L}_{\text{FINO}}(\theta) = \mathbb{E}[\|v_\theta(t, s, x_t + \epsilon_t) - (x_1 - (1-\eta)x_0)\|^2_2]\)，其中 \(\alpha_t^2 = (\eta^2 - 2\eta)t^2 + 2\eta t\)，\(\eta \in [0,1]\) 控制噪声幅度。当 \(\eta=0\) 时退化为标准flow matching。
- 设计动机：Theorem 2 证明FINO诱导的边际概率路径方差大于等于标准FM，即 \(\text{Var}(X_t^{\text{FINO}}) \geq \text{Var}(X_t^{\text{FM}})\)，使策略覆盖更广的动作空间。Theorem 1 保证噪声注入后仍构成有效的连续归一化流。
熵引导采样 (Entropy-Guided Sampling):
- 功能：在线微调时从策略中采样多个候选动作，基于Q值构建softmax采样分布，并自适应调节温度参数
- 核心思路：采样概率 \(p(i) = \frac{\exp(\xi \cdot Q_\phi(s, a_i))}{\sum_j \exp(\xi \cdot Q_\phi(s, a_j))}\)，温度 \(\xi\) 按策略熵自适应更新：\(\xi_{\text{new}} = \xi - \alpha_\xi[\mathcal{H} - \bar{\mathcal{H}}]\)
- 设计动机：固定温度无法适应学习过程的动态变化。策略熵高时增大 \(\xi\) 偏向利用，熵低时减小 \(\xi\) 偏向探索，实现自动平衡。
实现细节:
- 功能：解决one-step policy分布不可求导的熵估计问题
- 核心思路：从同一状态采样多个动作，用高斯混合模型(GMM)拟合后估计熵。\(\eta=0.1\)（基于动作范围 \([-1,1]\)），候选动作数为动作维度的一半。
- 设计动机：one-step policy通过蒸馏和Q值优化得到，其分布不可直接计算熵。

损失函数 / 训练策略¶

离线阶段：同时训练flow policy（Eq.7）、one-step policy（Eq.5）和Q网络（TD loss）
在线阶段：继续优化三个网络，每 \(N_\xi\) 步更新一次温度 \(\xi\)
推理时：确定性选择Q值最高的动作

实验关键数据¶

主实验¶

在OGBench和D4RL共45个任务上评估，10个随机种子取平均：

任务类别	指标	FINO	FQL	Cal-QL	提升
OGBench humanoidmaze-medium	在线微调后得分	最优	3±3	0±0	显著
D4RL antmaze (6任务平均)	在线微调后得分	最优	次优	-	稳定提升
D4RL adroit (4任务平均)	在线微调后得分	最优	次优	-	稳定提升
OGBench (5任务平均)	在线微调后得分	最优	次优	-	显著

消融实验¶

配置	关键表现	说明
Full FINO	最优	噪声注入 + 熵引导采样
w/o 噪声注入 (η=0)	明显下降	退化为标准FQL
w/o 熵引导	下降	固定温度无法自适应
仅噪声注入	中等	缺乏在线阶段的探索-利用平衡

关键发现¶

在antmaze-giant任务中，FINO能发现多条到达目标的路线（包括下方路径），而FQL只走上方路径
噪声注入使策略在toy实验中明显覆盖了数据点周围更广的区域，但仍以数据为中心
在高维动作空间任务（如humanoidmaze）中优势更显著，因为噪声注入提供的探索在高维中更关键

亮点与洞察¶

噪声注入的理论保证：三个定理完整论证了噪声注入的合理性——保持有效流（Theorem 1）、扩大覆盖（Theorem 2）、构成合法分布（Proposition 1）。理论严谨且实际有效。
离线为在线服务的设计理念：不把离线训练独立看待，而是从一开始就为后续在线微调做准备（注入噪声保留多样性），这种前瞻性设计值得借鉴。
自适应温度方案简洁优雅，用策略熵作为信号闭环调节探索-利用权衡，无需手动调参。

局限与展望¶

\(\eta\) 统一设为0.1，未考虑不同任务/不同状态的最优噪声幅度可能不同
熵估计依赖GMM拟合，在极高维动作空间中GMM的准确性可能下降
候选动作数设为动作维度的一半，这一启发式规则缺乏理论依据
实验主要在locomotion和navigation任务上，未验证在manipulation等精细操作任务上的效果

评分¶

新颖性: ⭐⭐⭐⭐ 噪声注入flow matching的想法新颖，理论分析扎实
实验充分度: ⭐⭐⭐⭐⭐ 45个任务、10个种子、多个baseline、详细消融
写作质量: ⭐⭐⭐⭐ 动机清晰，理论推导完整，大量附录支撑
价值: ⭐⭐⭐⭐ 为离线-在线RL提供了实用且有理论保障的解决方案