Value Matching: Scalable and Gradient-Free Reward-Guided Flow Adaptation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=7iXt44Actj
领域: 扩散模型 / 流匹配 / 奖励对齐
关键词: 流模型适配, 值函数学习, 随机最优控制, 不可微奖励, 内存高效

一句话总结¶

把"用奖励适配大规模流/扩散模型"重新表述成随机最优控制问题，只在线学习一个小的值网络而冻结基模型，从而支持不可微（黑盒）奖励、按需调节显存，在图像与分子生成上用不到微调方法 5% 的显存达到可比性能。

研究背景与动机¶

领域现状：流匹配（flow matching）和扩散模型已经成为图像、化学、生物、机器人等领域的主力生成模型。把这些预训练大模型适配到下游奖励（如可控编辑、药物发现）是落地的关键，目前主流是两类做法：一是基于强化学习（DDPO/DPOK）和随机最优控制（SOC，如 Adjoint Matching）的微调，二是不动基模型参数的 Classifier Guidance（CG）。

现有痛点：微调类方法要对整个基模型反向传播，必须缓存所有中间激活，显存随模型规模线性膨胀——SD2 这种量级动辄要 250GB 显存、800 GPU-小时。更糟的是很多 SOTA（如 Adjoint Matching）依赖 reward 的梯度，而药物发现里的 reward 常来自外部模拟器或实验测量，只能给标量、不可微。CG 虽然冻结基模型、省显存、支持黑盒 reward，但它是离线算法：只在预训练分布 \(p^{\text{pre}}_t\) 的样本上训练，无法探索到数据分布之外的高奖励区域；而且它的损失里带 \(\exp(\lambda r)\) 项，在 32 位浮点下当 \(\lambda r > 90\) 就溢出，把奖励缩放 \(\lambda\) 限制得很小。

核心矛盾：微调把"奖励适配"和"基模型优化"绑死了，所以显存被基模型规模绑架；CG 解耦了二者却因为离线训练在分布偏移上吃亏。我们想要的是：既像 CG 一样解耦、省显存、支持黑盒 reward，又像微调一样能在线探索高奖励区。

核心 idea：把 KL 正则的奖励适配写成一个二次成本的控制-仿射 SOC 问题，转而在线学习它的值函数 \(V\)。学到 \(V\) 后由 Pontryagin 最小值原理直接给出最优控制 \(u^\star(x,t) = -\sigma^\top(t)\nabla_x V(x,t)\)；而值函数即使在 reward 不可微时仍然可微（噪声起了平滑核的作用），于是既能处理黑盒 reward，又能把"训练分布"对齐到"当前策略分布"实现在线探索。

方法详解¶

整体框架¶

VM（Value Matching）把适配问题看成：在 \([0,1]\) 时间区间上控制一条由基模型 SDE 决定的轨迹 \(dx_t = (b^{\text{pre}} + \sigma u)\,dt + \sigma\,dB_t\)，目标是最大化终端奖励 \(\lambda r(x_1)\) 同时不偏离基分布太远。其对应的值函数 \(V(x,t)=\inf_u J(u;x,t)\) 是从 \((x,t)\) 出发的最优剩余成本，最优控制由 \(u^\star=-\sigma^\top\nabla_x V\) 给出。整个方法就是一个迭代回归循环：用当前值网络诱导出控制策略去在线采样轨迹，沿轨迹用单样本蒙特卡洛估计成本泛函 \(\hat J_t\) 当回归目标，再把 \(V_\theta(x_t,t)\) 回归到 \(\hat J_t\) 上更新参数，如此往复直到 \(V_\theta\) 收敛到真值函数（论文证明 \(V\) 是 \(\mathbb{E}[L_{\text{VM}}]\) 的唯一临界点）。基模型全程冻结，只训练这个可大可小的值网络。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["冻结基模型 + 黑盒奖励 r"] --> B["值函数学习<br/>策略 u = -σᵀ∇Vθ"]
    B --> C["在线 on-policy 采样<br/>当前策略跑 m 条轨迹"]
    C --> D["成本泛函回归目标<br/>Ĵt = 运行代价 - λr(x₁)"]
    D --> E["时间加权 ℓ₂ 回归<br/>L = Σ w(t)·|Vθ - Ĵt|²"]
    E -->|梯度下降更新 θ| B
    B --> F["推理：u = -σᵀ∇Vθ<br/>引导基模型采样"]

关键设计¶

1. 值函数学习：把奖励适配从基模型优化里解耦出来

这一设计直击微调"显存被基模型绑架 + 要求 reward 可微"两个痛点。VM 不更新基模型，而是另学一个值函数 \(V\)，再由一阶最优性条件 \(u^\star(x,t)=-\sigma^\top(t)\nabla_x V(x,t)\) 拿到控制。这么做有两个好处直接来自数学结构。其一，reward 不可微也无妨：值函数 \(V(x,t)=-\log\mathbb{E}_{p^{\text{pre}}}[\exp(\lambda r(x_1))\mid x_t=x]\) 是对从 \(x_t\) 到 \(x_1\) 所有噪声实现的平均，噪声相当于一个平滑核，能把 reward 的不连续抹平——论文用 Proposition 1 形式化证明：只要 \(r\) 有界可测，\(V\) 在 \(t<1\) 处就对 \(x\) 可微。于是即便 reward 是 JPEG 压缩比特数、xTB 偶极矩这类只返回标量的黑盒，最优控制依然良定义。其二，资源开销可控：主导计算从"训练基模型"转成"基模型推理 + 值网络训练"，而值网络的架构可以自由选小，所以显存和算力是可调的，这正是它能省下 95% 显存的根本原因。

2. 在线 on-policy 训练：让训练分布追着最优分布走

CG 的根本缺陷在于离线——它只在固定的预训练分布 \(p^{\text{pre}}_t\) 上采样训练，而生成式优化恰恰想跑到数据稀疏的高奖励区。当策略把概率质量推向高奖励区时，来自 \(p^{\text{pre}}_t\) 的训练样本越来越不 informative，样本效率和最终能达到的最优性都受限。VM 的修法是把训练轨迹改成用当前策略 \(u=-\sigma^\top\nabla_x V_{\bar\theta}\) 在线采样：\(dx_t=(b^{\text{pre}}-\sigma^2\nabla V_{\bar\theta})\,dt+\sigma\,dB_t\)。这样训练分布始终对齐到策略推理时真正会遇到的分布 \(p^u_t\)，消除了 CG 那种 train-test 失配。在 2D 可视化里可以清楚看到 VM 的训练分布逐步贴合最优 tilted 分布而 CG 不会；实践上 VM 在中等奖励缩放下仍稳定训练，而 CG 在 \(\lambda\) 稍大时就发散。

3. 成本泛函回归目标 + 时间加权：把值函数学习变成稳定的回归

有了在线轨迹，VM 用一个简洁的 \(\ell_2\) 回归来学 \(V\)。沿每条轨迹用单样本蒙特卡洛估计成本泛函作为回归目标：

\[\hat J_t = \tfrac{1}{2}\int_t^1 \sigma^2(s)\,\|\nabla_x V_{\bar\theta}(x_s,s)\|^2\,ds - \lambda r(x_1),\]

其中 \(\bar\theta=\text{stopgrad}(\theta)\) 保证目标在反传时被当作固定值（类似 TD 学习里的 target）。然后把网络预测回归到这个目标：\(L(\theta)=\tfrac12\int_0^1 w(t)\,|V_\theta(x_t,t)-\hat J_t|^2\,dt\)。关键的工程点是时间加权 \(w(t)\)：memoryless 噪声调度下 \(\sigma(t)\to\infty\)（当 \(t\to0\)），不加权会让早期时间步的方差炸掉，作者用 \(w(t)=\frac{1}{\lambda^2}\big(1+\frac12\int_t^1\sigma^2(s)\,ds\big)^{-1}\) 把 reward 按 \(\lambda\) 归一化、并对未来方差大的时间步降权，从而稳定训练。这套回归避免了 CG 损失里的 \(\exp(\lambda r)\) 溢出问题，因此能用大的奖励缩放 \(\lambda\)、表达更强的 reward。

损失函数 / 训练策略¶

核心损失就是上面的加权 \(\ell_2\) 值匹配 \(L_{\text{VM}}\)。每轮迭代：① 用当前策略采 \(m\) 条轨迹；② 对每条轨迹每个时间步算 \(\hat J_t\)（stopgrad）；③ 算加权回归损失并对 \(\nabla L(\theta)\) 做一步梯度下降。SDE 用 Euler-Maruyama 离散成 \(T\) 步、积分用黎曼和近似。整个算法只有一个超参数（奖励缩放 \(\lambda\)），相比 CT-PPO 需要大规模网格搜索要省心得多。论文还从两个视角刻画 VM 的位置：它是 Adjoint Matching 的零阶（gradient-free）类比（AM 回归 \(\nabla_x J\) 学 \(\nabla_x V\)，VM 回归 \(J\) 学 \(V\) 再反传求梯度）；也是 CT-PPO 的简化（把 CT-PPO 的 actor 设为 \(s^{\text{pre}}-\nabla_x V_\theta\) 后，actor 优化步变冗余、无需微调基模型，VM 自然浮现）。

实验关键数据¶

主实验¶

在 CIFAR、DiT(ImageNet 256)、SD2 文生图、FlowMol 分子四类基模型上评测，奖励均为不可微（压缩/反压缩的 JPEG 比特数、LAION 美学分、偶极矩、QED）。

任务 / 基模型	指标	基模型	VM	说明
FlowMol (QED, λ=500)	Stable% ↑	49.5	67.6	稳定性、有效性、QED 同时提升，无 reward hacking
FlowMol (QED, λ=500)	QED ↑	0.42	0.49	同上
FlowMol (偶极矩)	平均偶极矩 (Debye) ↑	6.4	7.5	同时把碎片率从 31% 降到 28%
SD2 微调显存	Memory (GB) ↓	—	<12	微调方法需 ~250GB，省 95%+
SD2 训练时间	GPU-小时 ↓	—	<35	微调方法需 ~800 GPU-小时

在 CIFAR 上对比微调方法（DDPO/DPOK/CT-PPO）和推理时方法（SVDD）：压缩任务上所有微调方法都模式崩塌而 VM 保持稳定；DDPO/DPOK 随 \(\lambda\) 增大多样性崩塌且 reward 低于 VM；CT-PPO 性能可比但要大量调参，VM 只有一个超参。

消融实验¶

值网络规模缩放（CIFAR + 美学奖励，λ=100，6 个配置 A–F，0.5M–92M 参数）：

配置	参数(M)	显存(GB) ↓	Reward ↑	说明
None	—	—	2.31	基模型
A	0.5	3.2	3.77	最小值网络已大幅提升 reward
D	15.1	5.7	4.02	最高 reward
F	92.3	11.2	3.26	更大反而没更好

推理开销（采 128 张 batch，RTX 4090）：VM 相比基模型只增加 1–30% 时间（如 SD2 从 122s→127s），而 SVDD 每步要评 20 个候选，压缩任务慢 40×、美学慢 600×。

关键发现¶

小值网络就够：0.5M 参数的值网络已能显著提升 reward，增大网络并不稳定地变好，说明把值函数学小就能拿到大部分收益——这是 VM 省资源的实证支撑。
VM 不 reward hacking：分子任务上优化目标属性的同时稳定性/有效性也提升（偶极矩奖励让高电负性氟原子频率增 5 倍是合理的化学行为，不是钻空子）。
时间加权 \(w(t)\) 是稳定训练的关键：memoryless 调度下不加权会因 \(\sigma(t)\to\infty\) 而方差爆炸。

亮点与洞察¶

"学值函数而非微调模型"是省显存的根本：把主导计算从基模型反传转成基模型推理 + 小值网络训练，显存与基模型规模脱钩，模型越大优势越明显（CIFAR→SD2 微调成本暴涨，VM 几乎不变）。
噪声即平滑核：值函数对从 \(x_t\) 到 \(x_1\) 的噪声平均，天然把不连续 reward 抹平，这是支持黑盒/不可微 reward 的数学根源，比"硬给 reward 求梯度"优雅。
统一视角很漂亮：VM = Adjoint Matching 的零阶类比 = CT-PPO 砍掉 actor 后的简化，一个算法把 SOC/RL 两条线串起来，还把超参从一堆压到一个。
可迁移性：值匹配的 stopgrad 目标 + 时间加权回归这套思路，可迁移到任何"想用 SOC 视角做条件/可控生成又怕微调太贵"的扩散适配场景。

局限与展望¶

推理多一次 \(\nabla_x V\) 计算：虽然只多 1–30%，但需要对值网络反传求梯度，部署时得带上值网络。
单样本蒙特卡洛目标方差：\(\hat J_t\) 用单条轨迹估计，靠 stopgrad 和时间加权压方差，更高维/更复杂 reward 下方差控制可能更吃力（论文未给大 batch 估计的系统消融）。
依赖 memoryless 噪声调度的理论：可微性与无偏适配的结论建立在该调度上，换调度时的适配性待验证。
奖励仍需可评估：黑盒 reward 必须能多次调用（分子任务要先 GFN-FF 弛豫再评 xTB/rdkit），评估本身昂贵时在线采样轨迹的总评估次数仍是成本。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把奖励适配重构为在线值函数学习，统一并简化了 AM/CT-PPO，视角清晰。
实验充分度: ⭐⭐⭐⭐ 覆盖图像+分子、多奖励多缩放、资源/网络规模/推理开销消融齐全，缺更大文生图（如 SDXL）实测。
写作质量: ⭐⭐⭐⭐⭐ 控制论叙事流畅，理论命题与工程细节衔接自然。
价值: ⭐⭐⭐⭐⭐ 用不到 5% 显存适配大模型 + 支持黑盒 reward，对科学发现/可控生成落地价值大。