Graph-GRPO: Training Graph Flow Models with Reinforcement Learning¶

会议: ICML 2026
arXiv: 2603.10395
代码: https://github.com/Zhubaoheng/Graph-GRPO
领域: 图学习 / 图生成 / 强化学习
关键词: 图流模型, 离散流匹配, GRPO, 分子优化, 可微采样

一句话总结¶

针对"图流模型（GFM）难以用强化学习对齐复杂目标"的痛点，本文提出 Graph-GRPO：先把 GFM 采样中不可微的蒙特卡洛速率矩阵推导成一个解析表达式，让整条去噪轨迹可微、可用 GRPO 训练；再配一个精炼策略对高分图反复"局部加噪—再生成"，在 50 步去噪下就在 Planar/Tree 上拿到 95.0%/97.5% 的 V.U.N.，并在分子优化（蛋白对接、PMO）上全面超过此前的图 RL 与遗传算法方法。

研究背景与动机¶

领域现状：图生成正从离散扩散转向离散流匹配范式，即所谓图流模型（Graph Flow Model, GFM，代表作 DeFoG）。GFM 把训练目标和采样过程解耦，用一个去噪器 \(f_\theta\) 预测干净图，再通过连续时间马尔可夫链（CTMC）的速率矩阵 \(R_t\) 一步步从噪声图采样出图，兼具高质量和灵活推理。

现有痛点：但 GFM 只会做"无条件"的从头生成（de novo），很难对齐到复杂的人类偏好或任务目标——例如药物发现要求生成高结合亲和、低毒性的小分子，这类目标只对应生成空间里一小块区域。直接用预训练 GFM 去采，绝大多数图是无效或低质量的。

核心矛盾：把 RL 接到 GFM 上有两个绕不开的硬骨头。其一，现代策略梯度要算新旧策略的概率比 \(r=\pi_\theta(G_{t+\mathrm{d}t}\mid G_t)/\pi_{\text{old}}(G_{t+\mathrm{d}t}\mid G_t)\)，这要求策略对每个动作的转移概率可微；可 GFM 的速率矩阵是靠蒙特卡洛采样一个伪图 \(\hat z_1\) 来估的，采样这一步把梯度流截断了，即便用 Gumbel-Softmax 强行续上，也会有"新旧模型采到不同伪图"导致训练—推理不一致的问题。其二，de novo 生成给出的奖励信号太稀疏（大部分图无效），RL 探索定位不到任务相关区域。

本文目标：让 GFM 能被端到端地 RL 训练，并在稀疏奖励下高效探索高潜力区域。

切入角度：作者发现速率矩阵的蒙特卡洛估计本质上是"对真实数据 \(z_1\) 求期望"，既然类别有限，就可以把这个期望解析地展开，绕过采样。

核心 idea：用一个可预计算的解析速率矩阵替换蒙特卡洛采样，使 GFM 的 rollout 全程可微、可套用 GRPO；再用精炼策略对高奖励样本反复局部扰动再生成，把探索集中到高潜力区域。

方法详解¶

整体框架¶

Graph-GRPO 建立在预训练的 GFM（DeFoG，去噪器是带 RRWP 的图 Transformer）之上，把它当作策略模型 \(\pi_\theta\)，状态是当前图、动作是采样下一步图的节点和边。整条流水线是：从同一个噪声图 \(G_0\) 出发，用解析速率矩阵算出可微的转移概率并采出一组 \(K\) 条去噪轨迹（rollout），缓存每步转移概率与终点图的奖励；把奖励组内归一化成优势，用 GRPO 的裁剪目标加 KL 约束更新策略；最后用精炼策略挑出高分图反复"加噪—再生成"，进一步把生成质量推向任务目标区域。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["噪声图 G0"] --> B["解析速率矩阵<br/>把 MC 采样换成可微转移概率"]
    B --> C["Rollout 采样<br/>K 条去噪轨迹 + 缓存每步转移概率与奖励"]
    C --> D["GRPO 训练<br/>组相对优势 + 裁剪比值 + KL 约束"]
    D -->|挑出 top-M 高奖励图| E["精炼策略<br/>重加噪到 t_eps → 再生成 → 留 top-M"]
    E --> F["对齐任务目标的 GFM"]

关键设计¶

1. 解析速率矩阵：把不可微的蒙特卡洛采样换成可微的闭式转移概率

这是让 RL 能接上 GFM 的根。原版 DeFoG（算法 1）在每个去噪步先用去噪器预测分布 \(p_\theta(\cdot\mid z_t)\)，再采样一个伪图 \(\hat z_1\sim p_\theta(\cdot\mid z_t)\)，用它去算条件速率矩阵 \(R_t(z_t,z_{t+\mathrm{d}t}\mid \hat z_1)\)（式 8），转移概率为 \(p(z_{t+\Delta t}\mid z_t)=\delta(z_t,z_{t+\Delta t})+R_t\,\Delta t\)。这个采样让转移概率对 \(\theta\) 不可微，策略比值算不了。作者注意到无条件速率矩阵其实是对伪图求期望 \(R_t(z_t,z_{t+\mathrm{d}t})=\mathbb{E}_{\hat z_1\sim p_\theta(\cdot\mid z_t)}[R_t(z_t,z_{t+\mathrm{d}t}\mid \hat z_1)]\)，于是把它解析地展开（命题 3.1，算法 2）：

\[R_t^{\theta}(z_t,z_{t+\mathrm{d}t})=p_\theta(z_{t+\mathrm{d}t})\,V_1+\big(1-p_\theta(z_t)-p_\theta(z_{t+\mathrm{d}t})\big)\,V_2,\]

其中 \(V_1=\frac{1+p_0(z_t)-p_0(z_{t+\mathrm{d}t})}{Z_t^{>0}(1-t)p_0(z_t)}\)、\(V_2=\frac{\mathrm{ReLU}(p_0(z_t)-p_0(z_{t+\mathrm{d}t}))}{Z_t^{>0}(1-t)p_0(z_t)}\) 只依赖先验分布 \(p_0\) 和时间 \(t\)，可在生成前预计算。这样转移概率就成了去噪器预测 \(p_\theta\) 的可微函数，不再需要采伪图——既续上了梯度流，又消除了"新旧模型采到不同伪图"造成的训练—推理不一致。

2. 组相对策略优化（GRPO）的 rollout 与训练：在稀疏奖励下做组内对比

有了可微转移概率，作者套用 GRPO 框架。Rollout 阶段：固定同一个噪声图 \(G_0\)，让 GFM 并行生成一组 \(K\) 条轨迹 \(\{\tau^{(k)}\}_{k=1}^K\)，显式记录每条轨迹 \(\tau^{(k)}=\{G_0,G_{\Delta t}^{(k)},\dots,G_1^{(k)}\}\) 及其逐步转移概率 \(p(G_{t+\Delta t}^{(k)}\mid G_t^{(k)})\)；到达终点用任务奖励函数算 \(R^{(k)}=\mathcal{R}(G_1^{(k)})\)（如结构有效性或对接分数）。训练阶段用组相对优势把奖励标准化 \(A^{(k)}=\frac{R^{(k)}-\operatorname{mean}(\{R^{(i)}\})}{\operatorname{std}(\{R^{(i)}\})}\)，配合裁剪过的重要性比值 \(r_{t,\theta}^{(k)}=\frac{\pi_\theta(G_{t+\Delta t}^{(k)}\mid G_t^{(k)})}{\pi_{\text{old}}(G_{t+\Delta t}^{(k)}\mid G_t^{(k)})}\) 最大化目标 \(\mathcal{L}_t^{(k)}=\min\big(r_{t,\theta}^{(k)}A^{(k)},\,\operatorname{clip}(r_{t,\theta}^{(k)},1\pm\epsilon)A^{(k)}\big)\)，并加一项 \(-\beta D_{\text{KL}}(\pi_\theta\Vert\pi_{\text{ref}})\) 把策略约束在预训练 DeFoG 附近。组内对比的好处是不需要单独的价值网络，用同一噪声图下的相对优劣就能给出稳定的优势估计，缓解了 de novo 奖励稀疏带来的高方差，同时 KL 约束防止 reward hacking、保住化学有效性。

3. 精炼策略：对高分图"局部加噪—再生成"做定向探索

只靠 de novo 采样，模型很难命中任务目标那一小块区域。作者维护一个优先级池 \(\mathcal{B}\) 存当前奖励 top-\(M\) 的图，每轮对池里的图做"重加噪 + 再生成"：先按条件概率路径 \(p_{t_\epsilon\mid 1}(z_{t_\epsilon}\mid z_1)=t_\epsilon\cdot\delta(z_{t_\epsilon},z_1)+(1-t_\epsilon)\cdot p_0(z_{t_\epsilon})\) 把 \(G_1\) 回退到中间噪声态 \(t_\epsilon\in(0,1)\)——\(t_\epsilon\) 越大扰动越小，相当于只随机扰动局部节点和边；再让 GFM 从这些带噪图重新去噪生成多个候选，评分后与池中图比较、保留 top-\(M\)。重复多轮，生成分布就逐步收敛到高潜力区域。它本质上等价于"显式增加去噪步数 + 围绕好样本局部搜索"，在高度选择性的奖励（如 Valsartan SMARTS）上比从头生成有效得多。

损失函数 / 训练策略¶

整体目标沿用标准 GRPO：\(\mathcal{J}(\theta)=\frac{1}{KT}\sum_{k=1}^K\sum_{t=1}^T\big(\mathcal{L}_t^{(k)}(\theta)-\beta D_{\text{KL}}(\pi_\theta\Vert\pi_{\text{ref}})\big)\)。合成图任务的奖励是"硬有效性约束 + 软分布匹配"的组合：\(R(G)=\mathbb{I}(G)\cdot\big(\alpha+\frac{1-\alpha}{|\mathcal{K}|}\sum_{k\in\mathcal{K}}S_k\big)\)，其中 \(\mathbb{I}(G)\) 是有效性指示，\(\mathcal{K}=\{\text{deg},\text{clus},\text{orb}\}\) 是度/聚类/orbit 三类结构相似度，\(\alpha=0.65\) 优先保证有效性、其余容量留给结构精修。分子任务的奖励则换成对接分数（DS）等。

实验关键数据¶

主实验¶

合成图生成（Planar / Tree，64 节点，5 次评测各生成 40 图，V.U.N. 越高越好、Ratio 越低越好）。Graph-GRPO 仅用 50 步去噪就压过用 1000 步的扩散与策略优化方法：

模型	步数	Planar V.U.N.↑	Planar Ratio↓	Tree V.U.N.↑	Tree Ratio↓
DiGress	1,000	77.5	5.1	90.0	1.6
DisCo	1,000	83.6	-	-	-
GDPO	1,000	73.8	-	-	-
DeFoG（基座）	50	95.0	3.2	73.5	2.5
Graph-GRPO	50	95.0	1.5	97.5	2.2

蛋白对接（ZINC250k，DS top 5% 越负越好、Hit Ratio 越高越好），Graph-GRPO 对每个靶点都大幅领先 RL 类（GDPO/DDPO/FREED）与基础生成类方法：

靶点	指标	Graph-GRPO	GDPO	MOOD	DiGress
parp1	DS top5%↓	-12.515	-10.938	-10.865	-9.219
parp1	Hit Ratio↑	60.763	9.814	7.017	0.366
jak2	DS top5%↓	-11.123	-10.183	-10.147	-8.706
jak2	Hit Ratio↑	52.897	13.405	9.200	0.861
5ht1b	Hit Ratio↑	46.634	34.359	18.673	4.236

消融实验¶

精炼策略的作用主要体现在不同难度任务上的差异（图 1）。在基础的 Scaffold Hopping 任务上，de novo 生成和带精炼几乎打平；但在高度选择性奖励的 Valsartan SMARTS 任务上，两者拉开明显差距，说明任务越难、目标区域越窄，精炼的"局部搜索"越关键。PMO benchmark（AUC-top10）上 Graph-GRPO 在冷启动（无预筛）设定下对多数 oracle 也优于 InVirtuoGen、Gen.GFN、Mol GA 等：

配置 / oracle	关键指标	说明
de novo（基础任务）	≈ 持平	Scaffold Hopping 上精炼增益不明显
+ 精炼（难任务）	显著领先	Valsartan SMARTS 上拉开大差距
Celecoxib Rediscovery（冷启动）	0.890 vs 0.802(Gen.GFN)	多数 PMO oracle 上领先
Fexofenadine MPO（冷启动）	0.984 vs 0.856	优势稳定

关键发现¶

解析速率矩阵是"能不能训"的开关：没有它，GFM 的转移概率不可微，GRPO 的比值根本算不出来；有了它才有后续一切。这是方法最核心、也最有迁移价值的一步。
精炼的收益与任务难度强相关：奖励越选择性（目标区域越窄），从头生成越难命中，反复局部扰动再生成的增益越大；在简单任务上则可有可无。
少步数高质量：50 步去噪即超过 1000 步的扩散基线，说明 RL 对齐带来的提升不是靠堆采样步数，而是把生成分布真正挪向了目标区域。

亮点与洞察¶

把"对真实数据求期望"的蒙特卡洛速率矩阵解析展开成只依赖先验 \(p_0\) 与 \(t\) 的闭式 \(V_1,V_2\)，一步同时解决"不可微"和"训练—推理不一致"两个问题——这种"用解析期望替采样"的思路可迁移到其他离散扩散/流模型的 RL 微调。
精炼策略本质是"在采样阶段做围绕好样本的局部搜索"，把 RL 探索和推理时缩放（增加等效去噪步）统一起来，思路上接近图像扩散里的 SDEdit/迭代精修。
用 GRPO 而非 PPO，省掉价值网络、靠组内相对优势，天然适合"同一噪声图采一组轨迹"的图生成场景。

局限与展望¶

解析速率矩阵的推导依赖离散流匹配的具体形式（线性插值条件路径、co-design 速率矩阵），换成别的噪声调度或连续状态可能需要重推。
精炼引入额外超参（池大小 \(M\)、回退时刻 \(t_\epsilon\)、每轮候选数），论文正文未给系统的敏感性分析，实际迁移到新任务时调参成本未知。
奖励仍需可验证的 oracle（对接分数、结构相似度），对没有清晰打分函数的"软偏好"目标如何对齐尚未触及。