Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples¶

会议: ICML2025
arXiv: 2406.05673
代码: Yu-Fangxu/FoR
领域: 强化学习
关键词: GFlowNet, 发散性推理, 多样化采样, 少样本微调, 马尔可夫流, 轨迹平衡

一句话总结¶

提出 Flow of Reasoning (FoR)，将多步 LLM 推理建模为 DAG 上的马尔可夫流，借助 GFlowNet 的轨迹平衡目标微调 LLM，使其仅用极少训练样本（如15个）即可采样出概率正比于奖励的多条高质量且多样化的推理路径。

研究背景与动机¶

发散性推理的重要性：人类智能的核心标志之一是对同一问题生成多条不同解法（divergent reasoning），这对增强鲁棒性（如 self-consistency 投票）和辅助科学发现至关重要。
现有方法的局限：
- 推理时方法（CoT/ToT/RAP）：高度依赖基座模型能力，搜索式推理计算开销大，多样性受限于解码策略。
- SFT：需要大量标注数据才能覆盖解的多样性，标注成本高。
- 奖励最大化 RL（PPO）：目标是找到最高奖励的单一解，天然忽略解的多样性。
核心差距：缺乏一种数据高效的方法，在保证推理质量的同时发现多条不同的正确推理路径。

方法详解¶

核心思想：推理即马尔可夫流¶

将多步推理问题建模为有向无环图（DAG）上的流网络：

状态节点 \(s_t\)：推理过程中的中间状态（如 BlocksWorld 的方块配置）
边（动作） \(s_t \to s_{t+1}\)：一步推理操作
完整轨迹 \(\tau = (s_0 \to s_1 \to \cdots \to s_n)\)：从初始状态到终态的完整推理路径
目标：学习前向策略 \(P_F(s_t | s_{t-1}; \theta, g)\)，使采样轨迹的概率正比于终态奖励 \(R(s_n)\)

与传统 RL（PPO）追求奖励最大化不同，FoR 的目标是按奖励成比例地采样多条不同路径。

流的分解与前向策略¶

轨迹概率通过马尔可夫假设分解为逐步条件概率：

\[P(\tau) = \prod_{t=1}^{n} P_F(s_t | s_{t-1})\]

前向策略用 LLM 参数化：\(P_F(s_{t+1} | s_t; \theta, g) = P_{\text{LLM}}(a_t | s_t; \theta, g, c)\)。

轨迹平衡（Trajectory Balance）目标¶

核心训练约束：

\[Z(s_0, g) \prod_{t=1}^{n} P_F(s_t | s_{t-1}; \theta, g) = R(s_n) \prod_{t=1}^{n} P_B(s_{t-1} | s_t)\]

其中 \(P_B\) 为后向策略，设为均匀分布 \(P_B(s_{t-1}|s_t) = 1/|\text{Pa}(s_t)|\)。

对数方差损失（Log-Variance Loss）¶

为避免直接学习 \(\log Z\)，采用对数方差近似：

\[\Phi(\tau; \theta) = \log R(s_n) + \sum_{t=1}^{n} \log P_B(s_{t-1}|s_t) - \sum_{t=1}^{n} \log P_F(s_t|s_{t-1}; \theta, g)\]

最终损失函数：

\[\mathcal{L}_V(\tau; \theta) = \left(\Phi(\tau; \theta) - \mathbb{E}_\tau[\Phi(\tau; \theta)]\right)^2\]

最小化不同轨迹上 \(\Phi\) 的方差，使流满足终态流等于奖励的条件。

高效探索策略¶

On-policy：用当前策略 \(P_F\) 及温度变体采样轨迹
Off-policy：优先回放缓冲区（优先高奖励轨迹）+ \(\epsilon\)-采样
局部搜索（Local Search）：选取批次中最高奖励轨迹，截断后半段，用随机策略 \(P_U\) 重构，高效探索高奖励区域的邻域

与 GFN-CoT 的关键区别¶

FoR 在推理步骤级别建模（每步对应一个推理操作），而非 token 级别，将搜索式推理的计算开销摊销（amortize）到训练阶段。

实验关键数据¶

基座模型：Llama-3-8B，所有微调方法使用相同数据集。

BlocksWorld（具身推理）¶

方法	2步 Acc(%)	4步 Acc(%)	6步 Acc(%)	6步 Diversity	6步 Creativity(%)
CoT (1-shot)	48.88	28.57	15.82	1.05	0.00
CoT (GPT-4o)	93.33	54.76	67.67	1.06	0.79
RAP	100.00	92.86	69.70	-	-
O1-mini	100.00	100.00	93.93	1.05	2.38
SFT (α=1.0)	44.44	42.06	34.68	1.04	4.76
SFT + PPO	46.66	44.44	24.58	1.08	3.17
FoR	100.00	98.41	78.44	1.33	9.52

跨任务汇总（核心结果）¶

Game24（数学谜题）：FoR 发现 3+ 种不同正确解法，基线方法（SFT/CoT）仅能反复生成 1 种
Rubik's Cube（空间推理）：FoR 在准确率和多样性上均大幅领先
1D-ARC（抽象推理）：FoR 表现优异
GSM8K（数学推理）& ProntoQA（逻辑推理）：FoR 在保持高准确率的同时显著提升解的多样性
整体比基线提升 20%–85%，仅需 15 个训练样本

关键消融实验¶

局部搜索对训练效率和最终性能贡献显著
混合探索（on-policy + off-policy + local search）效果最佳
奖励设计中，正确解给高奖励、错误解给低奖励的方式对多样性至关重要

亮点与洞察¶

极致数据效率：仅 15 个训练样本即可微调 LLM 实现多样化推理，远优于 SFT 对大量标注的需求
原理优雅：将 GFlowNet 的流匹配理论与 LLM 推理结合，奖励成比例采样天然鼓励多样性
推理步骤级建模：不同于 token 级 GFlowNet，在推理步骤粒度建模更符合多步推理的结构特性
训练时摊销推理开销：搜索代价在训练阶段完成，推理时仅需前向采样，效率远高于 ToT/RAP
六个任务全面验证：涵盖具身推理、数学、空间、抽象、逻辑等多个推理类型
Creativity 指标新颖：提出衡量方法独特发现正确解的比例，不仅看多样性还看"创造力"

局限与展望¶

DAG 结构假设：要求推理过程可建模为 DAG，对自由形式的开放式推理（如创意写作）未必适用
奖励函数依赖：需要明确的终态奖励 \(R(s_n)\)，而很多实际推理任务缺乏清晰的自动奖励信号
状态转移函数：部分任务需要额外的环境模拟器或 LLM 辅助确定状态转移 \(T(s_t, a_t)\)
基座模型规模：仅在 Llama-3-8B 上验证，更大规模模型上的效果未知
可扩展性：随推理步数增长，轨迹空间指数膨胀，探索效率可能下降
与 RLHF/DPO 的结合：未探讨与对齐方法的整合潜力

评分¶

新颖性: ⭐⭐⭐⭐⭐ (GFlowNet + LLM推理的首次步骤级结合，框架优雅)
实验充分度: ⭐⭐⭐⭐ (6个任务覆盖广泛，消融扎实，但仅单一基座模型)
写作质量: ⭐⭐⭐⭐⭐ (流的类比直观易懂，公式推导清晰)
价值: ⭐⭐⭐⭐⭐ (填补LLM多样化推理的重要空白，数据效率极高)