RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=N2lMNqJsBw
代码: https://github.com/kohseim/rl_squeezes_sft_expands (有)
领域: 强化学习 / LLM推理
关键词: RLVR, SFT蒸馏, 推理路径, 推理图, 两阶段训练

一句话总结¶

这篇论文超越"只看准确率"的视角，提出一套从轨迹级和步骤级（推理图）两种粒度量化推理过程的分析框架，系统对比 RL 与 SFT 对推理 LLM 的不同塑形作用，得出核心结论——RL 在"压缩"（squeeze）、SFT 在"扩张"（expand）推理空间，从而解释了为何"先 SFT 后 RL"的两阶段训练范式有效。

研究背景与动机¶

领域现状：自 OpenAI-o1 与 DeepSeek-R1 之后，提升推理能力的后训练（post-training）主要靠两条路线——SFT（在强教师模型生成的推理轨迹上做模仿学习，最大化对数似然）和 RL（以可验证奖励 RLVR 最大化期望回报，常用 GRPO 等策略梯度方法）。当前 SOTA（如 ProRL、AceReason）几乎都是"DeepSeek-R1 蒸馏 checkpoint（即 SFT）→ 再 RL"的两阶段配方。

现有痛点：尽管两阶段训练在实践中反复奏效，但 RL 与 SFT 各自"到底改变了推理过程的什么"仍是黑箱。已有研究（Yue et al. 2025）发现一个看似矛盾的现象：随着采样次数 \(k\) 增大，Base 模型的 Pass@\(k\) 最终会反超经 RLVR 训练的 RL 模型——这暗示 RL 并没有教会模型新能力，只是"激发"了 Base 已有的能力。但这类结论全部停留在答案准确率层面，没人去看底层推理过程发生了什么。

核心矛盾：各种 SFT+RL 配方都是在不理解 RL（强化）与 SFT（模仿）各自分工的情况下"试错"调出来的。如果只比准确率，就无法解释"为什么是 SFT 先、RL 后这个顺序"，也无法指导数据构造与更高效的训练。

本文目标：回答"RL 和 SFT 在准确率之外，究竟如何塑造推理过程？"——并把它拆成两个可量化的子问题：(1) 整条推理输出（轨迹）的多样性如何变化；(2) 推理过程内部各步骤（节点）的功能分布如何变化。

切入角度：作者把推理过程显式建模成可度量的对象——轨迹级用聚类数刻画"独特推理路径"的数量，步骤级把推理输出切成句子、嵌入、聚类，构建一张"推理图"（reasoning graph），用复杂网络的拓扑指标去刻画推理的结构与功能分布。

核心 idea：用"推理路径数量 + 推理图拓扑"两把尺子去测量 RL/SFT 的塑形效果，发现 RL 压缩（squeeze）、SFT 扩张（expand） 这一对互补机制贯穿轨迹级和步骤级，从而为两阶段训练给出了机理解释。

方法详解¶

整体框架¶

本文不是提出新模型，而是提出一套对比分析框架。被分析对象是同一族、同一规模下的四个模型变体——Base（预训练后）、RL（Base 上做 RLVR）、SFT（Base 上做蒸馏）、SFT+RL（SFT 后再 RL），覆盖 1.5B/7B/14B 三种规模，在数学（AIME24/25、AMC23）与代码（HumanEval）域上评测。对每个问题采样 \(M=256\) 条输出后，框架沿两个粒度并行展开：轨迹级把整条思考输出当作一条路径，统计"独特正确/错误路径"的数量；步骤级把每条输出切成句子、嵌入、跨四模型共享聚类成节点，构造有向推理图，再用衰减率与拓扑指标刻画其结构。两条分析最终汇聚成同一结论：RL squeeze、SFT expand。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["四模型变体对照采样<br/>Base / RL / SFT / SFT+RL<br/>M=256 条输出"] --> B["轨迹级独特路径量化<br/>chrF 相似度 + UPGMA 聚类"]
    A --> C["步骤级推理图构建<br/>句子嵌入 + K-means 成节点"]
    C --> D["推理图拓扑度量<br/>指数衰减率 β + 全局/局部结构"]
    B --> E["结论：RL squeeze<br/>SFT expand"]
    D --> E

关键设计¶

1. 四模型变体对照：把"RL 做了什么、SFT 做了什么"拆成可比的四个点

为了把 RL 与 SFT 的作用分离开，作者固定模型族、规模与评测集，构造四个变体：Base 指预训练后的模型，RL 指 Base 直接做 RLVR（如 Qwen2.5-Math-Oat-Zero、SimpleRL-Zoo），SFT 指 Base 做蒸馏（DeepSeek-R1-Distill 系列），SFT+RL 指 SFT 之后再 RL（Nemotron-Research-Reasoning、AceReason-Nemotron）。这样"Base→RL"这条边单独反映 RL 的效果，"Base→SFT"反映 SFT 的效果，"SFT→SFT+RL"反映在已蒸馏模型上再加 RL 的效果。作者坦承一个局限：不同变体的训练数据并不严格对齐，因此关注的是 RL 与 SFT 之间原理性的算法差异，而非控制变量下的严格因果——但通过跨三种规模、跨数学/代码域复现，结论的稳健性得到支撑。

2. 轨迹级独特路径量化：用聚类数区分"正确路径"与"错误路径"的多样性

针对"Base 的 Pass@\(k\) 为何会反超 RL"这个谜题，作者直接去数"独特推理轨迹"的个数。对每个问题采样的 \(M\) 条输出，按可验证奖励切成正确集与错误集；轨迹间相似度用字符级 n-gram 指标 chrF 衡量（相比词级 BLEU，chrF 对形态变化如 "add" vs "adding" 更鲁棒），对称化为 \(s_{i,j}=\big(\text{chrF}_\beta(\pi_i,\pi_j)+\text{chrF}_\beta(\pi_j,\pi_i)\big)/2\)，距离 \(d_{i,j}=1-s_{i,j}\)。由于 chrF 不是欧氏空间的嵌入度量，聚类用 UPGMA（非加权算术平均的层次聚类）而非 Ward 法，按相似度阈值 60 剪枝树状图，得到正确/错误两类的聚类数。聚类数越多意味着模型掌握的"独特解法/独特错法"越多。这一设计把抽象的"多样性"落成了可数的簇数，从而能直接观察 RL 与 SFT 谁在增、谁在减。

3. 步骤级推理图构建：把一条思考链拆成句子节点、跨四模型共享聚类成一张有向图

为了看进推理过程内部，作者把每条输出 \(\pi^l_m\) 切成句子序列 \((r^l_{m,1},\dots,r^l_{m,T})\)，用 BGE-large-en-v1.5 句向量（\(d=1024\)）把每个句子嵌入。关键设计在于：把四个模型变体的所有句子嵌入放进同一个共享空间一起做 K-means 聚类（\(K=2000\)），每个簇就是一个节点 \(v_k\)。这样四个模型的推理图都活在同一套节点定义上，才能直接横向比较图的性质——若各用各自的内部表示，图会落在不同表示空间里无法可比。每条输出于是变成图上一条路径：连续相同的簇分配合并以避免自环，相邻不同簇之间连一条有向边 \((v_i\to v_j)\)，边权为质心欧氏距离 \(d(v_i,v_j)=\lVert c_i-c_j\rVert_2\) 并记录转移频率。最终模型 \(l\) 的弱连通推理图为 \(G^l=\bigcup_{m} G^l_m\)。

4. 推理图拓扑度量：用指数衰减率 β 与全局/局部指标量化"功能集中 vs 分散"

有了推理图，作者用复杂网络指标去量化结构。核心量是节点访问频率、度、介数中心性三条排序曲线——它们近似服从指数律 \(X(R)\propto e^{-\lambda R}\)（\(R\) 为节点排名），在 log-linear 图上近似线性。作者用线性回归 \(\log_{10}X(R)=\alpha-\beta R+\epsilon_R\) 估计衰减率 \(\beta=\lambda/\log 10\)。\(\beta\) 越大，说明少数高排名节点占据了绝大部分访问/连接/中介功能，即"功能集中到少数步骤"；\(\beta\) 越小则功能被摊薄到很多步骤。除衰减率外，作者还用八个全局拓扑指标（边密度、归一化聚类系数、同配性 assortativity、模块度 modularity、Freeman 中心化、归一化平均路径长度、全局效率、代数连通度）刻画整体结构，并用 graphlet（4 节点连通子图 G3–G8 的占比）刻画局部结构。正是这套度量让"squeeze/expand"从直觉变成数字：RL 把 \(\beta\) 抬高约 2.5 倍、SFT 把 \(\beta\) 压到约三分之一。

一个完整示例¶

以 1.5B 模型在 AIME24 上为例感受这套框架怎么落地：对某道题采样 256 条输出，轨迹级聚类后，Base 的（正确簇数, 错误簇数）约为 (22.2, 82.2)；做 RL 后压到约 (22.5, 22.6)——错误簇数从 82 暴跌到 23，正确簇数几乎不增甚至略减；做 SFT 后则变成 (3.3, 46.1) 到更高正确簇（不同问题不一），正确解法数上升但错误轨迹仍被保留。步骤级上，把这 256 条输出切句、嵌入、并入全局 2000 节点聚类得到推理图后估计 \(\beta\)：Base→RL 时频率/度/中心性的 \(\beta\) 显著变陡（功能塞进少数 hub 节点），Base→SFT 时 \(\beta\) 变缓（功能摊到许多节点）。两条粒度的观察相互印证，最终拼出"RL squeeze、SFT expand"这张全景图（论文 Figure 1）。

实验关键数据¶

主实验：轨迹级独特路径数变化¶

在 1.5B 模型、AIME24/25 与 AMC23 上，统计训练前后正确/错误独特轨迹簇数（数对为(正确簇, 错误簇)的代表值）：

模型变体（1.5B, AIME24）	正确簇数	错误簇数	现象
Base	22.2	82.2	多样但错法极多
RL（Base→RL）	22.5	22.6	错误轨迹被大幅压缩
SFT（Base→SFT）	升高	46.1	正确解法增加、错误仍保留
SFT+RL	—	进一步降低	SFT 扩正确、RL 压错误，互补

结论：RL 不论从 Base 还是 SFT 出发都显著减少错误轨迹（解释了 RL 提升 Pass@1 靠概率质量再分配），但同时也减少正确轨迹（解释了大 \(k\) 时 Base 的 Pass@\(k\) 反超 RL）；SFT 增加正确轨迹（教会 Base 不具备的新解法），却保留可观的错误轨迹（因此单靠 SFT 不保证 Pass@1）。代码域 HumanEval（7B）上结论一致。

步骤级：推理图衰减率与拓扑¶

度量	Base→RL	Base→SFT	解读
指数衰减率 \(\beta\)（频率/度/中心性）	升高（约 ×2.5）	降低（约 ÷3）	RL 把功能集中到少数节点，SFT 摊匀到多节点
模块度 modularity	降低	降低	两者都打散 Base 的社区结构
全局效率 / 代数连通度	RL：高效率但靠少数 hub	SFT：高鲁棒高可达	与 Pass@1/Pass@\(k\) 正相关
Freeman 中心化	升高	偏低	RL 形成 hub 主导图
4 节点 graphlet（G7/G8 环结构）	增多（无环 G3/G4 减少）	同样增多	两者都引入局部环（回溯/验证）

关键发现¶

RL 与 SFT 是一对互补机制：RL 压缩（尤其压错误轨迹、把图功能塞进少数 hub），SFT 扩张（增正确解法、把功能摊到多步骤），这正好解释"先 SFT 造对、再 RL 删错"的两阶段配方为何最大化 Pass@1。
局部结构无法单独解释性能：RL、SFT、SFT+RL 三者的 4 节点 graphlet 占比相近（都把无环变成有环），但它们性能差距巨大——说明全局拓扑（hub 集中 vs 全局连通）才是关键。
图指标与准确率相关：全局效率、代数连通度与 Pass@1/Pass@\(k\) 正相关，模块度负相关，提示这些结构量反映了模型探索解空间、一次答对的能力。
稳健性：结论跨 1.5B/7B/14B 三种规模、数学与代码两域、甚至 Llama 系列与 s1k-1.1 单响应 SFT 设置均成立。

亮点与洞察¶

把"推理过程"做成可量化对象：用轨迹聚类数 + 推理图拓扑两把尺子，把过去只能看准确率的黑箱拆成可测量的结构指标——这套"推理图"方法论本身可迁移到分析任何后训练手段对推理的影响。
共享嵌入空间联合聚类是让四模型可比的关键 trick：不在各自内部表示里建图，而是把所有模型的句子塞进同一句向量空间一起聚类，使不同模型的推理图共享节点定义，才谈得上横向比较。
一句机理回答了 Pass@k 之谜：RL 同时压错误轨迹和正确轨迹，正好解释了"为什么大 \(k\) 下 Base 反超 RL"——不是 RL 没用，而是 RL 牺牲多样性换 Pass@1。
可落地的训练启示：若 RL 只把功能集中到少数 hub/中心步骤，那么"只对功能性步骤施加 RL"或"把图度量（hub/中心性）作为 RL 的过程奖励"可能带来更高效的训练与数据构造。

局限与展望¶

未控制训练数据差异：作者明确承认四变体的训练数据并不严格对齐，关注的是 RL 与 SFT 的原理性算法差异，分布漂移下的推理路径变化尚待研究。
推理图构造引入超参与近似：节点由 K-means（\(K=2000\)）聚类定义、相似度阈值/编码器/距离度量都需消融（论文在附录做了 \(K=1000/3000\)、L2 vs cosine、BGE vs GTE 的鲁棒性检查），但句子切分与聚类粒度仍会影响图结构。
高边密度需稀疏化处理：因句子聚类导致图边密度偏高，需对每个节点保留 top-10/20 最近边再估 \(\beta\)，结论虽一致，但说明原始图存在度量偏置。
域局限：实验集中在可验证、竞赛级的数学与代码域，能否推广到开放式/自由生成任务待验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次用"推理图拓扑 + 轨迹聚类"双粒度量化 RL/SFT 的塑形差异，视角新颖
实验充分度: ⭐⭐⭐⭐ 跨三规模、双域、多模型族复现，附录消融充分；但未控制训练数据差异
写作质量: ⭐⭐⭐⭐ "squeeze/expand"主线清晰，图表丰富；部分推理图度量定义偏密集
价值: ⭐⭐⭐⭐⭐ 为两阶段训练给出机理解释，并指出"功能性步骤 RL""图度量做过程奖励"等可落地方向