Reinforcement Learning Finetunes Small Subnetworks in Large Language Models¶

会议: NeurIPS 2025
arXiv: 2505.11711
代码: GitHub
领域: LLM对齐
关键词: reinforcement-learning, sparse subnetwork, parameter update sparsity, LLM finetuning, lottery ticket hypothesis

一句话总结¶

RL 微调 LLM 时实际上只更新了 5%-30% 的参数（稀疏子网络），且该子网络在不同种子、数据和算法间具有高度一致性，仅微调子网络即可复现完整微调的模型性能甚至参数值。

研究背景与动机¶

强化学习（RL）是 LLM 后训练的重要阶段，用于推理能力提升和人类价值对齐
主流观点认为 RL 需要大幅修改模型参数来实现目标行为，因此广泛采用全参数微调
然而，RL 真的更新了所有参数吗？ 本文给出了否定的回答
这一现象不依赖任何显式稀疏正则化、架构约束或参数高效训练方法，而是自然涌现的
现有 LTH（Lottery Ticket Hypothesis）关注性能复现，本文更进一步发现可以复现几乎相同的参数值

方法详解¶

整体框架¶

本文不是提出新算法，而是系统性地分析 RL 微调中的参数更新稀疏性现象。核心流程：

测量更新稀疏性：对比 RL 微调前后的参数，定义 \(\text{sparsity}(\theta^0, \theta^1) = 1 - \|\theta^1 - \theta^0\|_0 / n\)
提取子网络：定义二值掩码 \(m \in \{0,1\}^{|\theta|}\)，其中 \(m_i = 1\) 当 \((\theta_{\text{init}} - \theta_{\text{full}})_i \neq 0\)
子网络微调验证：用掩码 \(m \odot \nabla_\theta \mathcal{L}(\theta)\) 限制梯度更新，仅训练子网络
跨条件一致性分析：比较不同种子、数据、算法下的子网络重叠度

关键设计¶

参数更新稀疏性的定义与度量：

采用 bfloat16 精度，绝对差 ≤ \(10^{-5}\) 视为相等（与 PyTorch 默认容差一致）
覆盖 7 种 RL 算法：PPO、GRPO、DPO、ORPO、KTO、SimPO、PRIME
覆盖 10 个不同家族的 LLM

子网络重叠度量：

\[o_1 = \frac{|\mathcal{I}_1 \cap \mathcal{I}_2|}{|\mathcal{I}_1|}, \quad o_2 = \frac{|\mathcal{I}_1 \cap \mathcal{I}_2|}{|\mathcal{I}_2|}\]

其中 \(\mathcal{I}_1, \mathcal{I}_2\) 为两次训练中更新参数的索引集。

核心猜想（Conjecture 1）：在相同数据和超参数下，子网络微调得到的 \(\theta_{\text{sub}} \approx \theta_{\text{full}}\)，即不仅性能一致，参数值也几乎完全相同。

更新稀疏性的成因分析¶

论文系统排查了多个可能因素：

因素	影响
梯度裁剪	有限影响（有无裁剪稀疏性相近：69.8% vs 68.8%）
KL 正则化	有限影响（SimPO 去掉 KL 仍然稀疏）
SFT 前置	非必要（DeepSeek-R1-Zero 无 SFT 仍 86% 稀疏）
训练步数	早期影响大，后期趋于收敛
分布内数据训练	主要驱动因素

核心发现：在分布内数据上训练是稀疏性的主因。在 policy 已分配高概率的序列上计算梯度，参数几乎不需要更新。

实验关键数据¶

主实验：RL 更新稀疏性¶

算法	模型	更新稀疏性
DPO	Tulu-3-8B	81.4%
DPO	Tulu-3-70B	95.2%
GRPO	DeepSeek-Math-7B	68.5%
GRPO	DeepSeek-R1-Zero	86.0%
KTO	Eurus-7B	96.0%
PPO	Math-Shepherd-Mistral-7B	80.8%
SimPO	Llama-3-8B-SimPO	86.5%
PRIME	Eurus-2-7B	77.0%

所有 RL 微调模型的 68.5%-96.0% 参数保持不变。对比 SFT 仅有 6%-15% 稀疏性。

子网络微调验证¶

任务	\(\theta_{\text{full}}\)	\(\theta_{\text{sub}}\)	差异
AGIEval LSAT-AR (DPO)	21.3	24.8	+3.5
AGIEval LSAT-LR (DPO)	53.1	54.7	+1.6
MMLU Pro Math (DPO)	50.8	51.6	+0.8
MATH500 Overall (PRIME)	69.8	72.2	+2.4
MATH500 Lvl5 (PRIME)	40.3	45.5	+5.2

子网络微调不仅恢复了完整模型的性能，在所有任务上还优于全参微调。 在容差 \(10^{-4}\) 下，\(\theta_{\text{full}}\) 和 \(\theta_{\text{sub}}\) 100% 相同。

消融实验：跨条件子网络重叠¶

变化因素	随机基线	RL 子网络重叠
不同种子	36.7%	60.5%
不同数据	14.6%/36.7%	26.7%/67.1%
种子+数据+算法	23.0%/12.9%	59.1%/33.2%

关键发现¶

更新矩阵的秩几乎满秩（99.2%-99.8%），说明 RL 更新是"稀疏但满秩"的
更新不集中在特定层——几乎所有参数矩阵都有类似的稀疏更新（LayerNorm 除外）
PRIME 中约 72% 参数从未被更新，8% 有互相抵消的梯度，20% 构成实际子网络
分布内 SFT（如 rejection sampling）也能产生稀疏更新（~90% 稀疏），分布外 DPO 则仅有 ~7% 稀疏

亮点与洞察¶

超越 LTH 的发现：不仅子网络性能可复现，参数值也几乎完全一致——这是比 Lottery Ticket Hypothesis 更强的结论
稀疏但满秩：与 LoRA 的低秩假设形成鲜明对比，RL 更新选择了一小部分参数但几乎跨越了参数矩阵的全部子空间
分布内训练是关键：统一解释了为什么 on-policy RL 和 SFT 后的 off-policy RL 都产生稀疏更新
实践意义：为高效 RL 训练方法提供理论基础——可以只训练子网络来节省计算量
预训练模型中存在可迁移结构：不同条件下子网络的高重叠度暗示模型本身存在"天然适合 RL 的子结构"

局限与展望¶

由 RL 计算成本限制，每次只变化一个因素，可能忽略因素间的交互效应
部分实验依赖公开 checkpoint 而非完全控制的训练
仅聚焦语言模型，未探索多模态和扩散模型
缺乏对早期子网络识别方法的研究——如何在训练初期就发现子网络？
未深入理论分析更新稀疏性的数学本质
部分反例（如 prolonged RL）存在但未充分探讨

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统揭示 RL 微调的参数更新稀疏性，发现超越 LTH
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 7 种算法、10 个模型，系统消融各因素
写作质量: ⭐⭐⭐⭐ 结构清晰、论证有力，但部分证据依赖公开 checkpoint
价值: ⭐⭐⭐⭐⭐ 对 RL 微调本质的深刻洞察，具有重要的理论和实践意义