Parameter-Efficient Reinforcement Learning using Prefix Optimization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=SLhLUdlaqc
代码: https://github.com/ItamarRocha/Prefix-RL
领域: LLM推理 / 强化学习 / 参数高效微调
关键词: RLVR, 前缀优化, 数学推理, 参数高效, PPO

一句话总结¶

本文提出只优化回答的前 \(k\) 个 token（前缀），把后续生成全部交给冻结的参考模型来完成，借此说明 RLVR 在数学推理上的相当一部分增益其实来自"挑了个更好的解题策略/格式"，并由此衍生出一个极省算力的参数高效 RL 方法 Prefix-RL：用一个 1B 小 adapter 生成前缀去引导 7B~72B 大模型，仅训练 adapter 就能在 MATH-500 上把 Qwen-7B 从 67.4% 提到 74.4%。

研究背景与动机¶

领域现状：RLVR（Reinforcement Learning with Verifiable Rewards）是当下提升大模型数学推理能力的主流手段——给模型一道题，让它生成解答，再用一个可验证的奖励（答案对/错的二值信号）做 PPO 之类的策略梯度微调。各家的 reasoning 模型大多都靠这套流程拿到了 benchmark 上的提升。

现有痛点：但有一个长期含糊的问题没人说清——RLVR 的提升到底是因为模型"真的变会推理了"（算术更准、证明步骤执行更好、数学事实记得更牢），还是仅仅因为 RL 把输出分布往那些"本来就在预训练分布里、恰好准确率更高的解答格式/策略"上挪了一挪？近期工作（Zhao et al. 2025；Yue et al. 2025）已经观察到，从零预训练的模型经过 RL 后会把输出集中到某些特定的生成格式上，暗示后者的成分不小。

核心矛盾：如果增益主要来自"上调已有好策略的权重"，而非"教会新推理技能"，那么为了这点提升去做全模型 RL 微调就太奢侈了——全模型 RL 既要做推理 rollout、又要反向传播穿过整个大模型，算力随模型规模线性增长，对 70B 级模型而言往往超出常规预算。

本文目标：(1) 设计一个能把"策略上调"成分单独隔离出来的实验，量化它在 RL 增益里占多少；(2) 把这个洞察转化成一个真正省算力、参数高效的 RL 替代方案。

切入角度：解答的"解题策略和格式"几乎完全由开头的前几个 token 决定——比如以 ## Step 1: To... 开头就意味着要走分步推理。所以只要只改前 \(k\) 个 token、其余全由参考模型补完，就能把"换策略"和"提升推理"两种来源干净地分开：因为绝大多数 token 都出自冻结的参考模型，任何提升都只能归因于"换了个更好的开头"。

核心 idea：用"只优化前缀"代替"优化整条序列"，既当作诊断 RL 增益来源的探针，又当作一个把训练成本从大模型解耦出去的参数高效 RL 方法。

方法详解¶

整体框架¶

本文把"优化整条回答"收窄成"只优化回答的前 \(k\) 个 token"。形式化地：输入问题 \(x_1,\dots,x_n\)，用某个模型 \(g_\theta\) 生成前缀 \(y_1,\dots,y_k \sim g_\theta(x)\)，再让冻结的参考模型 \(f_{\text{ref}}\) 在给定输入和前缀的条件下补完剩余 \(y_{k+1},\dots,y_m \sim f_{\text{ref}}(x, y_{1:k})\)，最后对整条 \(y_{1:m}\) 算可验证奖励 \(r(\cdot)\)（答案对为 1、错为 0）。

围绕"怎么得到前缀"，作者给了两条路线：一条是 Prefix Clustering（前缀聚类）——完全不训练，从参考模型采样一堆前缀、聚类、挑一个在训练集上奖励最高的"全局固定前缀"，对所有题都用同一个开头；另一条是 Prefix-RL——用一个轻量 adapter 模型按输入条件地生成前缀，并用 PPO 只训练这个 adapter，大目标模型全程冻结、只跑推理。后者是本文真正主推的参数高效方法，pipeline 清晰，如下图：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入问题 x"] --> B["小 adapter 生成前缀<br/>y(1:k) ~ gθ(x)"]
    B --> C["冻结大目标模型补完<br/>y(k+1:m) ~ fref(x, 前缀)"]
    C --> D["math-verify 算二值奖励<br/>答案对=1 / 错=0"]
    D -->|PPO 只更新 adapter| B
    D --> E["输出完整解答 y(1:m)"]

关键设计¶

1. 前缀优化设定：用"只改前 k 个 token"把 RL 增益的来源拆开

这是全文的方法论基石，针对的是"RL 增益究竟来自换策略还是真推理"这一含糊问题。作者把可优化范围严格限制在前 \(k\) 个 token（主结果用 \(k\in\{32,64\}\)），其余 \(y_{k+1:m}\) 全部从冻结的参考模型 \(f_{\text{ref}}\) 采样。由于参考模型权重一动不动、只负责补 token，整个流程里任何准确率变化都不可能来自"教会 backbone 新的 token 级技能"，只能来自"怎么起这个头"。换句话说，这个设定天然隔离了"上调参考分布里已有好策略"这一成分。实验（Llama-1B 自我前缀优化 vs 全序列 RL）显示：全序列 RL 最终最高，但只优化前缀就已经能把准确率拉起来一大截，说明 RL 的相当一部分好处确实是"把模型引导到更有效的回答格式"而非"增强推理能力"。

2. Prefix Clustering：一个 0 训练的固定前缀诊断基线

这一设计回答"是否存在某个固定开头就能搬动准确率"。做法极简：对训练集 \(D\) 里每道题从参考模型采一个输出，取所有输出长度为 \(k\)（实测用 \(k{=}16\)）的前缀，用 k-means 聚成 \(c\) 个簇（簇数由肘部法则 elbow method 自动选，通常 5~6 个），得到候选前缀 \(\{(y^{(1)}_{1:k}),\dots,(y^{(c)}_{1:k})\}\)，再选训练集上奖励最高的那个：

\[i_{\max} = \arg\max_i\ \mathbb{E}_{x\sim D}\big[\,r\big(f_{\text{ref}}(x_1,\dots,x_n, y^{(i)}_{1},\dots,y^{(i)}_{k})\big)\,\big]\]

然后把这个与输入无关的固定前缀 \(y^{(i_{\max})}_{1:k}\) 拼在所有测试题前面。它的价值不是当实用方法，而是当"格式上调"效应的探针：在 Llama 家族上，一个固定的 step-by-step 开头就能带来可观提升（如 Llama-8B 在 AMC23 上 +13.1、Llama-70B-FP8 在 AIME 上 +15.2），说明这些模型只要被引导进显式分步格式就能受益；但在 Qwen 上它常常严重掉点（Qwen-7B 在 MATH-500 上 −8.0），因为 Qwen 偏好的开头更依赖具体输入。这种脆性正好反衬出需要"按输入条件生成前缀"的 Prefix-RL。

3. Prefix-RL：把训练成本从大模型解耦到小 adapter 上

这是本文的主方法，直接对应痛点"全模型 RL 算力随 backbone 规模线性增长"。它用一个约 1B 参数的小 adapter \(g_\theta\) 来生成前缀，引导一个大得多的目标模型 \(f_{\text{ref}}\) 完成解答；rollout 时先 \(y_{1:k}\sim g_\theta(x)\)、再 \(y_{k+1:m}\sim f_{\text{ref}}(x,y_{1:k})\)，用 PPO 针对整条奖励 \(r(y_{1:m})\) 只优化 \(g_\theta\)，目标模型全程冻结、只需要推理访问。关键收益在于：参数高效微调里 LoRA/QLoRA 虽然只更新少量参数，但 RL 时梯度仍要反传穿过整个目标网络，训练 FLOPs 还是随 backbone 规模走；而 Prefix-RL 的反传只发生在独立的小 adapter 上，训练算力与目标模型规模解耦。Table 2 给出对比：标准 RL 训练计算约 \(C_{\text{train}}N_t R T\)，Prefix-RL 仅 \(C_{\text{train}}N_a R k\)（\(N_t,N_a\) 为目标/adapter 参数量，\(R\) 为 rollout 数，\(T,k\) 为 token 数）——adapter 小、前缀短，省得很。实践上甚至能用 8 张 GPU（4 训 adapter + 4 服务目标）微调 70B 模型，而标准 RLHF 同配置通常要 32 张，约 4× 的 GPU 节省。它还顺带带来两个不改权重的好处：避免灾难性遗忘/对齐税/语言漂移，且不同任务可挂不同 adapter 互不干扰，甚至能套在只有 API 推理访问的闭源模型上。

一个重要约束：adapter 与目标模型必须同家族（如 Qwen-1.5B adapter 配 Qwen-7B 目标）。作者观察到跨家族（如 Qwen adapter 配 Llama 目标）会明显掉点，推测是因为有效引导依赖共享的回答模式。

损失函数 / 训练策略¶

用 OpenRLHF 流水线 + PPO（Schulman et al. 2017），KL 惩罚系数 \(\beta=0.001\)、熵奖励 \(\alpha=-0.001\)、默认不加权重衰减；rollout 温度 0.7（vLLM），训练/rollout batch 均 512，每题采 8 个回答（即每个 rollout step 做 8 次梯度更新）；actor/critic 学习率分别 5e-7 / 9e-6。奖励是 math-verify 给出的二值正确性。adapter 用 Llama-3.1-1B-Instruct 或 Qwen2.5-1.5B，目标用 Llama-3.1-8B/70B-FP8、Qwen2.5-7B/72B；每个实验 4×H100，训 10 个 episode（Llama adapter 约 140 步、Qwen adapter 约 170 步）。

实验关键数据¶

主实验¶

在四个数学推理 benchmark（MATH-500 / AIME / AMC23 / Minerva）上对比各目标模型微调前后（节选，括号内为相对基线增量）：

目标模型	方法	MATH-500	AIME	AMC23	Minerva
Qwen-7B	基线	67.4	23.0	40.3	19.1
Qwen-7B	+Prefix-RL (k=32)	74.4 (+7.0)	25.8 (+2.8)	50.0 (+9.7)	22.4 (+3.3)
Qwen-7B	+Prefix Clustering (k=16)	59.4 (−8.0)	24.4 (+1.4)	42.2 (+1.9)	29.4 (+10.3)
Qwen-7B	+LoRA	70.2 (+2.8)	24.4 (+1.4)	36.2 (−4.0)	20.9 (+1.8)
Qwen-7B	+Prefix-Tuning (SFT)	45.4 (−22.0)	4.93 (−18.07)	20.62 (−19.68)	13.97 (−5.13)
Llama-70B-FP8	+Prefix-RL (k=32)	67.8 (+5.8)	49.1 (+16.3)	46.2 (+1.2)	34.6 (+5.5)
Qwen-72B	+Prefix-RL (k=32)	84.0 (+2.0)	40.6 (−0.5)	66.6 (+9.7)	29.0 (+5.9)

对 Qwen-7B，作者还把 Prefix-RL 的 74% 与 SimpleRL 报告的全模型 RL 78% 对比（同在 MATH-500）：全 RL 涨 10 点、Prefix-RL 以远低成本拿到 7 点，恢复了大部分增益。

消融与分析¶

配置	关键现象	说明
Prefix Clustering	时好时坏	Llama 家族大涨、Qwen 上严重掉点，仅作诊断探针
LoRA (RL)	小幅提升但不稳	MATH +2.8，但 AMC23 −4.0，且需反传穿全 7B
Prefix-Tuning (SFT)	大幅崩坏	MATH-500 −22.0，连续向量 SFT 不适配该任务
前缀长度 \(k\) 扫描	\(k\geq4\) 稳健	\(k{=}1\) 在 OOD 上掉点（AIME −1.0），\(k\in\{4{-}64\}\) 一致提升，\(k{=}32\) 通用
4 随机种子	统计稳健	每个种子都超基线，效应量是标准差的 2~25×
OOD 物理 (OCW/UGPhysics)	可迁移	仅用 MATH 训的前缀在物理题上也提升，\(k\approx8{-}32\) 最强

关键发现¶

格式上调是 RL 增益的重要来源：只优化前缀就能拿到全序列 RL 增益的一大部分（Qwen-7B 上 7/10 点），证明 RL 不少好处来自"选对解题策略"而非"提升推理"。
Prefix-RL 比同类参数高效基线更好更稳：LoRA 和 Prefix-Tuning(SFT) 要么提升微弱要么崩坏，且训练成本与全 RL 同量级（要反传穿全 backbone）；Prefix-RL 只更新 1.5B adapter 却增益更大更一致。
在量化 FP8 目标上增益最大：Llama-70B-FP8 在 AIME 上 +16.3，且把量化模型与全精度模型在 MATH-500 上 5% 的差距收窄到约 1%——这是首次用小 adapter 的 RL 去引导冻结 FP8 量化模型。
\(k{=}1\) 太短会脆：单 token 不足以编码完整策略，OOD 上甚至掉点；\(k\geq4\) 才稳。

亮点与洞察¶

把"诊断探针"和"实用方法"合二为一：同一个"只改前缀"的设定，先用来科学地隔离 RL 增益来源，再顺势变成省算力的参数高效 RL，论证和方法相互印证，很优雅。
训练成本与目标规模解耦这一点很实在：LoRA 这类方法在 RL 下其实没省到训练 FLOPs（仍要反传穿全模型），Prefix-RL 把反传彻底挪到小 adapter 上，才真正让"8 卡微调 70B"成为可能。
冻结目标模型带来的副作用全是好的：不改权重 → 无灾难性遗忘/对齐税/语言漂移，多任务可挂不同 adapter，甚至能套在闭源 API 模型上做用户专属 RL，这条路线想象空间很大。
量化模型可被 RL 引导这个结论意外且实用：FP8 模型权重没法直接做梯度更新，但用一个全精度小 adapter 在外面引导，就把量化模型也纳入了 RL 可优化的范畴。

局限与展望¶

作者明确不主张 Prefix-RL 能追平全模型 RL，它是"用性能换算力"的折中；而且受预算所限，无法在 70B 上做 Prefix-RL 与全 RL 的并排对比。
只研究 RLVR 下的单遍生成，没覆盖会回溯/修订/分支的多遍反思式求解——那种场景里后期反思可能推翻早期前缀设定的计划，本文框架捕捉不到。
adapter 与目标必须同家族，跨家族会掉点；作者寄望于"大模型多有行为相近的蒸馏变体"来缓解这一约束。
自己的观察：所有实验都集中在数学（+少量物理 OOD），奖励是干净的二值可验证信号；对于奖励稀疏/不可验证、或解题策略不那么被开头决定的任务（如开放式写作、多轮 agent），"前缀决定策略"的前提是否成立尚待验证。

评分¶

新颖性: ⭐⭐⭐⭐ 用"只优化前缀"同时当诊断探针和参数高效方法，且首次 RL 引导冻结 FP8 量化模型，角度新巧。
实验充分度: ⭐⭐⭐⭐ 覆盖 2 家族 4 规模、4 数学 benchmark + OOD 物理、\(k\) 扫描与 4 种子稳健性，较扎实；缺 70B 上 Prefix-RL vs 全 RL 的并排对比。
写作质量: ⭐⭐⭐⭐ 动机—方法—结论一线贯通，公式与算力分析清晰。
价值: ⭐⭐⭐⭐ 既加深了"RL 增益来自格式上调"的理解，又给出资源受限下可落地的省算力 RL 替代方案。