Unlocking Token Rewards via Training-Free Reward Attribution¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/JIA-Lab-research/P2T
领域: 对齐RLHF / LLM推理 / 多模态VLM
关键词: token级奖励, 奖励归因, 免训练, 信用分配, GRPO
一句话总结¶
P2T 用一阶 Taylor 近似,把已有过程奖励模型(PRM)打出的「整段」奖励免训练地拆解到每个 token 上——只需一次前向+反向就能算出全序列的 token 级奖励,接到 GRPO 后让数学/多模态推理 RL 训练收敛快约 4×、且在 AIME24 上比 outcome reward 提升 +11.5%。
研究背景与动机¶
领域现状:强化微调(RFT)是当下提升大模型推理能力的主力范式,监督信号主要有两种——只看最终答案对错的 outcome reward,以及训练一个过程奖励模型(PRM)逐步打分的 process reward。
现有痛点:这两种奖励本质都是「粗粒度」的。outcome reward 只在序列末尾给一个标量,导致奖励稀疏:一条大体正确、只错一步的推理链会被整体惩罚,正确的前缀也跟着背锅;早期错误步骤却可能因为最终答案碰巧对了而被错误强化。process reward 虽然细到「步」,但一步里仍有成百上千个 token,步级分数对这些 token 依旧含糊。
核心矛盾:要真正做到 token 级信用分配,现有两条路都不通——① 训练专门的 token 级奖励模型,要么依赖弱/无监督造的伪标签(噪声大、可信度存疑),要么需要昂贵的大规模人工标注,根本不现实;② 用便宜的启发式代理(如 token 熵)当奖励,计算省但和真实 token 质量没有语义对齐,只是松散相关的 heuristic,不是有原则的奖励估计。于是 token 级监督陷入两难:要么花大价钱换不靠谱的模型,要么用不准的代理信号牺牲优化保真度。
核心 idea:作者提出 process-to-token(P2T)奖励归因——不再去训练任何新模型,而是把「任意可微的粗粒度奖励模型(如 PRM)」已经学到的知识直接拆解到 token。每个 token 的奖励=它对整段奖励的「边际贡献」,并用梯度一阶近似把这件原本要 \(O(N)\) 次前向的事压成 \(O(1)\)。
方法详解¶
整体框架¶
P2T 的输入是一条已经生成好的推理序列 \(Y=(y_1,\dots,y_N)\) 及其 embedding \(E=[e_1,\dots,e_N]\),以及一个现成的、可微的奖励模型 \(R(\cdot)\)(实践中用 PRM 给出过程奖励 \(R\));输出是每个 token 的 token 级奖励 \(R^{\text{P2T}}_i\),再喂给 GRPO 做 token 级 advantage 计算。整条管线分三步:先定义每个 token 的「归因分数」\(\mathcal{I}_i\)(把它换成无意义的 null token 后,整段奖励掉了多少);再用一阶 Taylor 近似把这个原本要逐 token 替换、跑 \(N\) 次前向的归因,压缩成一次前向+反向就同时算出全部 token 的近似值;最后把归因分数 softmax 归一化、按权重把粗粒度奖励 \(R\) 重分配回各 token,并保留 \(R\) 作为基线防噪声。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["推理序列 Y + 现成 PRM"] --> B["Token 归因分数<br/>换成 null token 看奖励掉多少"]
B --> C["梯度一阶近似<br/>O(N)→O(1) 一次前反向"]
C --> D["归一化重分配<br/>softmax 权重 + R 作基线"]
D --> E["GRPO token 级 advantage"]
关键设计¶
1. Token 归因分数:用「换成 null token 掉多少奖励」量化每个 token 的边际重要性
针对「outcome/process 奖励太粗、说不清单个 token 好坏」的痛点,作者给每个 token \(y_i\) 定义一个归因分数 \(\mathcal{I}_i\):把它的 embedding \(e_i\) 替换成一个专门的 null token embedding \(e_\varnothing\)(序列长度不变),看整段奖励的变化量:
\(\mathcal{I}_i>0\) 说明换掉它奖励下降、即 \(y_i\) 是正贡献者;\(\mathcal{I}_i<0\) 说明它在拖后腿;接近 0 则边际可忽略。这给了一个直接、局部的 token 重要性度量,且天然继承 PRM 的可信判断。null token 的选择也有讲究:作者选词表里已有的 padding token [PAD] 当 \(e_\varnothing\)——因为它在 Transformer 里本就被设计成「无语义、只用来补长度」,且注意力常被 mask 掉、与其他 token 交互极小,恰好满足「空输入」的要求,比随便塞个 zero embedding 更合理(消融里 [PAD] 53.8 > zero embedding 51.4 > mean of vocab 52.5)。
2. 一阶 Taylor 梯度近似:把 \(O(N)\) 次前向压成一次前向+反向
定义虽简洁,但直接算要对长度 \(N\) 的序列跑 \(N\) 次前向(每个位置换一次 null token),大规模 RL 训练里完全不可行。作者在 \(e_i\) 处对奖励做一阶 Taylor 展开:
也就是「奖励对该 token embedding 的梯度」与「原 embedding 和 null embedding 之差」的内积。关键在于:一次反向传播就能同时拿到所有 token embedding 的梯度,于是全序列所有 token 的归因分数在一次前向+反向里一并算完,复杂度从 \(O(N)\) 直降到 \(O(1)\)。这是整套方法能落地到大规模训练的命门——没有它,归因再准也用不起。消融里这个近似(53.8)甚至略好于朴素逐 token 替换的精确算法(vanilla 52.6),说明近似不仅省、还顺带平滑了噪声。
3. 归一化重分配 + 粗奖励基线:把抖动的归因分数变成稳定可用的 token 奖励
针对「梯度近似出来的 \(\mathcal{I}_i\) 本身可能含噪、不能直接当奖励」的问题,作者不把 \(\mathcal{I}_i\) 当奖励用,而是 softmax 归一化后当权重,去重分配原始的粗粒度奖励 \(R\):
两个设计点很关键:一是 softmax 归一化保证「所有 token 奖励之和恰好等于原序列奖励 \(R\)」,让 \(R\) 严格按各 token 的边际贡献公平摊分;二是把 \(R\) 本身留作第一项基线——给每个 token 一个稳定的最低奖励信号,只用 \(\omega\) 加权的归因项做微调。这样即便某几个 token 的归因分数被近似误差带偏,扰动也被基线限制住,policy 不会被少数噪声 token 奖励主导而剧烈震荡。默认 \(\omega=0.6\),消融显示 \(\omega\) 在 0.25–1.0 区间内结果都稳(53.2–53.8),说明方法对这个超参不敏感。
损失函数 / 训练策略¶
P2T 奖励通过修改 advantage 接入 GRPO。GRPO 本身 value-free,用组内相对奖励估计 advantage:
引入 P2T 后,第 \(n\) 条响应第 \(i\) 个 token 的 advantage 变为
\(\alpha\) 平衡原 outcome advantage 与 token 级引导:short-CoT 模型(如 Qwen2.5 系列)默认 \(\alpha=0.1\),long-CoT 模型(如 DeepSeek-R1-Distill)默认 \(\alpha=1.0\)。多模态 PRM 用 VisualPRM,文本用支持 LongCoT 的 ReasonFlux-PRM。
实验关键数据¶
主实验¶
文本模型上,P2T 在数学推理 benchmark 上稳定超过 outcome reward(数值为 7 个数学 benchmark 平均 pass@1):
| 模型 | outcome reward | P2T token reward | 相对 outcome |
|---|---|---|---|
| Qwen2.5-Math-7B | 45.6 | 51.9 | +6.3 |
| LLaMA3.2-3B-Instruct | 23.9 | 33.9 | +10.0 |
| DeepSeek-R1-Distill-Qwen-1.5B | 46.5 | 54.5 | +8.0 |
| Qwen3-1.7B(thinking/non-thinking) | 65.7 / 46.0 | 68.5 / 52.7 | +2.8 / +6.7 |
单点最亮眼的:Qwen2.5-Math-7B 在 AIME24 上 28.8→40.3(+11.5);DeepSeek-R1-Distill-1.5B 在 MinervaMath 上 27.2→41.4(+14.2)。多模态侧 Qwen2.5-VL-7B-Instruct 在 MathVista 上 70.1→75.0(比 outcome 的 +2.0 多拿 +4.9),五个多模态 benchmark 平均 54.9→57.5。
与其他 token 级 dense reward 方法对比(Eurus-2-7B-SFT,6 benchmark 平均):
| 方法 | Avg | 说明 |
|---|---|---|
| GRPO (outcome) | 33.5 | 稀疏 baseline |
| PRIME | 36.0 | 需协同训练辅助网络 |
| SPRO | 38.4 | log-prob 差的启发式代理 |
| GRPO (P2T) | 40.7 | 免训练,比 SPRO +2.3、比 PRIME +4.7 |
消融实验¶
| 配置 | Pass@1 | 说明 |
|---|---|---|
| Full([PAD] + Taylor 近似) | 53.8 | 完整模型 |
| null token 换 EOS | 51.4 | [PAD] 最优,印证「无语义」假设 |
| null token 换 mean-of-vocab | 52.5 | 仍不如 [PAD] |
| 近似换成 vanilla 逐 token 精确 | 52.6 | 近似反而略好、且省 |
| 只 outcome+process(无 token 重分配) | 50.6 | token 级归因独立贡献 +3.2 |
| 纯 outcome | 48.0 | token 重分配累计贡献 +5.8 |
关键发现¶
- token 级归因本身是涨点主力:从「outcome+process」的 50.6 加上 P2T token 重分配到 53.8,纯归因机制独立贡献 +3.2;相比纯 outcome 的 48.0 则累计 +5.8。
- 模型越强、链越长,P2T 收益越大:CoT-instruct 的 LLaMA3.2-3B 上 P2T 比 outcome 多 +10.0;LongCoT 的 DeepSeek-R1-Distill-1.5B 上 outcome 几乎涨不动(+1.5),P2T 却 +8.0——序列越长,末端单一 outcome 信号越无力,细粒度信用分配越关键。
- 能打破 outcome RL 的收敛瓶颈:对已被 outcome RL 训到收敛的模型再用 P2T 微调还能继续涨(DeepScaleR-1.5B 上 MinervaMath +12.1、AIME24 +6.8),说明 P2T 提供了 outcome reward 看不见的新监督维度。
- 训练效率:在 GRPO 下 P2T 收敛速度约为 outcome reward 的 4×。
亮点与洞察¶
- 「免训练拆奖励」这个切入点很巧:别人想做 token 级奖励都在「再训一个模型」,作者反其道而行——已有 PRM 里其实已经编码了对 token 质量的判断,用梯度把它「读」出来即可,零额外训练成本、零伪标签噪声。
- null token 用 [PAD] 是省事又自洽的一手:不引入任何新参数或人为定义的「空向量」,直接借 Transformer 里本就语义为空、还被注意力 mask 的 padding token,既符合「null 输入」的数学要求又零成本,消融也证明它最优。
- 保留粗奖励当基线是工程上的关键稳定器:把噪声大的归因项限制在基线之上,让方法对超参 \(\omega\) 不敏感、训练不震荡——这种「精细信号 + 稳定兜底」的组合可迁移到任何用近似梯度做 reward shaping 的场景。
- \(O(N)\to O(1)\) 的近似是落地命门:精确归因虽直观但训练时根本跑不起,一阶 Taylor 把它变成一次前反向,这是方法从「漂亮定义」走到「能上大规模 RL」的桥。
局限与展望¶
- 强依赖一个好 PRM:P2T 是把 PRM 的知识拆细,PRM 本身不可信或覆盖不到的领域(消融里换成 Qwen2.5-Math-PRM、Skywork-PRM 分数明显下滑:53.8→52.4→50.0),P2T 的上限就被 PRM 卡死,等于把「奖励质量」问题外包给了 PRM。
- 一阶 Taylor 近似的误差边界没有理论刻画:实验上近似甚至略好于精确替换,但这更像噪声平滑的副作用,论文没给出近似在何种条件下会失真、何时会与真实归因方向相反的分析。
- 归因到 token 的可解释性只有定性论证:文中多处说 P2T 能「外科手术式」定位错误 token,但缺少定量的归因正确性验证(如人工标注的错误 token 与高/低归因分数的吻合度)。
- 评测集中在数学/推理:虽覆盖文本与多模态,但都围绕可验证答案的数学推理,开放式生成(写作、对话)上 PRM 与 token 归因是否同样有效尚未验证。
相关工作与启发¶
- vs PRIME:PRIME 在 RL 中协同训练一个辅助网络给 token 级信用,P2T 则完全免训练、不引入需要联合优化的网络,因此训练更稳更简单,且 Eurus-2 上 +4.7。
- vs SPRO:SPRO 用「policy 与 reference 模型 log 概率之差」这一启发式代理当 token 奖励,不显式评估推理步本身对错;P2T 的奖励源自专门训练来判断推理质量的 PRM,归因更有据、可解释性更强,+2.3。
- vs OREAL / TVM:这两者都要专门训练 token 级奖励模型(OREAL 复用 policy backbone 加标量头、TVM 加 scalar head 预测 token 导向正确答案的概率),P2T 不训练任何奖励模型,靠梯度直接从现成 PRM 拆解。
- vs token-entropy 类代理:熵等启发式便宜但与真实 token 质量无语义对齐,P2T 用 PRM 提供有语义、有原则的奖励,弥补了代理信号「只松散相关」的根本缺陷。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 「免训练把 PRM 奖励梯度拆到 token」是个干净且未被充分探索的角度,\(O(N)\to O(1)\) 近似让它真正可用。
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖文本/多模态、base/CoT/LongCoT/hybrid 多类模型,含与 PRIME/SPRO 横比、7 组消融、效率与瓶颈打破分析。
- 写作质量: ⭐⭐⭐⭐ 动机推导清晰、公式完整,但部分「外科手术式纠错」的论断偏定性、缺归因正确性的定量验证。
- 价值: ⭐⭐⭐⭐⭐ 几乎零成本就能给现有 PRM-based RL 管线接上 token 级信用分配,收敛快 4×、还能打破 outcome RL 瓶颈,实用性强。