Unlocking Token Rewards via Training-Free Reward Attribution¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/JIA-Lab-research/P2T
领域: 对齐RLHF / LLM推理 / 多模态VLM
关键词: token级奖励, 奖励归因, 免训练, 信用分配, GRPO

一句话总结¶

P2T 用一阶 Taylor 近似，把已有过程奖励模型（PRM）打出的「整段」奖励免训练地拆解到每个 token 上——只需一次前向+反向就能算出全序列的 token 级奖励，接到 GRPO 后让数学/多模态推理 RL 训练收敛快约 4×、且在 AIME24 上比 outcome reward 提升 +11.5%。

研究背景与动机¶

领域现状：强化微调（RFT）是当下提升大模型推理能力的主力范式，监督信号主要有两种——只看最终答案对错的 outcome reward，以及训练一个过程奖励模型（PRM）逐步打分的 process reward。

现有痛点：这两种奖励本质都是「粗粒度」的。outcome reward 只在序列末尾给一个标量，导致奖励稀疏：一条大体正确、只错一步的推理链会被整体惩罚，正确的前缀也跟着背锅；早期错误步骤却可能因为最终答案碰巧对了而被错误强化。process reward 虽然细到「步」，但一步里仍有成百上千个 token，步级分数对这些 token 依旧含糊。

核心矛盾：要真正做到 token 级信用分配，现有两条路都不通——① 训练专门的 token 级奖励模型，要么依赖弱/无监督造的伪标签（噪声大、可信度存疑），要么需要昂贵的大规模人工标注，根本不现实；② 用便宜的启发式代理（如 token 熵）当奖励，计算省但和真实 token 质量没有语义对齐，只是松散相关的 heuristic，不是有原则的奖励估计。于是 token 级监督陷入两难：要么花大价钱换不靠谱的模型，要么用不准的代理信号牺牲优化保真度。

核心 idea：作者提出 process-to-token（P2T）奖励归因——不再去训练任何新模型，而是把「任意可微的粗粒度奖励模型（如 PRM）」已经学到的知识直接拆解到 token。每个 token 的奖励＝它对整段奖励的「边际贡献」，并用梯度一阶近似把这件原本要 \(O(N)\) 次前向的事压成 \(O(1)\)。

方法详解¶

整体框架¶

P2T 的输入是一条已经生成好的推理序列 \(Y=(y_1,\dots,y_N)\) 及其 embedding \(E=[e_1,\dots,e_N]\)，以及一个现成的、可微的奖励模型 \(R(\cdot)\)（实践中用 PRM 给出过程奖励 \(R\)）；输出是每个 token 的 token 级奖励 \(R^{\text{P2T}}_i\)，再喂给 GRPO 做 token 级 advantage 计算。整条管线分三步：先定义每个 token 的「归因分数」\(\mathcal{I}_i\)（把它换成无意义的 null token 后，整段奖励掉了多少）；再用一阶 Taylor 近似把这个原本要逐 token 替换、跑 \(N\) 次前向的归因，压缩成一次前向+反向就同时算出全部 token 的近似值；最后把归因分数 softmax 归一化、按权重把粗粒度奖励 \(R\) 重分配回各 token，并保留 \(R\) 作为基线防噪声。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["推理序列 Y + 现成 PRM"] --> B["Token 归因分数<br/>换成 null token 看奖励掉多少"]
    B --> C["梯度一阶近似<br/>O(N)→O(1) 一次前反向"]
    C --> D["归一化重分配<br/>softmax 权重 + R 作基线"]
    D --> E["GRPO token 级 advantage"]

关键设计¶

1. Token 归因分数：用「换成 null token 掉多少奖励」量化每个 token 的边际重要性

针对「outcome/process 奖励太粗、说不清单个 token 好坏」的痛点，作者给每个 token \(y_i\) 定义一个归因分数 \(\mathcal{I}_i\)：把它的 embedding \(e_i\) 替换成一个专门的 null token embedding \(e_\varnothing\)（序列长度不变），看整段奖励的变化量：

\[\mathcal{I}_i = R(E) - R(E_{i\leftarrow\varnothing})\]

\(\mathcal{I}_i>0\) 说明换掉它奖励下降、即 \(y_i\) 是正贡献者；\(\mathcal{I}_i<0\) 说明它在拖后腿；接近 0 则边际可忽略。这给了一个直接、局部的 token 重要性度量，且天然继承 PRM 的可信判断。null token 的选择也有讲究：作者选词表里已有的 padding token [PAD] 当 \(e_\varnothing\)——因为它在 Transformer 里本就被设计成「无语义、只用来补长度」，且注意力常被 mask 掉、与其他 token 交互极小，恰好满足「空输入」的要求，比随便塞个 zero embedding 更合理（消融里 [PAD] 53.8 > zero embedding 51.4 > mean of vocab 52.5）。

2. 一阶 Taylor 梯度近似：把 \(O(N)\) 次前向压成一次前向+反向

定义虽简洁，但直接算要对长度 \(N\) 的序列跑 \(N\) 次前向（每个位置换一次 null token），大规模 RL 训练里完全不可行。作者在 \(e_i\) 处对奖励做一阶 Taylor 展开：

\[\mathcal{I}^{\text{Grad}}_i \approx \nabla_{e_i} R(E)^\top (e_i - e_\varnothing)\]

也就是「奖励对该 token embedding 的梯度」与「原 embedding 和 null embedding 之差」的内积。关键在于：一次反向传播就能同时拿到所有 token embedding 的梯度，于是全序列所有 token 的归因分数在一次前向+反向里一并算完，复杂度从 \(O(N)\) 直降到 \(O(1)\)。这是整套方法能落地到大规模训练的命门——没有它，归因再准也用不起。消融里这个近似（53.8）甚至略好于朴素逐 token 替换的精确算法（vanilla 52.6），说明近似不仅省、还顺带平滑了噪声。

3. 归一化重分配 + 粗奖励基线：把抖动的归因分数变成稳定可用的 token 奖励

针对「梯度近似出来的 \(\mathcal{I}_i\) 本身可能含噪、不能直接当奖励」的问题，作者不把 \(\mathcal{I}_i\) 当奖励用，而是 softmax 归一化后当权重，去重分配原始的粗粒度奖励 \(R\)：

\[R^{\text{P2T}}_i = R + \omega \cdot R \cdot \frac{\exp(\mathcal{I}_i)}{\sum_{j=1}^N \exp(\mathcal{I}_j)}\]

两个设计点很关键：一是 softmax 归一化保证「所有 token 奖励之和恰好等于原序列奖励 \(R\)」，让 \(R\) 严格按各 token 的边际贡献公平摊分；二是把 \(R\) 本身留作第一项基线——给每个 token 一个稳定的最低奖励信号，只用 \(\omega\) 加权的归因项做微调。这样即便某几个 token 的归因分数被近似误差带偏，扰动也被基线限制住，policy 不会被少数噪声 token 奖励主导而剧烈震荡。默认 \(\omega=0.6\)，消融显示 \(\omega\) 在 0.25–1.0 区间内结果都稳（53.2–53.8），说明方法对这个超参不敏感。

损失函数 / 训练策略¶

P2T 奖励通过修改 advantage 接入 GRPO。GRPO 本身 value-free，用组内相对奖励估计 advantage：

\[\hat{A}_n = \frac{R^{\text{out}}_n - \text{mean}(\{R^{\text{out}}\})}{\text{std}(\{R^{\text{out}}\})}\]

引入 P2T 后，第 \(n\) 条响应第 \(i\) 个 token 的 advantage 变为

\[\widetilde{A}_{n,i} = \hat{A}_n + \alpha \cdot R^{\text{P2T}}_{n,i}\]

\(\alpha\) 平衡原 outcome advantage 与 token 级引导：short-CoT 模型（如 Qwen2.5 系列）默认 \(\alpha=0.1\)，long-CoT 模型（如 DeepSeek-R1-Distill）默认 \(\alpha=1.0\)。多模态 PRM 用 VisualPRM，文本用支持 LongCoT 的 ReasonFlux-PRM。

实验关键数据¶

主实验¶

文本模型上，P2T 在数学推理 benchmark 上稳定超过 outcome reward（数值为 7 个数学 benchmark 平均 pass@1）：

模型	outcome reward	P2T token reward	相对 outcome
Qwen2.5-Math-7B	45.6	51.9	+6.3
LLaMA3.2-3B-Instruct	23.9	33.9	+10.0
DeepSeek-R1-Distill-Qwen-1.5B	46.5	54.5	+8.0
Qwen3-1.7B（thinking/non-thinking）	65.7 / 46.0	68.5 / 52.7	+2.8 / +6.7

单点最亮眼的：Qwen2.5-Math-7B 在 AIME24 上 28.8→40.3（+11.5）；DeepSeek-R1-Distill-1.5B 在 MinervaMath 上 27.2→41.4（+14.2）。多模态侧 Qwen2.5-VL-7B-Instruct 在 MathVista 上 70.1→75.0（比 outcome 的 +2.0 多拿 +4.9），五个多模态 benchmark 平均 54.9→57.5。

与其他 token 级 dense reward 方法对比（Eurus-2-7B-SFT，6 benchmark 平均）：

方法	Avg	说明
GRPO (outcome)	33.5	稀疏 baseline
PRIME	36.0	需协同训练辅助网络
SPRO	38.4	log-prob 差的启发式代理
GRPO (P2T)	40.7	免训练，比 SPRO +2.3、比 PRIME +4.7

消融实验¶

配置	Pass@1	说明
Full（[PAD] + Taylor 近似）	53.8	完整模型
null token 换 EOS	51.4	[PAD] 最优，印证「无语义」假设
null token 换 mean-of-vocab	52.5	仍不如 [PAD]
近似换成 vanilla 逐 token 精确	52.6	近似反而略好、且省
只 outcome+process（无 token 重分配）	50.6	token 级归因独立贡献 +3.2
纯 outcome	48.0	token 重分配累计贡献 +5.8

关键发现¶

token 级归因本身是涨点主力：从「outcome+process」的 50.6 加上 P2T token 重分配到 53.8，纯归因机制独立贡献 +3.2；相比纯 outcome 的 48.0 则累计 +5.8。
模型越强、链越长，P2T 收益越大：CoT-instruct 的 LLaMA3.2-3B 上 P2T 比 outcome 多 +10.0；LongCoT 的 DeepSeek-R1-Distill-1.5B 上 outcome 几乎涨不动（+1.5），P2T 却 +8.0——序列越长，末端单一 outcome 信号越无力，细粒度信用分配越关键。
能打破 outcome RL 的收敛瓶颈：对已被 outcome RL 训到收敛的模型再用 P2T 微调还能继续涨（DeepScaleR-1.5B 上 MinervaMath +12.1、AIME24 +6.8），说明 P2T 提供了 outcome reward 看不见的新监督维度。
训练效率：在 GRPO 下 P2T 收敛速度约为 outcome reward 的 4×。

亮点与洞察¶

「免训练拆奖励」这个切入点很巧：别人想做 token 级奖励都在「再训一个模型」，作者反其道而行——已有 PRM 里其实已经编码了对 token 质量的判断，用梯度把它「读」出来即可，零额外训练成本、零伪标签噪声。
null token 用 [PAD] 是省事又自洽的一手：不引入任何新参数或人为定义的「空向量」，直接借 Transformer 里本就语义为空、还被注意力 mask 的 padding token，既符合「null 输入」的数学要求又零成本，消融也证明它最优。
保留粗奖励当基线是工程上的关键稳定器：把噪声大的归因项限制在基线之上，让方法对超参 \(\omega\) 不敏感、训练不震荡——这种「精细信号 + 稳定兜底」的组合可迁移到任何用近似梯度做 reward shaping 的场景。
\(O(N)\to O(1)\) 的近似是落地命门：精确归因虽直观但训练时根本跑不起，一阶 Taylor 把它变成一次前反向，这是方法从「漂亮定义」走到「能上大规模 RL」的桥。

局限与展望¶

强依赖一个好 PRM：P2T 是把 PRM 的知识拆细，PRM 本身不可信或覆盖不到的领域（消融里换成 Qwen2.5-Math-PRM、Skywork-PRM 分数明显下滑：53.8→52.4→50.0），P2T 的上限就被 PRM 卡死，等于把「奖励质量」问题外包给了 PRM。
一阶 Taylor 近似的误差边界没有理论刻画：实验上近似甚至略好于精确替换，但这更像噪声平滑的副作用，论文没给出近似在何种条件下会失真、何时会与真实归因方向相反的分析。
归因到 token 的可解释性只有定性论证：文中多处说 P2T 能「外科手术式」定位错误 token，但缺少定量的归因正确性验证（如人工标注的错误 token 与高/低归因分数的吻合度）。
评测集中在数学/推理：虽覆盖文本与多模态，但都围绕可验证答案的数学推理，开放式生成（写作、对话）上 PRM 与 token 归因是否同样有效尚未验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「免训练把 PRM 奖励梯度拆到 token」是个干净且未被充分探索的角度，\(O(N)\to O(1)\) 近似让它真正可用。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖文本/多模态、base/CoT/LongCoT/hybrid 多类模型，含与 PRIME/SPRO 横比、7 组消融、效率与瓶颈打破分析。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、公式完整，但部分「外科手术式纠错」的论断偏定性、缺归因正确性的定量验证。
价值: ⭐⭐⭐⭐⭐ 几乎零成本就能给现有 PRM-based RL 管线接上 token 级信用分配，收敛快 4×、还能打破 outcome RL 瓶颈，实用性强。