Why is Your Language Model a Poor Implicit Reward Model?¶

会议: ICLR 2026
arXiv: 2507.07981
代码: 无
领域: LLM推理 / 对齐RLHF
关键词: 隐式奖励模型, 显式奖励模型, 泛化差距, token级线索, DPO vs RLHF

一句话总结¶

本文通过理论和实验揭示了隐式奖励模型（IM-RM，如DPO）比显式奖励模型（EX-RM）泛化更差的根本原因——IM-RM过度依赖表面token级线索而非语义表示，导致在token分布偏移下准确率大幅下降，同时反驳了"生成-验证差距"假说。

研究背景与动机¶

领域现状：奖励模型是LLM后训练和推理管线的核心组件。目前主流有两种近乎相同的奖励模型：显式奖励模型（EX-RM，在隐藏表示上加线性头）和隐式奖励模型（IM-RM，通过 \(\ln \pi_\theta(\mathbf{y}|\mathbf{x})\) 隐式定义奖励，即DPO的核心思想）。两者可以使用相同的数据、损失函数和基础语言模型训练，唯一区别在于奖励的计算方式。

现有痛点：尽管EX-RM和IM-RM几乎完全相同，先前工作反复观察到IM-RM的泛化能力明显更差，尤其是在分布外评估中排名响应的准确率更低。这个泛化差距非常令人困惑——为什么计算奖励方式的微小差异会导致如此大的性能差距？

核心矛盾：直觉上一种解释是"生成-验证差距"——IM-RM既要给正确回答打高分，又要通过底层语言模型生成正确回答，如果生成比验证更难，IM-RM的准确率就应该落后。但这个直觉论证是否成立？真正的原因到底是什么？

本文目标 - 反驳"生成-验证差距"假说：证明IM-RM的验证并不需要学会生成 - 找到真正原因：从学习动力学角度刻画EX-RM和IM-RM的行为差异 - 实验验证：在受控和真实场景下验证理论预测

切入角度：从梯度更新对未见样本奖励的影响出发，分析学习动力学。发现EX-RM的奖励变化只依赖于隐藏表示的内积，而IM-RM的变化还额外依赖于具体token。

核心 idea：IM-RM之所以泛化差，是因为其学习动力学天然倾向于过拟合表面token级线索，而非利用语义层面的隐藏表示结构。

方法详解¶

整体框架¶

本文不是提出新方法，而是对两类奖励模型进行理论分析+实验验证。研究路线： 1. 先分析并反驳"生成-验证差距"假说（Section 3） 2. 从学习动力学角度刻画EX-RM和IM-RM的差异（Section 4） 3. 通过受控实验和真实场景验证理论预测（Section 5）

关键设计¶

反驳"生成-验证差距"假说
- 功能：证明IM-RM可以成为完美的验证器，即使底层语言模型完全无法生成正确答案
- 核心思路：Theorem 1 构造了一个分布 \(\pi\)，使得其诱导的IM-RM以margin \(\delta\) 验证正确性，但 \(\pi\) 生成正确回答的概率相比参考分布 \(\pi_{\text{ref}}\) 最多增长一个常数因子 \(\exp(\delta/\beta)\)。也就是说，如果 \(\pi_{\text{ref}}\) 本身无法高效生成，\(\pi\) 也不需要能高效生成就能成为好的验证器
- 实验验证：在NP-hard的哈密顿回路验证任务上，IM-RM（基于Pythia-1B）在测试集上达到 0.993 准确率，却无法生成任何一条正确的哈密顿回路
EX-RM学习动力学分析
- 功能：刻画梯度更新后，未见样本 \((\bar{\mathbf{x}}, \bar{\mathbf{y}})\) 的奖励变化
- 核心思路：在固定隐藏表示的假设下（Assumption 1），EX-RM的奖励变化为 \(\Delta r_{\theta_{\text{EX}}}(\bar{\mathbf{x}}, \bar{\mathbf{y}}) = \langle \mathbf{h}_{\bar{\mathbf{x}},\bar{\mathbf{y}}}, \mathbf{h}_{\mathbf{x},\mathbf{y}^+} - \mathbf{h}_{\mathbf{x},\mathbf{y}^-} \rangle \cdot \eta g(\theta_{\text{EX}})\)。奖励变化完全取决于隐藏表示之间的相似度——如果 \(\bar{\mathbf{y}}\) 和 \(\mathbf{y}^+\) 语义相近（隐藏表示对齐），奖励就会增加，与具体token无关
- 设计动机：由于预训练表示编码了语义，EX-RM天然能泛化到使用不同token但语义相同的回答
IM-RM学习动力学分析
- 功能：揭示IM-RM为何过度依赖token级线索
- 核心思路：IM-RM的奖励变化包含系数 \(\rho_{k,l}(\mathbf{v})\)，当 \(\bar{\mathbf{y}}_k = \mathbf{v}_l\)（token匹配）时系数为正，起到类似EX-RM的作用；但当 \(\bar{\mathbf{y}}_k \neq \mathbf{v}_l\)（token不匹配）时系数可能为负，此时即使隐藏表示语义对齐，也可能反向降低奖励。关键点在于：语义相似但token不同的response，可能被IM-RM赋予相反的奖励方向
- 设计动机：这解释了为什么对回答做paraphrase后IM-RM的准确率可以从1.0暴跌到0.02
理论泛化差距证明（Theorem 2）
- 功能：在简化设定下（单token回答），严格证明IM-RM无法泛化到未见token
- 核心思路：训练到收敛后，IM-RM对任何不在训练集中出现的token对的奖励差恒为常数（等于初始值），因此准确率恒为0.5（随机水平）。而EX-RM的线性头方向收敛到最大间隔分离超平面 \(\mathbf{u}^*\)，能正确排序所有 \(\mathbf{u}^*\) 能分对的样本
- 设计动机：虽然假设较强（单token、固定表示），但实验证明结论在全参数训练、任意长度回答时依然成立

损失函数 / 训练策略¶

两类模型均使用Bradley-Terry对数似然损失训练：\(\mathcal{L}(r) = \frac{1}{|\mathcal{D}_T|} \sum -\ln \sigma(r(\mathbf{x}, \mathbf{y}^+) - r(\mathbf{x}, \mathbf{y}^-))\)

实验关键数据¶

主实验（受控环境：Persona数据集）¶

评估条件	EX-RM准确率	IM-RM准确率
原始回答 (训练集)	1.00	1.00
原始回答 (测试集)	1.00	1.00
Paraphrase回答 (训练集)	1.00	0.022
Paraphrase回答 (测试集)	1.00	0.019

IM-RM在token分布发生变化（同义改写）时准确率几乎为0，而EX-RM完美泛化。

真实场景实验（UltraFeedback训练，6个1B-8B模型）¶

评估类型	EX-RM准确率	IM-RM准确率	EX-RM奖励间隔	IM-RM奖励间隔
分布内	0.752	0.646	1.014	0.813
Token级偏移	0.665	0.602	0.976	0.763
领域偏移	0.621	0.720	0.807	0.726

消融实验¶

配置	关键发现
哈密顿回路验证	IM-RM测试准确率0.993，但生成正确回路数=0，证明验证≠生成
中间token表示的EX-RM	排除了"EX-RM用全序列表示而IM-RM用中间表示"的解释
无参考分布的IM-RM	排除了"参考分布偏移"的解释
Token偏移（翻译/改写）	EX-RM在法语/西班牙语翻译后仍大幅优于IM-RM

关键发现¶

IM-RM在token级偏移下一致弱于EX-RM（改写、翻译场景），但在领域偏移下可能持平甚至更好
EX-RM始终产生更大的绝对奖励间隔（absolute reward margin），这对后续RL优化有利
分布内评估中IM-RM也弱于EX-RM，因为分布内测试样本与训练样本语义相似但token不同，更接近token偏移

亮点与洞察¶

学习动力学视角的创新性：通过分析单步梯度更新的影响，精确刻画了EX-RM（只看表示）和IM-RM（还看token）的本质差异。这个角度既优雅又有强解释力，远超"生成-验证差距"这一直觉论证
反直觉的"反驳"：Theorem 1 + 哈密顿回路实验干净利落地反驳了流行的"生成-验证差距"假说，令人印象深刻
"越改写越差"现象的理论解释：\(\rho_{k,l}\) 系数的正负取决于token是否匹配，这个发现可以指导DPO实践——例如，在DPO训练集中加入同义改写的正负样本对，可能有效缓解IM-RM的脆弱性
对RLHF vs DPO之争的新视角：提供了DPO弱于RLHF的一个新理论解释（token级过拟合），且与已有的"生成-验证差距"解释互补

局限与展望¶

理论分析假设固定隐藏表示（Assumption 1）和单token回答（Assumption 2），虽然实验验证了结论的普适性，但更一般的理论保证仍然缺失
只考虑了准确率作为评估指标，未探讨奖励模型在实际RL训练中的下游影响
发现了IM-RM在领域偏移时可能优于EX-RM，但未深入分析原因——何时应选IM-RM？
可改进方向：能否设计一种"token-invariant"的IM-RM训练方式（如在DPO训练中加入paraphrase数据增强）来弥补泛化差距？

评分¶

新颖性: ⭐⭐⭐⭐⭐ 学习动力学分析角度新颖，token依赖性的发现极具洞察力
实验充分度: ⭐⭐⭐⭐ 受控+真实场景+多种消融，排除了多个替代假说，但缺少下游RL任务验证
写作质量: ⭐⭐⭐⭐⭐ 逻辑链条极其清晰：反驳旧假说→提出新解释→理论证明→实验验证
价值: ⭐⭐⭐⭐⭐ 对RLHF/DPO社区有重大指导意义，揭示了reward model设计的隐含偏差