跳转至

Why is Your Language Model a Poor Implicit Reward Model?

会议: ICLR 2026
arXiv: 2507.07981
代码: 无
领域: LLM推理 / 对齐RLHF
关键词: 隐式奖励模型, 显式奖励模型, 泛化差距, token级线索, DPO vs RLHF

一句话总结

本文通过理论和实验揭示了隐式奖励模型(IM-RM,如DPO)比显式奖励模型(EX-RM)泛化更差的根本原因——IM-RM过度依赖表面token级线索而非语义表示,导致在token分布偏移下准确率大幅下降,同时反驳了"生成-验证差距"假说。

研究背景与动机

领域现状:奖励模型是LLM后训练和推理管线的核心组件。目前主流有两种近乎相同的奖励模型:显式奖励模型(EX-RM,在隐藏表示上加线性头)和隐式奖励模型(IM-RM,通过 \(\ln \pi_\theta(\mathbf{y}|\mathbf{x})\) 隐式定义奖励,即DPO的核心思想)。两者可以使用相同的数据、损失函数和基础语言模型训练,唯一区别在于奖励的计算方式。

现有痛点:尽管EX-RM和IM-RM几乎完全相同,先前工作反复观察到IM-RM的泛化能力明显更差,尤其是在分布外评估中排名响应的准确率更低。这个泛化差距非常令人困惑——为什么计算奖励方式的微小差异会导致如此大的性能差距?

核心矛盾:直觉上一种解释是"生成-验证差距"——IM-RM既要给正确回答打高分,又要通过底层语言模型生成正确回答,如果生成比验证更难,IM-RM的准确率就应该落后。但这个直觉论证是否成立?真正的原因到底是什么?

本文目标 - 反驳"生成-验证差距"假说:证明IM-RM的验证并不需要学会生成 - 找到真正原因:从学习动力学角度刻画EX-RM和IM-RM的行为差异 - 实验验证:在受控和真实场景下验证理论预测

切入角度:从梯度更新对未见样本奖励的影响出发,分析学习动力学。发现EX-RM的奖励变化只依赖于隐藏表示的内积,而IM-RM的变化还额外依赖于具体token。

核心 idea:IM-RM之所以泛化差,是因为其学习动力学天然倾向于过拟合表面token级线索,而非利用语义层面的隐藏表示结构。

方法详解

整体框架

本文不是提出新方法,而是对两类奖励模型进行理论分析+实验验证。研究路线: 1. 先分析并反驳"生成-验证差距"假说(Section 3) 2. 从学习动力学角度刻画EX-RM和IM-RM的差异(Section 4) 3. 通过受控实验和真实场景验证理论预测(Section 5)

关键设计

  1. 反驳"生成-验证差距"假说

    • 功能:证明IM-RM可以成为完美的验证器,即使底层语言模型完全无法生成正确答案
    • 核心思路:Theorem 1 构造了一个分布 \(\pi\),使得其诱导的IM-RM以margin \(\delta\) 验证正确性,但 \(\pi\) 生成正确回答的概率相比参考分布 \(\pi_{\text{ref}}\) 最多增长一个常数因子 \(\exp(\delta/\beta)\)。也就是说,如果 \(\pi_{\text{ref}}\) 本身无法高效生成,\(\pi\) 也不需要能高效生成就能成为好的验证器
    • 实验验证:在NP-hard的哈密顿回路验证任务上,IM-RM(基于Pythia-1B)在测试集上达到 0.993 准确率,却无法生成任何一条正确的哈密顿回路
  2. EX-RM学习动力学分析

    • 功能:刻画梯度更新后,未见样本 \((\bar{\mathbf{x}}, \bar{\mathbf{y}})\) 的奖励变化
    • 核心思路:在固定隐藏表示的假设下(Assumption 1),EX-RM的奖励变化为 \(\Delta r_{\theta_{\text{EX}}}(\bar{\mathbf{x}}, \bar{\mathbf{y}}) = \langle \mathbf{h}_{\bar{\mathbf{x}},\bar{\mathbf{y}}}, \mathbf{h}_{\mathbf{x},\mathbf{y}^+} - \mathbf{h}_{\mathbf{x},\mathbf{y}^-} \rangle \cdot \eta g(\theta_{\text{EX}})\)。奖励变化完全取决于隐藏表示之间的相似度——如果 \(\bar{\mathbf{y}}\)\(\mathbf{y}^+\) 语义相近(隐藏表示对齐),奖励就会增加,与具体token无关
    • 设计动机:由于预训练表示编码了语义,EX-RM天然能泛化到使用不同token但语义相同的回答
  3. IM-RM学习动力学分析

    • 功能:揭示IM-RM为何过度依赖token级线索
    • 核心思路:IM-RM的奖励变化包含系数 \(\rho_{k,l}(\mathbf{v})\),当 \(\bar{\mathbf{y}}_k = \mathbf{v}_l\)(token匹配)时系数为正,起到类似EX-RM的作用;但当 \(\bar{\mathbf{y}}_k \neq \mathbf{v}_l\)(token不匹配)时系数可能为负,此时即使隐藏表示语义对齐,也可能反向降低奖励。关键点在于:语义相似但token不同的response,可能被IM-RM赋予相反的奖励方向
    • 设计动机:这解释了为什么对回答做paraphrase后IM-RM的准确率可以从1.0暴跌到0.02
  4. 理论泛化差距证明(Theorem 2)

    • 功能:在简化设定下(单token回答),严格证明IM-RM无法泛化到未见token
    • 核心思路:训练到收敛后,IM-RM对任何不在训练集中出现的token对的奖励差恒为常数(等于初始值),因此准确率恒为0.5(随机水平)。而EX-RM的线性头方向收敛到最大间隔分离超平面 \(\mathbf{u}^*\),能正确排序所有 \(\mathbf{u}^*\) 能分对的样本
    • 设计动机:虽然假设较强(单token、固定表示),但实验证明结论在全参数训练、任意长度回答时依然成立

损失函数 / 训练策略

两类模型均使用Bradley-Terry对数似然损失训练:\(\mathcal{L}(r) = \frac{1}{|\mathcal{D}_T|} \sum -\ln \sigma(r(\mathbf{x}, \mathbf{y}^+) - r(\mathbf{x}, \mathbf{y}^-))\)

实验关键数据

主实验(受控环境:Persona数据集)

评估条件 EX-RM准确率 IM-RM准确率
原始回答 (训练集) 1.00 1.00
原始回答 (测试集) 1.00 1.00
Paraphrase回答 (训练集) 1.00 0.022
Paraphrase回答 (测试集) 1.00 0.019

IM-RM在token分布发生变化(同义改写)时准确率几乎为0,而EX-RM完美泛化。

真实场景实验(UltraFeedback训练,6个1B-8B模型)

评估类型 EX-RM准确率 IM-RM准确率 EX-RM奖励间隔 IM-RM奖励间隔
分布内 0.752 0.646 1.014 0.813
Token级偏移 0.665 0.602 0.976 0.763
领域偏移 0.621 0.720 0.807 0.726

消融实验

配置 关键发现
哈密顿回路验证 IM-RM测试准确率0.993,但生成正确回路数=0,证明验证≠生成
中间token表示的EX-RM 排除了"EX-RM用全序列表示而IM-RM用中间表示"的解释
无参考分布的IM-RM 排除了"参考分布偏移"的解释
Token偏移(翻译/改写) EX-RM在法语/西班牙语翻译后仍大幅优于IM-RM

关键发现

  • IM-RM在token级偏移下一致弱于EX-RM(改写、翻译场景),但在领域偏移下可能持平甚至更好
  • EX-RM始终产生更大的绝对奖励间隔(absolute reward margin),这对后续RL优化有利
  • 分布内评估中IM-RM也弱于EX-RM,因为分布内测试样本与训练样本语义相似但token不同,更接近token偏移

亮点与洞察

  • 学习动力学视角的创新性:通过分析单步梯度更新的影响,精确刻画了EX-RM(只看表示)和IM-RM(还看token)的本质差异。这个角度既优雅又有强解释力,远超"生成-验证差距"这一直觉论证
  • 反直觉的"反驳":Theorem 1 + 哈密顿回路实验干净利落地反驳了流行的"生成-验证差距"假说,令人印象深刻
  • "越改写越差"现象的理论解释\(\rho_{k,l}\) 系数的正负取决于token是否匹配,这个发现可以指导DPO实践——例如,在DPO训练集中加入同义改写的正负样本对,可能有效缓解IM-RM的脆弱性
  • 对RLHF vs DPO之争的新视角:提供了DPO弱于RLHF的一个新理论解释(token级过拟合),且与已有的"生成-验证差距"解释互补

局限与展望

  • 理论分析假设固定隐藏表示(Assumption 1)和单token回答(Assumption 2),虽然实验验证了结论的普适性,但更一般的理论保证仍然缺失
  • 只考虑了准确率作为评估指标,未探讨奖励模型在实际RL训练中的下游影响
  • 发现了IM-RM在领域偏移时可能优于EX-RM,但未深入分析原因——何时应选IM-RM?
  • 可改进方向:能否设计一种"token-invariant"的IM-RM训练方式(如在DPO训练中加入paraphrase数据增强)来弥补泛化差距?

相关工作与启发

  • vs DPO (Rafailov et al., 2023):DPO本质上就是IM-RM,本文揭示了它泛化弱于RLHF(先训EX-RM再RL优化)的一个关键原因
  • vs Swamy et al. (2025):他们主张"生成-验证差距"是DPO弱于RLHF的原因,本文直接反驳这一假说(至少在奖励模型准确率层面)
  • vs Im & Li (2025):他们在类似条件下证明IM-RM在相同回答不同prompt时能泛化,而本文证明在不同回答时IM-RM无法泛化,更贴近现实场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 学习动力学分析角度新颖,token依赖性的发现极具洞察力
  • 实验充分度: ⭐⭐⭐⭐ 受控+真实场景+多种消融,排除了多个替代假说,但缺少下游RL任务验证
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑链条极其清晰:反驳旧假说→提出新解释→理论证明→实验验证
  • 价值: ⭐⭐⭐⭐⭐ 对RLHF/DPO社区有重大指导意义,揭示了reward model设计的隐含偏差