Diverging Preferences: When do Annotators Disagree and do Models Know?¶
会议: ICML 2025
arXiv: 2410.14632
代码: 无
领域: LLM对齐/RLHF
关键词: 偏好分歧, 奖励建模, 多元化对齐, LLM-as-Judge, 分布式奖励模型
一句话总结¶
本文系统分析了 RLHF 偏好数据集中标注者分歧的原因(建立了包含 10 个类别的分类法),发现超过 75% 的分歧源于个人偏好而非标注噪声,提出了分布式奖励模型(Mean-Var Reward Model)来有效区分分歧偏好与高一致偏好,并揭示了 LLM-as-Judge 评估方法在分歧情况下的系统性偏见。
研究背景与动机¶
领域现状:RLHF 已成为对齐 LLM 的标准方法,但在偏好数据收集中,标注者之间的分歧是普遍现象——MultiPref 中 39%、HelpSteer2 中 24% 的样本存在标注者分歧。
现有痛点:当前的奖励建模流程(如 Bradley-Terry)将标注者分歧视为简单噪声,通过多数投票聚合标签。这种做法忽视了分歧往往反映了不同用户视角的合理差异。
核心矛盾:标准奖励模型对分歧偏好和高一致偏好预测出相似的奖励差距,无法区分两者,导致 RLHF 训练的 LLM 只学会迎合一种用户视角,违背多元化对齐的目标。
本文目标:(1)理解标注者分歧的根本原因;(2)设计能识别分歧偏好的奖励模型;(3)发现并缓解 LLM-as-Judge 评估中的偏见。
切入角度:从数据分析入手,释放 MultiPref 和 HelpSteer2 的个体标注信息,建立分歧原因的分类法,然后基于此分析推动奖励建模和评估方法的改进。
核心 idea:将奖励建模为分布(而非单一标量),既能预测偏好方向,也能捕捉标注者之间的分歧程度。
方法详解¶
整体框架¶
方法分为三部分:(1)分歧原因分析与分类法构建;(2)分布式奖励模型设计与训练;(3)LLM-as-Judge 偏见分析与缓解。
关键设计¶
-
分歧原因分类法:
- 功能:将偏好分歧划分为 4 大类、10 个子类
- 核心思路:通过人工分析 200 个分歧样本,归纳分歧来源
- 四大类:
- 任务类(Task Underspecification, 20-22%):prompt 欠明确,多种合理解读
- 响应风格类(Verbosity 38-44%, Format 20-32%, Complexity 10%, Aesthetic Taste 14-22%):个人偏好差异
- 拒绝类(Comply vs. Refuse 5%, Refuse vs. Refuse 20%):安全判断分歧
- 错误类(Hallucinations & Errors 14-24%):事实错误的判定差异
- 设计动机:超过 75% 的分歧源于任务欠明确和响应风格等合理偏好差异,而非标注员犯错
- 标注一致性:Cohen's κ = 0.58-0.59, Krippendorff's α = 0.62-0.68
-
Mean-Var 分布式奖励模型 (KL):
- 功能:将每个响应的奖励建模为正态分布 \(r_A \sim \mathcal{N}(\mu_A, \sigma_A^2)\),同时预测均值和方差
- 核心思路:均值反映整体偏好方向,方差捕捉标注者间的分歧程度
- 关键公式:\(r_A - r_B \sim \mathcal{N}(\mu_A - \mu_B, \sigma_A^2 + \sigma_B^2 - 2\rho\sigma_A\sigma_B)\)
- 其中 \(\rho\) 建模两个响应之间的相关性(基于 tie 频率)
- 训练损失:使用 KL 散度损失,将 \(r_A - r_B\) 的值映射到标注偏好标签的概率分布上
- 偏好映射区间:tie 对应 \((-0.5, 0.5)\),slight prefer 对应 \([0.5, 1.5)\),significant prefer 对应 \([1.5, \infty)\)
- 分歧识别:\(|\mu_A - \mu_B| - \lambda(\sigma_A + \sigma_B)\),当方差大、均值差小时识别为分歧
- 与 Bradley-Terry 的区别:后者只输出标量奖励,无法捕捉不确定性
-
LLM-as-Judge 偏见分析与缓解:
- 功能:分析 LLM-as-Judge 在分歧偏好上的行为,提出过滤方法
- 核心发现:LLM-as-Judge 在分歧偏好样本上选出"赢家"的比例(73.8%)与高一致偏好(73.1%)几乎相同
- 偏见类型:偏好详细格式化输出、偏好合规而非拒绝
- 缓解方案:使用分布式奖励模型识别分歧样本,从评估基准中移除
损失函数 / 训练策略¶
- Mean-Var (KL):使用 KL 散度损失训练,将 \(r_A - r_B\) 映射到 5 个偏好类别(显著优于 A / 略优于 A / 平局 / 略优于 B / 显著优于 B)
- 对比基线 Mean-Var (NLL, Independent):使用负对数似然损失且假设独立,效果较差
- Classification (KL):基于 Likert-5 分数的 5 分类器,预测分数分布
- 所有模型基于 Llama-3-8B-Instruct 训练
实验关键数据¶
分布式 vs 标量奖励模型¶
| 奖励模型 | MultiPref Pref Acc | MultiPref Div AUROC | HS2 Pref Acc | HS2 Div AUROC |
|---|---|---|---|---|
| Skywork (27B) | 0.651 | 0.494 | — | — |
| Nemotron (70B) | 0.638 | 0.400 | — | — |
| Bradley-Terry (Agg) | 0.663 | 0.458 | 0.683 | 0.482 |
| Bradley-Terry (All) | 0.648 | 0.438 | 0.678 | 0.489 |
| Mean-Var (KL, ours) | 0.664 | 0.615 | 0.684 | 0.582 |
| Classification (KL) | — | — | 0.659 | 0.648 |
LLM-as-Judge 在不同偏好类型的表现¶
| 偏好类型 | MultiPref 选出赢家% | HelpSteer2 选出赢家% |
|---|---|---|
| 高一致偏好 | 73.1% | 64.6% |
| 高一致平局 | 42.6% | 51.9% |
| 分歧偏好(全部) | 73.8% | 57.3% |
| 分歧偏好(显著) | 76.0% | 65.0% |
关键发现¶
- 标准 Bradley-Terry 奖励模型的 Diverging ID AUROC 接近随机(~0.5),无法区分分歧和一致偏好
- Mean-Var (KL) 在保持偏好准确率的同时,将 Div AUROC 从 0.46 提升到 0.62(+0.16)
- LLM-as-Judge 在分歧偏好上表现出与高一致偏好几乎相同的"决断性",系统性偏向某种风格
- Verbosity(冗长度)是最大的分歧来源(38-44%),而非之前假设的标注噪声
亮点与洞察¶
- 数据洞察深刻:首次系统性地从真实偏好数据集中分析分歧原因,建立了有实证基础的分歧分类法
- 揭示了一个被广泛忽视的问题:奖励模型对分歧样本和一致样本"一视同仁",无法支持多元化对齐
- 分布式奖励模型是一个优雅的解决方案:一个模型同时完成偏好预测和分歧识别两个任务
- 对 LLM-as-Judge 偏见的发现对当前流行的评估方法(如 Arena-Hard)具有重要的警示意义
局限与展望¶
- 仅在两个英语数据集上验证,跨语言和跨文化的分歧模式可能不同
- 分布式奖励模型目前未直接集成到 RLHF 训练流程中,如何将分歧信息融入策略优化是开放问题
- 分歧分类法的粒度可能不够——例如 Verbosity 和 Format 可能存在重叠
- LLM-as-Judge 偏见的缓解方法依赖于奖励模型,存在循环依赖风险
相关工作与启发¶
- 与多元化对齐(Pluralistic Alignment)研究方向密切相关,为该领域提供了实证数据支撑
- 分布式奖励建模的思想可推广到其他存在标注不确定性的场景(如安全评估)
- 分歧分类法对偏好数据集的构建和质量控制具有直接指导意义
- 对 reward hacking 问题提供了新的分析视角:一些"对齐失败"可能只是模型学到了特定标注者子群的偏好
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐