Diverging Preferences: When do Annotators Disagree and do Models Know?¶

会议: ICML 2025
arXiv: 2410.14632
代码: 无
领域: LLM对齐/RLHF
关键词: 偏好分歧, 奖励建模, 多元化对齐, LLM-as-Judge, 分布式奖励模型

一句话总结¶

本文系统分析了 RLHF 偏好数据集中标注者分歧的原因（建立了包含 10 个类别的分类法），发现超过 75% 的分歧源于个人偏好而非标注噪声，提出了分布式奖励模型（Mean-Var Reward Model）来有效区分分歧偏好与高一致偏好，并揭示了 LLM-as-Judge 评估方法在分歧情况下的系统性偏见。

研究背景与动机¶

领域现状：RLHF 已成为对齐 LLM 的标准方法，但在偏好数据收集中，标注者之间的分歧是普遍现象——MultiPref 中 39%、HelpSteer2 中 24% 的样本存在标注者分歧。

现有痛点：当前的奖励建模流程（如 Bradley-Terry）将标注者分歧视为简单噪声，通过多数投票聚合标签。这种做法忽视了分歧往往反映了不同用户视角的合理差异。

核心矛盾：标准奖励模型对分歧偏好和高一致偏好预测出相似的奖励差距，无法区分两者，导致 RLHF 训练的 LLM 只学会迎合一种用户视角，违背多元化对齐的目标。

本文目标：（1）理解标注者分歧的根本原因；（2）设计能识别分歧偏好的奖励模型；（3）发现并缓解 LLM-as-Judge 评估中的偏见。

切入角度：从数据分析入手，释放 MultiPref 和 HelpSteer2 的个体标注信息，建立分歧原因的分类法，然后基于此分析推动奖励建模和评估方法的改进。

核心 idea：将奖励建模为分布（而非单一标量），既能预测偏好方向，也能捕捉标注者之间的分歧程度。

方法详解¶

整体框架¶

方法分为三部分：（1）分歧原因分析与分类法构建；（2）分布式奖励模型设计与训练；（3）LLM-as-Judge 偏见分析与缓解。

关键设计¶

分歧原因分类法:
- 功能：将偏好分歧划分为 4 大类、10 个子类
- 核心思路：通过人工分析 200 个分歧样本，归纳分歧来源
- 四大类：
  - 任务类（Task Underspecification, 20-22%）：prompt 欠明确，多种合理解读
  - 响应风格类（Verbosity 38-44%, Format 20-32%, Complexity 10%, Aesthetic Taste 14-22%）：个人偏好差异
  - 拒绝类（Comply vs. Refuse 5%, Refuse vs. Refuse 20%）：安全判断分歧
  - 错误类（Hallucinations & Errors 14-24%）：事实错误的判定差异
- 设计动机：超过 75% 的分歧源于任务欠明确和响应风格等合理偏好差异，而非标注员犯错
- 标注一致性：Cohen's κ = 0.58-0.59, Krippendorff's α = 0.62-0.68
Mean-Var 分布式奖励模型 (KL):
- 功能：将每个响应的奖励建模为正态分布 \(r_A \sim \mathcal{N}(\mu_A, \sigma_A^2)\)，同时预测均值和方差
- 核心思路：均值反映整体偏好方向，方差捕捉标注者间的分歧程度
- 关键公式：\(r_A - r_B \sim \mathcal{N}(\mu_A - \mu_B, \sigma_A^2 + \sigma_B^2 - 2\rho\sigma_A\sigma_B)\)
- 其中 \(\rho\) 建模两个响应之间的相关性（基于 tie 频率）
- 训练损失：使用 KL 散度损失，将 \(r_A - r_B\) 的值映射到标注偏好标签的概率分布上
- 偏好映射区间：tie 对应 \((-0.5, 0.5)\)，slight prefer 对应 \([0.5, 1.5)\)，significant prefer 对应 \([1.5, \infty)\)
- 分歧识别：\(|\mu_A - \mu_B| - \lambda(\sigma_A + \sigma_B)\)，当方差大、均值差小时识别为分歧
- 与 Bradley-Terry 的区别：后者只输出标量奖励，无法捕捉不确定性
LLM-as-Judge 偏见分析与缓解:
- 功能：分析 LLM-as-Judge 在分歧偏好上的行为，提出过滤方法
- 核心发现：LLM-as-Judge 在分歧偏好样本上选出"赢家"的比例（73.8%）与高一致偏好（73.1%）几乎相同
- 偏见类型：偏好详细格式化输出、偏好合规而非拒绝
- 缓解方案：使用分布式奖励模型识别分歧样本，从评估基准中移除

损失函数 / 训练策略¶

Mean-Var (KL)：使用 KL 散度损失训练，将 \(r_A - r_B\) 映射到 5 个偏好类别（显著优于 A / 略优于 A / 平局 / 略优于 B / 显著优于 B）
对比基线 Mean-Var (NLL, Independent)：使用负对数似然损失且假设独立，效果较差
Classification (KL)：基于 Likert-5 分数的 5 分类器，预测分数分布
所有模型基于 Llama-3-8B-Instruct 训练

实验关键数据¶

分布式 vs 标量奖励模型¶

奖励模型	MultiPref Pref Acc	MultiPref Div AUROC	HS2 Pref Acc	HS2 Div AUROC
Skywork (27B)	0.651	0.494	—	—
Nemotron (70B)	0.638	0.400	—	—
Bradley-Terry (Agg)	0.663	0.458	0.683	0.482
Bradley-Terry (All)	0.648	0.438	0.678	0.489
Mean-Var (KL, ours)	0.664	0.615	0.684	0.582
Classification (KL)	—	—	0.659	0.648

LLM-as-Judge 在不同偏好类型的表现¶

偏好类型	MultiPref 选出赢家%	HelpSteer2 选出赢家%
高一致偏好	73.1%	64.6%
高一致平局	42.6%	51.9%
分歧偏好（全部）	73.8%	57.3%
分歧偏好（显著）	76.0%	65.0%

关键发现¶

标准 Bradley-Terry 奖励模型的 Diverging ID AUROC 接近随机（~0.5），无法区分分歧和一致偏好
Mean-Var (KL) 在保持偏好准确率的同时，将 Div AUROC 从 0.46 提升到 0.62（+0.16）
LLM-as-Judge 在分歧偏好上表现出与高一致偏好几乎相同的"决断性"，系统性偏向某种风格
Verbosity（冗长度）是最大的分歧来源（38-44%），而非之前假设的标注噪声

亮点与洞察¶

数据洞察深刻：首次系统性地从真实偏好数据集中分析分歧原因，建立了有实证基础的分歧分类法
揭示了一个被广泛忽视的问题：奖励模型对分歧样本和一致样本"一视同仁"，无法支持多元化对齐
分布式奖励模型是一个优雅的解决方案：一个模型同时完成偏好预测和分歧识别两个任务
对 LLM-as-Judge 偏见的发现对当前流行的评估方法（如 Arena-Hard）具有重要的警示意义

局限与展望¶

仅在两个英语数据集上验证，跨语言和跨文化的分歧模式可能不同
分布式奖励模型目前未直接集成到 RLHF 训练流程中，如何将分歧信息融入策略优化是开放问题
分歧分类法的粒度可能不够——例如 Verbosity 和 Format 可能存在重叠
LLM-as-Judge 偏见的缓解方法依赖于奖励模型，存在循环依赖风险

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐