Towards Reward Fairness in RLHF: From a Resource Allocation Perspective¶

会议: ACL 2025
arXiv: 2505.23349
代码: https://github.com/shoyua/Towards-Reward-Fairness
领域: LLM对齐
关键词: RLHF, 奖励公平性, 资源分配, 偏差缓解, 偏好学习

一句话总结¶

将 RLHF 中的长度偏差、类别偏差、社会偏差等多种奖励偏差统一定义为"奖励不公平"问题，借鉴资源分配理论提出 Fairness Regularization 和 Fairness Coefficient 两种偏差无关方法，分别应用于奖励模型训练和策略模型训练，在不针对特定偏差设计的前提下同时缓解多种偏差并提升对齐质量。

研究背景与动机¶

领域现状: RLHF 的核心假设是奖励模型（RM）能准确代理人类偏好。RM 按 Bradley-Terry 模型训练，对每个偏好对 \((x, y^w, y^l)\) 保证 \(r(y^w) > r(y^l)\)。然而，配对内的相对顺序正确并不意味着跨配对的绝对奖励分布合理——来自不同类别或长度的数据可能获得系统性不对等的奖励，进而误导策略模型的优化方向。
已有方法的不足: 现有工作针对不同偏差提出不同的定制方案——长度偏差使用长度正则化（R-DPO 等），类别偏差使用模型集成或多样化偏好学习。这种"一个偏差一个方法"的碎片化策略不可扩展，且无法处理未知类型的偏差。
核心矛盾: BT 模型只优化配对内 margin \(r(y^w) - r(y^l)\)，不约束跨配对的奖励绝对值分布。结果是不喜欢的回答 \(y_1^l\) 的奖励可能高于另一对中喜欢的回答 \(y_2^w\)，当策略模型基于绝对奖励做最大化时就会朝错误方向优化。
本文动机: 将各种奖励偏差视为"奖励不公平"的不同表现形式，从资源分配理论借鉴统一的公平性度量，在效用（utility）和公平（fairness）之间做权衡，提出 bias-agnostic 的通用解法。

方法详解¶

整体框架¶

将偏好学习建模为资源分配问题：奖励是待分配的"资源"，分配给不同的数据组（按长度/类别/人口统计划分）。优化目标从单一的效用最大化（\(\max U(\mathbf{a})\)，即标准 BT 损失）扩展为效用-公平联合优化，提出两种组合方式：加法形式的 Fairness Regularization 和乘法形式的 Fairness Coefficient。框架在两个场景下实例化：(1) 训练公平奖励模型（Fairness RM），(2) 训练公平策略模型（Fairness DPO）。

关键设计¶

统一公平性度量函数
- 功能: 提供一个满足连续性、齐次性、单调性三大性质的公平性指标族
- 做法: 采用 Lan et al. (2010) 提出的统一公平度量 \(f_\tau(\mathbf{a}) = \text{sign}(1-\tau) \cdot \left[\sum_{i=1}^{n}\left(\frac{a_i}{\sum_j a_j}\right)^{1-\tau}\right]^{1/\tau}\)，其中 \(a_i = r_\phi(y^w_i) - r_\phi(y^l_i)\) 为第 \(i\) 个偏好对的奖励 margin，\(\tau\) 控制公平函数族的形状（\(\tau = -1\) 退化为 Jain's Index）
- 设计动机: 齐次性保证公平度量与奖励尺度无关，可省去资源总量约束；统一参数 \(\tau\) 允许从一族公平函数中灵活选择；实验证明对 \(\tau\) 不敏感，各取值均优于基线
Fairness Regularization（FR，加法公平正则）
- 功能: 在训练目标中以正则项形式引入公平约束
- 做法: 损失函数为 \(\mathcal{L}_{\text{FR}} = -\mathbb{E}[\log\sigma(a_i)] - \alpha \cdot f_\tau(\mathbf{a})\)，第一项是标准 BT 效用损失，第二项是公平正则。超参 \(\alpha\) 控制公平-效用权衡。对于 DPO 场景，\(a_i\) 替换为隐式奖励 margin \(\beta\log\frac{\pi_\theta(y^w|x)}{\pi_{\text{ref}}(y^w|x)} - \beta\log\frac{\pi_\theta(y^l|x)}{\pi_{\text{ref}}(y^l|x)}\)
- 设计动机: 加法形式实现简单，公平项梯度独立于效用项，便于调节权衡；\(\alpha=0.1\) 时在多个基准上取得最佳平衡
Fairness Coefficient（FC，乘法公平系数）
- 功能: 以乘法系数形式动态缩放效用损失
- 做法: 损失函数为 \(\mathcal{L}_{\text{FC}} = -\mathbb{E}[\log\sigma(a_i)] \cdot f_\tau(\mathbf{a})^\gamma\)，公平度量作为效用损失的权重系数。当奖励分布越不公平（\(f_\tau\) 越小），整体损失越小——梯度自动将优化方向推向更公平的分布
- 设计动机: 乘法形式让公平性自适应调节——不公平时自动加大正则效果，公平时保持正常训练。无需手动调节 \(\alpha\)，只需设定 \(\gamma\)

两个应用场景¶

场景	目标	输入	分配向量 \(a_i\) 定义	输出
Fairness RM（验证）	训练公平奖励模型	偏好对 \((x, y^w, y^l)\)	\(r_\phi(y^w) - r_\phi(y^l)\)	公平的奖励打分器，用于 BoN 数据选择
Fairness DPO（RL）	训练公平策略模型	偏好对 + 参考模型 \(\pi_{\text{ref}}\)	隐式奖励 margin	偏好对齐且公平的生成模型

实验关键数据¶

奖励模型公平性验证（LLaMA3-SFT 基座）¶

验证器	Reward Bench Avg.	Chat	Chat Hard	Reasoning	Safety	HH-RLHF Avg.
BT RM（基线）	78.11	93.02	57.02	84.98	77.43	73.81
FR RM	78.38	94.41	57.02	83.86	78.24	73.55
FC RM	77.50	94.41	53.29	85.53	76.76	73.96

公平 RM 在精度不下降的前提下显著改善了 Helpful 与 Harmless 类别间的奖励分布一致性。

策略模型对齐质量¶

基座	方法	AlpacaEval2 LC WR	AlpacaEval2 WR	MT-Bench
LLaMA3	DPO	16.71	14.23	6.46
LLaMA3	R-DPO（长度正则）	20.87	11.16	6.48
LLaMA3	KTO	19.44	16.64	6.64
LLaMA3	FR DPO	20.48	15.74	6.70
LLaMA3	FC DPO	21.10	16.96	6.58
Qwen2.5	DPO	18.93	13.18	6.59
Qwen2.5	FR DPO	21.05	15.25	7.24
Qwen2.5	FC DPO	19.72	14.53	7.00

关键发现¶

FR/FC DPO 在两个基座模型上均持续优于标准 DPO 和定制化的 R-DPO，验证了偏差无关方法的有效性
公平约束不仅不损害对齐质量，反而带来提升——因为减少偏差使模型学到更准确的偏好信号
公平 RM 在 BoN 数据选择中可用更少的采样达到相同性能，采样效率更高
在 CrowS-Pairs 社会偏差数据集上，FR/FC RM 的刻板印象与非刻板印象奖励分布差距显著缩小
消融实验表明 \(\tau \in [-5, 10]\) 范围内所有公平函数均优于基线，方法对 \(\tau\) 健壮；\(\alpha = 0.1\) 为最优效用-公平权衡点

亮点与洞察¶

资源分配视角是核心理论创新——将 RLHF 偏差与经济学公平分配理论桥接，提供了统一的分析框架。
偏差无关（bias-agnostic）比定制方案更有实践意义——实际场景中偏差类型往往未知或混合存在。
揭示 BT 模型的结构性缺陷：配对内正确 ≠ 跨配对公平，这是策略模型被误导的根本原因。
FC 方法的"即插即用"特性对已部署的 RLHF 系统有直接应用价值——无需重训奖励模型。

局限与展望¶

公平性度量需要预定义数据分组方式（按长度/类别/人口统计），分组质量影响效果
\(\alpha\) / \(\gamma\) 超参仍需在验证集上调节
仅在 BT RM + DPO 上验证，未扩展到 PPO、GRPO 等其他 RL 算法
奖励不公平与 reward hacking 的关系未深入探讨

评分¶

新颖性: ⭐⭐⭐⭐ 资源分配视角统一理解奖励偏差新颖，公平度量族设计巧妙
实验充分度: ⭐⭐⭐⭐ 覆盖 RM 验证 + DPO 策略 + 社会偏差 + 数据选择 + 消融，双基座验证
写作质量: ⭐⭐⭐⭐ 理论推导严谨，从资源分配到公平度量到具体方法层层递进
实用价值: ⭐⭐⭐⭐ FC 即插即用、对 \(\tau\) 健壮、不牺牲效用，对 RLHF 实际部署有直接价值