Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values¶

会议: NeurIPS 2025
arXiv: 2502.00313
代码: github.com/SamarthKhanna/Distributive-Fairness-LLMs
领域: AI安全 / LLM对齐
关键词: 分配公平性, LLM对齐, 人类价值观, 公平分配, 资源分配

一句话总结¶

本文系统评估多个 SOTA LLM（GPT-4o、Claude-3.5S、Llama3-70b、Gemini-1.5P）在非策略性资源分配任务中的分配公平性偏好，发现 LLM 与人类存在显著偏差：LLM 偏好效率和无嫉妒性 (EF) 而忽视人类更看重的公平性/平等性 (EQ)，但在选择题模式下 GPT-4o 和 Claude 能正确识别公平方案。

研究背景与动机¶

领域现状：LLM 越来越多地被用于社会和经济决策场景，其作为社会规划者的潜力备受关注。分配公平性——如何在多个个体间公平分配资源——是社会科学和算法决策的核心问题。

现有痛点：已有研究主要关注 LLM 在博弈论场景（囚徒困境、最后通牒等）中的行为，但对非策略性资源分配（社会规划者角色）的公平性研究几乎空白。

核心矛盾：公平性本身没有统一定义——公平性 (EQ)、无嫉妒性 (EF)、Rawls 最大化最小值 (RMM) 可能相互冲突，LLM 的偏好层级是否与人类一致？

本文目标 LLM 在资源分配中是否与人类价值观对齐？行为受哪些公平公理支配？错位根源是什么？

切入角度：采用 Herreiner & Puppe (2010) 的经典人类实验数据集，设计不可分物品（有/无金钱）的分配实例，构造公平-效率之间的 tradeoff 场景。

核心 idea：人类优先追求平等性 (EQ)，而 LLM 优先追求经济效率 (PO/USW) 和无嫉妒性 (EF)——但当 LLM 从预设选项中选择（而非自行生成）时，GPT-4o 和 Claude 能正确识别最公平方案。

方法详解¶

整体框架¶

设计一系列不可分物品分配实例（2-3 个个体，3-6 件物品，部分带金钱），每个实例让 LLM 和人类分别生成/选择"最公平"的分配方案，统计分析各公平/效率概念的满足频率。

关键设计¶

实例设计与数据集:
- 功能：采用 10 个精心设计的实例 I_1 - I_10，每个构造特定公平概念之间的 tradeoff
- 核心指标：个体 i 对物品 g 的估值为 v_{i,g}，效用函数为加法可分的 u_i(A_i, p_i) = v_i(A_i) + p_i
- 涵盖场景：EQ vs EF、公平 vs 效率、带金钱缓解不平等、决策者偏见
公平性指标体系:
- 公平性 (EQ)：最小化不平等差距 Delta(A,p) = max_{i,j}{u_i - u_j}，完全公平 EQ* 表示 Delta = 0
- 无嫉妒性 (EF)：对所有 i,j，u_i(A_i, p_i) >= u_i(A_j, p_j)
- Rawls 最大化最小值 (RMM)：max_{(A,p)} min_i u_i(A_i, p_i)
- 效率：帕累托最优 (PO)、功利主义社会福利最大化 (USW) max sum_i u_i
选择题模式实验 (Section 4.1):
- 功能：不要求 LLM 生成方案，而是从 5 个预设选项中选择最公平的
- 核心发现：GPT-4o 和 Claude-3.5S 在 >60% 和 >70% 的情况下选择 EQ* 方案——说明 LLM 知道什么是公平的，但在生成时无法做到
- 设计动机：区分"计算能力不足"和"价值观不对齐"两种错位来源
Persona / CoT / 意图实验 (Section 5):
- 功能：给 LLM 赋予特定公平概念的 persona，或使用 Chain-of-Thought 提示
- 核心发现：赋予 EQ persona 后 LLM 仍然难以生成公平方案（GPT-4o 在 EQ persona 下 EQ 满足率 <20%），说明问题不在于理解而在于计算
- CoT 提示对 GPT-4o 和 Claude 在部分实例上有效，但不一致

评估策略¶

每个模型对每个实例查询 100 次，温度 1.0
使用 Fisher 精确检验验证人类与 LLM 分布的显著差异 (p < 0.05)
二阶段提示策略消除模板敏感性

实验关键数据¶

主实验：分配偏好聚合排名（所有实例平均）¶

排名	人类	GPT-4o	Claude-3.5S	Llama3-70b	Gemini-1.5P
1st	EQ* (12.4%)	PO (20.4%)	PO (14.9%)	USW (30.8%)	EF (19%)
2nd	EF (9.9%)	USW (11.2%)	EF+PO (14.8%)	PO (26%)	PO (16.8%)
3rd	EF+RMM+PO (9%)	EF+RMM+PO (9.9%)	EF (12.9%)	EF+RMM (7.2%)	USW (11.6%)

选择题模式下的公平偏好¶

模型	选择 EQ* 的比例	选择 USW 的比例
GPT-4o	>60%	<15%
Claude-3.5S	>70%	<10%
Llama3-70b	<1%	~40%
Gemini-1.5P	<2%	~50%

关键发现¶

生成 vs 选择的鲜明对比：GPT-4o 在生成模式下从不返回 EQ，但在选择模式下 >60% 选择 EQ，暗示 LLM 的公平理解存在但计算能力不足
金钱利用能力差异大：GPT-4o 能用金钱缓解不平等（8% 返回 EQ* 方案），其他模型几乎完全不会用金钱实现公平
LLM 使用贪心算法：分析发现 LLM 倾向于轮流分配或按最高估值分配，这类贪心策略天然导致 EF 或 USW 方案
自利偏见：LLM 在作为参与者时表现不一致——有时自利，有时自我牺牲

亮点与洞察¶

生成/选择差异的发现非常有洞察力——LLM 不是不知道公平，而是在开放式生成中缺乏探索公平方案的搜索能力。这提示了 RL/SFT 改进方向
公平概念层级分析为 LLM 对齐提供了细粒度框架，比简单的"对齐/不对齐"二元判断更有价值
实验设计与经济学实证研究方法论紧密结合，每个实例精心设计了特定 tradeoff

局限与展望¶

人类数据来源于单一研究 (H&P 2010)，可能存在文化和情境依赖性，跨文化验证缺乏
仅考虑加法可分估值的不可分物品分配，未涉及组合估值或策略性环境
未尝试 SFT/RLHF 方法直接改善 LLM 的公平分配生成能力
不平等容忍度实验中构造的放大实例有限，未系统化探索极端场景

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统评估 LLM 的分配公平性偏好，生成/选择差异的发现很新颖
实验充分度: ⭐⭐⭐⭐⭐ 覆盖4个模型、10+实例、选择/生成/persona/CoT 多种模式
写作质量: ⭐⭐⭐⭐ 结构清晰，与经济学文献衔接好
价值: ⭐⭐⭐⭐ 为 LLM 公平性对齐提供了重要的实证基础和改进方向