Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework¶

会议: ICLR 2026
arXiv: 2506.05619
代码: 补充材料中包含实验代码
领域: AI Alignment / Social Choice Theory
关键词: RLHF, NLHF, 偏好学习, 社会选择理论, 人群比例对齐, 公理化框架

一句话总结¶

提出基于社会选择理论公理的偏好学习框架，从成对比较数据中推断评估者人群分布的可行集，构造满足人群比例对齐(PPA)和人群有界可操纵性(PBM)公理的策略。

背景与动机¶

现有痛点¶

现有痛点：领域现状：1. RLHF 依赖 Bradley-Terry 模型将偏好压缩为标量奖励，在偏好不一致/循环偏好场景下失效 2. NLHF 将偏好学习建模为博弈，找 Nash 均衡策略，但仍不能按比例反映评估者分布 3. 核心问题：当两组评估者对两个选项的偏好接近 50:50 时（如 50+ε vs 50−ε），RLHF 和 NLHF 都会输出确定性策略选择微弱多数方，完全忽略少数群体 4. 现有多元对齐方法（mixture-based、steerable models）通常需要显式的评估者群组标签，实际中难以获取 5. 已有公理化方法（如随机独裁制 Random Dictatorship）虽满足比例对齐，但无法仅从成对比较数据实现 6. 本文目标：不需额外群组信息，仅从成对比较数据实现比例对齐

方法详解¶

框架设计¶

可行人群分布集推断：定义 \(u_i = \min_{y \neq y_i} P(y_i \succ y)\) 作为每个选项 \(y_i\) 的人群份额上界，构建多面体外近似 \(\bar{\mathcal{W}}(P) = \{w \in \Delta(\mathcal{Y}) | w_i \leq u_i\}\)
策略构造：按上界比例分配概率 \(\pi(y_i) = u_i / \sum_j u_j\)，采用保守策略最小化最坏情况下的比例失配

四条公理¶

单调性：提升某选项排名不会降低其被选概率
Pareto 效率：若所有人偏好 \(y\) 胜 \(y'\)，策略应倾向 \(y\)
α-PPA（人群比例对齐）：\(\pi(y_k)/w_k^\sigma \geq \alpha(\sigma)\)，保证策略至少弱比例于人群份额
γ-PBM（人群有界可操纵性）：操纵后策略增益受 \(\gamma_1 w_k^\sigma + \gamma_2\) 约束，非多数群体无法通过操纵获得多数地位

Softmax 松弛¶

引入参数 \(\beta\) 控制比例对齐与 Condorcet 一致性的权衡：\(\pi(y_i) = u_i \exp(\beta u_i) / \sum_j u_j \exp(\beta u_j)\)
\(\beta=0\) 退化为原始 \(F^*\)；\(\beta \to \infty\) 收敛至 minimax Condorcet 方法

实验¶

表格实验：MovieLens 电影推荐¶

主实验¶

方法	胜率	PPA 水平	PBM 增益
RLHF	0.7784	0	0.0611
NLHF	0.7712	0	0.0124
\(F^\beta\)(\(\beta=1\))	~0.60	0.4869	8.9e-4

β 增大时胜率升高但 PPA 下降，验证理论预测的权衡关系
提出方法在 β≤10 时操纵抗性显著优于基线

LLM 实验：Qwen2.5-3B-Instruct¶

消融实验¶

数据集	β=0 PPA	DPO PPA
Synthetic-Color	0.0883	0.0000
Alpaca-Expertise	0.1428	0.1321
Alpaca-Style	0.5012	0.3786

合成数据上权衡明显；Alpaca 数据因 GPT-4.1 注释噪声效果较弱
计算代价与 RLHF 相当，高于 DPO

亮点与洞察¶

理论严谨：证明 RLHF/NLHF 违反任意强度的 PPA 和 PBM 公理
仅需成对比较数据即可推断人群分布可行集，不需要群组标签
Softmax 松弛提供比例对齐与 Condorcet 一致性的可调权衡
操纵抗性有理论保证：非多数群体无法通过策略性误报获得多数地位

局限与展望¶

PPA 仅关注各群组首选项的选择概率，忽略低排名偏好
LLM 场景下评估 PPA 水平仍是开放问题（logit 估计 vs 群组分类均有噪声）
两阶段函数近似方法计算开销不低于 RLHF，需开发直接策略优化版本
外近似 \(\bar{\mathcal{W}}\) 在选项数多时可能过于宽松

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐