When Human Preferences Flip: An Instance-Dependent Robust Loss for RLHF¶

会议: AAAI 2026
arXiv: 2512.00709
代码: 无
领域: LLM Alignment
关键词: RLHF, DPO, 偏好翻转, 鲁棒对齐, 噪声标注

一句话总结¶

针对人类偏好标注中普遍存在的"偏好翻转"问题，提出 FA-DPO（Flipping-Aware DPO），将标注过程建模为"真实意图 + 实例依赖翻转概率"两阶段，通过修正 BT 模型损失和迭代优化翻转估计模块，在多种噪声场景下显著提升对齐鲁棒性，实例依赖翻转率高时比 DPO 提升 16.7%。

领域现状：RLHF/DPO 是 LLM 对齐的主流方法，但它们隐式假设偏好标注无噪声。实际上，研究表明仅 10% 的偏好翻转率就能导致对齐性能下降 30%。

现有痛点：(a) 人类偏好标注不可避免地含有噪声——环境干扰、注意力分散、或恶意攻击都可导致标注翻转；(b) 现有鲁棒方法（cDPO、rDPO）假设翻转率是固定的全局常数，与样本内容无关——这不符合现实，因为模糊的偏好对更容易被翻转，清晰的偏好对不太可能。

核心矛盾：固定翻转率的假设导致对所有样本施加相同的修正，无法区分"本身模糊易翻转的样本"和"清晰但被恶意翻转的样本"。

切入角度：将标注过程分解为两阶段——Stage 1 按真实人类意图标注（BT 模型），Stage 2 实例依赖的标签污染（翻转概率 \(\varepsilon_{\tilde{x}}\) 与样本内容相关）。

核心 idea：在 BT 模型损失中用实例依赖的翻转概率修正似然函数，使得翻转概率高的样本被降权甚至梯度反转，同时设计可学习的翻转概率估计模块与 LLM 联合优化。

在标准 DPO 基础上增加翻转概率估计模块： 1. 用分类器从偏好对特征中估计每个样本的翻转概率 \(\varepsilon_{\tilde{x}}\) 2. 用修正后的 FA-DPO 损失训练 LLM 策略模型 3. 两者交替迭代优化

实例依赖翻转概率建模：
- 核心命题：受污染的偏好概率与真实概率的关系为 \(\tilde{\mathbb{P}}\{\tilde{y}_w \succ \tilde{y}_l | x\} = (1-\varepsilon_{\tilde{x}})p + \varepsilon_{\tilde{x}}(1-p)\)
- \(\varepsilon_{\tilde{x}}\) 是实例依赖的——与该偏好对的内容、模糊程度相关
- 设计动机：固定 \(\varepsilon\) 的 cDPO/rDPO 无法区分不同样本的噪声程度
FA-DPO 损失函数：
- 修正后的损失：\(\mathcal{L}_{\text{FA-DPO}} = -\mathbb{E}_{\tilde{x}}[\log((1-\varepsilon_{\tilde{x}})p_\theta + \varepsilon_{\tilde{x}}(1-p_\theta))]\)
- 梯度权重分析（与 cDPO/rDPO 的关键区别）：
  - \(\varepsilon = 0\)（无翻转）→ 退化为标准 DPO
  - \(\varepsilon < 0.5\)（低翻转率）→ 权重随模型置信度增大，增强收敛稳定性
  - \(\varepsilon = 0.5\)（纯模糊）→ 权重为零，自动过滤这类无信号样本
  - \(\varepsilon > 0.5\)（高翻转率）→ 梯度方向反转，将翻转的标签纠正回来！这是 cDPO/rDPO 不具备的自纠正能力
- 设计动机：不是简单加减修正，而是乘法式重参数化，联合依赖翻转概率和模型置信度
翻转概率估计模块：
- 用 NLP 偏好标注的已知特征（如响应长度差、困惑度差、语义相似度等）作为输入特征
- 训练轻量分类器估计 \(\varepsilon_{\tilde{x}}\)
- 与 LLM 策略模型交替迭代优化

迭代两步法：(1) 固定翻转模型，用 FA-DPO 损失更新策略模型；(2) 固定策略模型，更新翻转概率估计模块。兼容标准 RLHF 和 DPO pipeline。

方法	Anthropic-HH (低噪声)	Anthropic-HH (高噪声)	HH_Golden (低噪声)	HH_Golden (高噪声)
DPO	67.2	55.8	83.5	58.6
cDPO	67.2	67.1	83.5	66.6
rDPO	70.1	57.8	83.5	47.7
ROPO	70.8	67.3	83.5	64.4
FA-DPO	73.1	69.8	83.5	70.8
提升	+2.3	+2.5	-	+16.7

高噪声下优势最显著：在 HH_Golden 高噪声场景下（实例依赖翻转率高），FA-DPO 比最佳基线提升 16.7 个百分点，因为梯度反转机制能主动纠正被翻转的样本
低噪声下也有提升：Anthropic-HH 低噪声下仍提升 2.3pp，说明实例依赖建模即使在噪声较少时也有价值
rDPO 在高噪声下反而退化：全局翻转率假设在实例依赖翻转场景下失效，说明"一刀切"修正不够
梯度反转是核心优势：当检测到高翻转概率的样本时，FA-DPO 会自动将偏好方向反转——这相当于从噪声标签中"恢复"真实偏好

梯度权重分析是本文最精彩的理论贡献——通过与 cDPO/rDPO 的系统性对比，清晰地展示了 FA-DPO 的四种行为模式（无翻转→标准、低翻转→增强稳定、高模糊→过滤、高翻转→反转纠正）。尤其是 \(\varepsilon > 0.5\) 时的梯度反转机制——这意味着 FA-DPO 可以从"被恶意翻转的样本"中恢复出正确的学习信号，这是之前的方法完全做不到的
将标注过程分解为"人类意图 + 外部污染"两阶段的建模很有统计学优雅性——此思路可以推广到任何基于人类偏好的学习场景（如 RLHF 以外的推荐系统、众包标注等）