跳转至

GEM: Generative Entropy-Guided Preference Modeling for Few-shot Alignment of LLMs

论文信息

一句话总结

GEM 提出了一种生成式熵引导偏好建模方法,通过认知过滤(基于熵的 CoT 评分)和 SEGA 算法(自评估组优势策略优化),在仅 3000 个偏好对的低资源场景下实现高效的 LLM 对齐。

研究背景与动机

标准 RLHF 管线通常依赖数千个高质量偏好比较和单独训练的奖励模型,但在医学、法律等专业领域,大规模偏好标注成本极高甚至不可行。现有解决方案面临以下问题:

外部评判方法不可靠:使用外部模型作为代理判官(LLM-as-a-Judge)成本高且不稳定

判别式奖励模型泛化差:在小数据集上训练的奖励分类器泛化能力有限

标准 DPO 仅利用成对比较:未充分利用偏好数据中蕴含的多维度认知信号

GEM 的核心洞察:人类偏好不仅反映最终选择,还揭示了背后的多维度认知评估过程。模型应该能够内化一个闭环优化框架,提取并利用偏好数据中隐含的细粒度认知信号。

方法详解

整体框架

GEM 包含两个核心模块:认知过滤 (Cognitive Filtering) 和 SEGA (Self-Evaluated Group Advantage),构成熵引导的闭环认知优化框架。

关键设计

1. 认知过滤模块 (Cognitive Filtering)

反思推理引擎 (Reflective Inference Engine): - 给定查询 \(q\)(带人类偏好标注),通过 CoT 提示生成 \(k\) 个候选推理链 - 每个候选响应 \(a_i\) 包含逐步推理过程 - 即使只有一个人类偏好示例,模型也能探索不同质量的替代方案

熵引导 Token 评分 (Entropy-Guided Token Scoring)

\[S(a_i) = -H_{\text{final}}(a_i) + \lambda \cdot \left(\frac{1}{n}\sum_{t=1}^{n}H_t\right)_{\text{top-}m}\]

设计理念基于熵的双阶段角色: - 最终答案低熵(高置信度)→ 奖励正确性(\(-H_{\text{final}}\)) - 中间推理高熵(探索性分叉)→ 奖励多样推理(\(\lambda \cdot \text{top-m 平均熵}\)

得分高的推理链 = 中间步骤充分探索 + 最终结论高度确定。过度确定(贪心路径可能遗漏边缘情况)或最终不确定(缺乏答案信心)的链得分低。

通过贝叶斯排序方案(类似 TrueSkill 和 Bradley-Terry 模型)聚合 token 级评分,产生完整的候选排序。

2. SEGA 算法 (Self-Evaluated Group Advantage)

将所有 \(k\) 个过滤后的 CoT 作为一个组处理,计算组内优势:

奖励转换\(r_i = f(S(a_i))\)

组基线\(\bar{r} = \frac{1}{k}\sum_i r_i\)

优势计算\(A_i = r_i - \bar{r}\)(平均优势为零,高于平均为正,低于为负)

策略梯度更新

\[\nabla_\theta \mathcal{L}_{\text{SEGA}} = -\mathbb{E}_q \sum_{i=1}^{k} w_i \nabla_\theta \log \pi_\theta(a_i | q)\]

SEGA 的关键优势: - 不需要外部奖励模型或价值网络 - 利用所有候选(不仅是最好/最差对),梯度信息更丰富 - 组均值基线提供最小方差策略梯度估计 - 当 \(k=2\) 时退化为 DPO,是 Bradley-Terry/Plackett-Luce 的多路扩展 - 比 pairwise DPO 更稳定(特别是在训练早期和复杂任务上)

损失函数

SEGA 损失本质上是加权的策略梯度损失,权重 \(w_i\) 与优势 \(A_i\) 成正比。高于平均的候选增大其对数概率,低于平均的候选降低其对数概率。

实验

实验设置

  • 基础模型:Llama-3-8B-Instruct
  • 训练数据:仅 3000 个偏好对(比标准 RLHF 少一个数量级)
  • \(k=5\) 个候选 CoT,温度采样保证多样性
  • 硬件:8× NVIDIA A100 80GB
  • 超参数:学习率 1e-5,batch size 128

主实验表格

偏好预测准确率 (%)

方法 UltraFeedback PKU-SafeRLHF RewardBench 平均
SFT 60.2 58.1 57.4 58.6
RM + PPO 61.0 59.2 59.8 60.0
DPO 66.1 64.0 63.2 64.4
IPO 70.4 68.1 67.3 68.6
GEM 77.1 74.6 75.4 75.7

下游任务性能

方法 GSM8K Acc MATH Acc TruthfulQA EM MT-Bench Win-rate
SFT 40.1 5.8 32.4 35%
DPO 50.2 8.5 35.6 52%
GEM 55.6 10.5 38.2 68%

医学领域专家一致率:GEM 达到 78.2%,显著优于 DPO (70.1%) 和 PPO (72.5%)。

消融实验

变体 UltraFeedback GSM8K Med-Expert
无 Cognitive Filtering + 无 SEGA 69.0 48.3 70.5
无终端熵 + 有分叉熵 + 有 SEGA 74.2 50.1 73.5
有终端熵 + 无分叉熵 + 有 SEGA 73.8 52.7 75.0
有 Cognitive Filtering + DPO 74.5 53.4 73.0
完整 GEM 77.1 55.6 78.2

关键发现

  1. CoT 增强至关重要:去掉 CoT 生成后性能下降约 8%,验证了通过 CoT 进行数据增强是克服数据匮乏的关键
  2. 双阶段熵信号缺一不可:禁用终端熵奖励导致模型产生长 CoT 但无法确定答案;禁用分叉熵奖励导致模型过于贪心、出现幻觉
  3. SEGA 优于 DPO:在完整管线下,SEGA 比 DPO 在医学数据集上高 5.2%,训练更稳定(验证曲线更平滑)
  4. 样本效率卓越:仅 500 对时 SEGA 已达 63.0%,超越 IPO 4.5pp,超越 PPO 7.5pp

亮点与洞察

  1. 认知科学启发的设计:将偏好数据视为多维认知评估过程而非简单的选择结果,理论基础新颖
  2. 熵的双阶段角色:中间探索(高熵分叉)+ 最终确定(低熵答案)的组合直觉上非常合理
  3. 闭环自评估:LLM 自身作为评判者,无需外部奖励网络,降低了系统复杂性
  4. TruthfulQA 案例极具说服力:基线模型自信地给出错误答案(MMR 疫苗导致自闭症),GEM 通过熵自检正确拒绝并给出事实答案

局限性

  • 仅在 Llama-3-8B-Instruct 上实验,未验证在更大规模模型上的效果
  • \(k=5\) 的候选数量选择缺乏充分的超参敏感性分析
  • 熵评分函数中 \(\lambda\) 和 top-\(m\) 的选择依据不够充分
  • 医学领域评估仅使用 iCliniq 数据,规模和多样性有限
  • 论文声称"few-shot",但 3000 个偏好对仍属于不小的规模
  • 分类为 medical_imaging 存疑——该论文核心是 LLM 对齐方法,医学仅为应用场景之一

相关工作

  • 偏好对齐:RLHF (Ouyang et al.), DPO (Rafailov et al.), LiPO (listwise), RLAIF
  • 自生成对齐:SELF-ALIGN, Selfee, 在线自改进
  • CoT 推理:思维链提示, 自一致性, Algorithm-of-Thoughts
  • 少样本/低资源对齐:Proto-RM, 主动偏好选择

评分

⭐⭐⭐⭐ (4/5)

  • 方法论新颖,将熵理论与偏好建模巧妙结合
  • 实验覆盖通用和领域特定场景,消融实验充分验证各组件贡献
  • 样本效率分析提供了良好的实用参考
  • 扣分点:仅单一基础模型,医学评估深度不足,分类归入 medical_imaging 有偏差