GEM: Generative Entropy-Guided Preference Modeling for Few-shot Alignment of LLMs¶

论文信息¶

会议: AAAI 2026
arXiv: 2511.13007
代码: https://github.com/SNOWTEAM2023/GEM
领域: 医学图像
关键词: 大语言模型对齐, 少样本偏好学习, 熵引导, 思维链, 策略优化, RLHF

一句话总结¶

GEM 提出了一种生成式熵引导偏好建模方法，通过认知过滤（基于熵的 CoT 评分）和 SEGA 算法（自评估组优势策略优化），在仅 3000 个偏好对的低资源场景下实现高效的 LLM 对齐。

研究背景与动机¶

标准 RLHF 管线通常依赖数千个高质量偏好比较和单独训练的奖励模型，但在医学、法律等专业领域，大规模偏好标注成本极高甚至不可行。现有解决方案面临以下问题：

外部评判方法不可靠：使用外部模型作为代理判官（LLM-as-a-Judge）成本高且不稳定

判别式奖励模型泛化差：在小数据集上训练的奖励分类器泛化能力有限

标准 DPO 仅利用成对比较：未充分利用偏好数据中蕴含的多维度认知信号

GEM 的核心洞察：人类偏好不仅反映最终选择，还揭示了背后的多维度认知评估过程。模型应该能够内化一个闭环优化框架，提取并利用偏好数据中隐含的细粒度认知信号。

方法详解¶

整体框架¶

GEM 包含两个核心模块：认知过滤 (Cognitive Filtering) 和 SEGA (Self-Evaluated Group Advantage)，构成熵引导的闭环认知优化框架。

关键设计¶

1. 认知过滤模块 (Cognitive Filtering)¶

反思推理引擎 (Reflective Inference Engine)： - 给定查询 \(q\)（带人类偏好标注），通过 CoT 提示生成 \(k\) 个候选推理链 - 每个候选响应 \(a_i\) 包含逐步推理过程 - 即使只有一个人类偏好示例，模型也能探索不同质量的替代方案

熵引导 Token 评分 (Entropy-Guided Token Scoring)：

\[S(a_i) = -H_{\text{final}}(a_i) + \lambda \cdot \left(\frac{1}{n}\sum_{t=1}^{n}H_t\right)_{\text{top-}m}\]

设计理念基于熵的双阶段角色： - 最终答案低熵（高置信度）→ 奖励正确性（\(-H_{\text{final}}\)） - 中间推理高熵（探索性分叉）→ 奖励多样推理（\(\lambda \cdot \text{top-m 平均熵}\)）

得分高的推理链 = 中间步骤充分探索 + 最终结论高度确定。过度确定（贪心路径可能遗漏边缘情况）或最终不确定（缺乏答案信心）的链得分低。

通过贝叶斯排序方案（类似 TrueSkill 和 Bradley-Terry 模型）聚合 token 级评分，产生完整的候选排序。

2. SEGA 算法 (Self-Evaluated Group Advantage)¶

将所有 \(k\) 个过滤后的 CoT 作为一个组处理，计算组内优势：

奖励转换：\(r_i = f(S(a_i))\)

组基线：\(\bar{r} = \frac{1}{k}\sum_i r_i\)

优势计算：\(A_i = r_i - \bar{r}\)（平均优势为零，高于平均为正，低于为负）

策略梯度更新：

\[\nabla_\theta \mathcal{L}_{\text{SEGA}} = -\mathbb{E}_q \sum_{i=1}^{k} w_i \nabla_\theta \log \pi_\theta(a_i | q)\]

SEGA 的关键优势： - 不需要外部奖励模型或价值网络 - 利用所有候选（不仅是最好/最差对），梯度信息更丰富 - 组均值基线提供最小方差策略梯度估计 - 当 \(k=2\) 时退化为 DPO，是 Bradley-Terry/Plackett-Luce 的多路扩展 - 比 pairwise DPO 更稳定（特别是在训练早期和复杂任务上）

损失函数¶

SEGA 损失本质上是加权的策略梯度损失，权重 \(w_i\) 与优势 \(A_i\) 成正比。高于平均的候选增大其对数概率，低于平均的候选降低其对数概率。

实验¶

实验设置¶

基础模型：Llama-3-8B-Instruct
训练数据：仅 3000 个偏好对（比标准 RLHF 少一个数量级）
\(k=5\) 个候选 CoT，温度采样保证多样性
硬件：8× NVIDIA A100 80GB
超参数：学习率 1e-5，batch size 128

主实验表格¶

偏好预测准确率 (%)：

方法	UltraFeedback	PKU-SafeRLHF	RewardBench	平均
SFT	60.2	58.1	57.4	58.6
RM + PPO	61.0	59.2	59.8	60.0
DPO	66.1	64.0	63.2	64.4
IPO	70.4	68.1	67.3	68.6
GEM	77.1	74.6	75.4	75.7

下游任务性能：

方法	GSM8K Acc	MATH Acc	TruthfulQA EM	MT-Bench Win-rate
SFT	40.1	5.8	32.4	35%
DPO	50.2	8.5	35.6	52%
GEM	55.6	10.5	38.2	68%

医学领域专家一致率：GEM 达到 78.2%，显著优于 DPO (70.1%) 和 PPO (72.5%)。

消融实验¶

变体	UltraFeedback	GSM8K	Med-Expert
无 Cognitive Filtering + 无 SEGA	69.0	48.3	70.5
无终端熵 + 有分叉熵 + 有 SEGA	74.2	50.1	73.5
有终端熵 + 无分叉熵 + 有 SEGA	73.8	52.7	75.0
有 Cognitive Filtering + DPO	74.5	53.4	73.0
完整 GEM	77.1	55.6	78.2

关键发现¶

CoT 增强至关重要：去掉 CoT 生成后性能下降约 8%，验证了通过 CoT 进行数据增强是克服数据匮乏的关键
双阶段熵信号缺一不可：禁用终端熵奖励导致模型产生长 CoT 但无法确定答案；禁用分叉熵奖励导致模型过于贪心、出现幻觉
SEGA 优于 DPO：在完整管线下，SEGA 比 DPO 在医学数据集上高 5.2%，训练更稳定（验证曲线更平滑）
样本效率卓越：仅 500 对时 SEGA 已达 63.0%，超越 IPO 4.5pp，超越 PPO 7.5pp

亮点与洞察¶

认知科学启发的设计：将偏好数据视为多维认知评估过程而非简单的选择结果，理论基础新颖
熵的双阶段角色：中间探索（高熵分叉）+ 最终确定（低熵答案）的组合直觉上非常合理
闭环自评估：LLM 自身作为评判者，无需外部奖励网络，降低了系统复杂性
TruthfulQA 案例极具说服力：基线模型自信地给出错误答案（MMR 疫苗导致自闭症），GEM 通过熵自检正确拒绝并给出事实答案

局限性¶

仅在 Llama-3-8B-Instruct 上实验，未验证在更大规模模型上的效果
\(k=5\) 的候选数量选择缺乏充分的超参敏感性分析
熵评分函数中 \(\lambda\) 和 top-\(m\) 的选择依据不够充分
医学领域评估仅使用 iCliniq 数据，规模和多样性有限
论文声称"few-shot"，但 3000 个偏好对仍属于不小的规模
分类为 medical_imaging 存疑——该论文核心是 LLM 对齐方法，医学仅为应用场景之一

评分¶

⭐⭐⭐⭐ (4/5)

方法论新颖，将熵理论与偏好建模巧妙结合
实验覆盖通用和领域特定场景，消融实验充分验证各组件贡献
样本效率分析提供了良好的实用参考
扣分点：仅单一基础模型，医学评估深度不足，分类归入 medical_imaging 有偏差