UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models¶
会议: ACL2025
arXiv: 2412.11803
代码: AmourWaltz/UAlign
领域: LLM安全
关键词: 不确定性估计, 事实性对齐, 知识边界, PPO, 语义熵, 置信度
一句话总结¶
提出 UAlign 框架,利用置信度分数和语义熵两种不确定性估计来显式建模 LLM 知识边界,并将其作为输入特征融入 PPO 对齐训练,使模型自信回答已知问题、坚定拒绝未知问题,在多个知识 QA 数据集上显著提升可靠性与泛化性。
研究背景与动机¶
LLM 在预训练阶段学到了大量知识,但在下游任务中经常无法准确表达它所掌握的事实知识。 核心问题在于 LLM 的 知识边界模糊,具体体现在三个层面:
弱已知知识被丢弃:模型对某些问题实际上"知道"但不确定,多次采样中只有部分回答正确。先前方法(如 R-Tuning)会直接将这类问题标记为"未知"并训练模型拒绝,导致本可正确回答的知识被浪费。
未知知识被过度自信地回答:模型对完全不熟悉的问题也会生成看似合理的答案,造成严重的幻觉问题,损害用户信任。
现有对齐方法的不足:先前的事实性对齐工作(R-Tuning、RLKF、RL-DPO)没有显式利用知识边界信息。它们要么仅做已知/未知二分类,要么通过知识探测间接估计,均未将不确定性度量作为模型的直接输入。
UAlign 的核心洞察是:如果能显式量化 LLM 对每个问题的不确定性,并将这些信息作为额外输入特征融入对齐训练,就能让模型更好地理解自身的知识边界。 这相当于在 prompt 中加入"自信程度"和"答案分散度"提示,帮助模型做出更审慎的决策——对已知问题大胆回答,对未知问题果断拒绝。
方法详解¶
整体框架¶
UAlign 分为两大阶段:
- 阶段一:数据集准备 — 对知识 QA 数据集进行多次采样,计算置信度和语义熵
- 阶段二:UAlign 训练 — 先 SFT 训练不确定性估计模型和奖励模型,再用 PPO 进行策略模型对齐
阶段一:数据集准备¶
多次采样策略: 对数据集中的每个问题,使用 K=10 个不同的 1-shot prompt 模板、采样温度 T=0.2 重复生成。 每次采样得到一个候选答案,与标准答案比较后标注正确性。 若所有 K 次采样全部错误,则将该问题归为"未知",标准答案改写为拒绝回复 "Sorry, I don't know."。
不确定性度量 1 — 置信度分数(Confidence Score): 定义为 K 次采样中正确答案的比例,反映模型对该问题的"答对概率"。 直觉上,某个问题的置信度越高,LLM 对该知识越确定。
不确定性度量 2 — 语义熵(Semantic Entropy): 先用 NLI 模型将语义等价的回答聚类到同一个语义集合,然后计算聚类分布的熵。 语义熵衡量的是生成答案在语义层面的分散程度——即使置信度低,如果所有答案都集中在少数语义上,熵也会较低。
两种度量的互补性: 置信度衡量"模型多大概率答对",语义熵衡量"模型的回答在语义上有多分散"。 关键场景:某问题的置信度仅 40%(正确率低),但语义熵很高(其他答案更分散),此时正确答案虽不占优势但仍是最集中的,模型应被引导输出该答案而非拒绝。
阶段二:UAlign 训练¶
SFT 子阶段 — 训练估计模型和奖励模型:
- 不确定性估计模型(预测置信度和语义熵):以 vanilla LLM 为底座,LoRA rank=4 微调。输入仅为问题,目标为预测对应的置信度或语义熵值。
- 奖励模型:同样以 LLM 为底座,LoRA rank=4。输入为问题 + 预测的两个不确定性值 + 候选答案,输出为正确性判定概率,使用二元交叉熵损失训练。
关键设计:奖励模型的输入显式包含了不确定性估计,使其能利用知识边界信息来更准确地判断答案质量。
PPO 子阶段 — 策略模型对齐:
- 策略模型的输入为:问题 + 预测的置信度 + 预测的语义熵
- 参考模型的输入为:仅问题(无不确定性信息)
- 奖励函数包含两部分:奖励模型的评分信号和 KL 散度惩罚项
- 通过 PPO 最大化该奖励,引导策略模型根据知识边界信息生成更事实性的回答
所有 LLM 均使用 LoRA(rank=16)微调,在 4x NVIDIA A100-40GB 上训练。
实验关键数据¶
实验设置¶
- 模型:Llama-3-8B、Mistral-7B
- 训练集:TriviaQA (TVQA)、SciQ、NQ-Open 三个知识 QA 数据集
- 测试集:上述三个数据集的验证/测试集(ID)+ LSQA 多语言 QA 数据集(OOD)
- 评价指标:Precision(已知问题中正确回答的比例)、Truthfulness(正确回答已知 + 正确拒绝未知 的总比例)
主实验结果(Table 1,Llama-3-8B)¶
| 方法 | TVQA Prec. | TVQA Truth. | SciQ Prec. | NQ Prec. | Avg ID Prec. | LSQA OOD Prec. |
|---|---|---|---|---|---|---|
| ICL | 76.15 | 56.55 | 70.43 | 50.28 | 65.62 | 77.35 |
| R-Tuning | 72.93 | 55.44 | 71.38 | 47.81 | 64.04 | 71.54 |
| RL-PPO | 76.32 | 55.19 | 75.70 | 54.07 | 68.03 | 72.18 |
| RLKF | 77.12 | 56.07 | 72.36 | 54.86 | 68.11 | 74.95 |
| UAlign | 79.14 | 57.04 | 76.44 | 56.60 | 70.72 | 79.56 |
在 Mistral-7B 上,UAlign 在 TVQA 上达到 Prec. 82.10、Truth. 59.05,同样全面领先。 值得注意的是,多数训练方法在 OOD 数据集上性能下降,但 UAlign 在 LSQA 上仍超越所有方法(含 prompt-based 基线)。
消融实验:不确定性度量对奖励模型准确率的影响(Table 2)¶
| 置信度 | 语义熵 | TVQA | SciQ | NQ-Open | LSQA (OOD) |
|---|---|---|---|---|---|
| x | x | 82.31 | 79.00 | 67.45 | 70.12 |
| o | x | 85.41 | 84.30 | 70.37 | 75.09 |
| x | o | 82.05 | 77.90 | 67.85 | 70.40 |
| o | o | 86.73 | 86.40 | 72.00 | 74.59 |
以上为 Llama-3-8B 结果。关键发现:
- 置信度贡献最大,单独加入可提升奖励模型准确率 3-5 个百分点
- 语义熵单独使用效果不稳定,在部分数据集上甚至轻微下降
- 两者联合使用在大多数设置下达到最优
采样次数 K 的影响¶
K 从 1 增至 4、7、10 时,Prec. 和 Truth. 持续提升但增幅递减。 K=10 时性能基本收敛,进一步增加 K 的边际收益有限。 在 4x A100 上对 10000 个 QA 样本进行 K=10 次采样的时间成本可控(答案为实体级短文本)。
亮点¶
- 新颖的显式知识边界建模:首次将不确定性估计作为显式 prompt 输入融入 RLHF 对齐流程,思路直觉且有效
- 互补度量的精巧设计:置信度("答对概率")+ 语义熵("答案分散度")联合使用,能挽救低置信但正确的弱已知知识
- OOD 泛化性突出:UAlign 是唯一在 LSQA (OOD) 上持续超越 prompt-based 基线的训练方法
- 与 Test-Time Scaling 的关联:多次采样后计算不确定性再指导对齐的流程,与推理时计算量分配趋势相呼应
局限性¶
- 任务范围窄:仅在短答案知识 QA 上验证,未扩展到开放式生成、长文本写作或推理任务
- 依赖标准答案:置信度计算需要 ground-truth 标签进行采样答案的正误比较,难以直接迁移到无标注场景
- 计算成本线性增长:数据集构建需 K 次采样,成本随 K 和数据规模线性增长
- 语义熵的不稳定性:消融实验显示语义熵单独使用时效果波动,在部分数据集上甚至略微降低性能
与相关工作的对比¶
- R-Tuning:通过采样判定已知/未知后做 SFT,不使用 RL,无显式知识边界输入
- RLKF:用知识探测和一致性检查训练 reward model 后做 PPO,知识边界信息仅隐式体现在奖励信号中
- RL-DPO:构建事实性偏好对做 DPO 对齐,不涉及不确定性估计
- ITI:推理时干预注意力头激活,无需训练但效果有限
- UAlign:将置信度和语义熵显式作为 prompt 输入传递给奖励模型和策略模型,是区别于所有先前方法的核心创新
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将不确定性估计显式融入对齐流程的思路新颖,但各组件(置信度、语义熵、PPO)均为已有技术的组合
- 实验充分度: ⭐⭐⭐⭐ — 覆盖 2 个模型、4 个数据集、多种基线和详细消融;缺少开放式生成任务验证
- 写作质量: ⭐⭐⭐⭐ — 逻辑清晰、图表丰富,知识边界的可视化解释直观易懂
- 价值: ⭐⭐⭐⭐ — 为事实性对齐提供了新视角,但实际应用受限于短答案 QA 场景