UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models¶

会议: ACL2025
arXiv: 2412.11803
代码: AmourWaltz/UAlign
领域: LLM安全
关键词: 不确定性估计, 事实性对齐, 知识边界, PPO, 语义熵, 置信度

一句话总结¶

提出 UAlign 框架，利用置信度分数和语义熵两种不确定性估计来显式建模 LLM 知识边界，并将其作为输入特征融入 PPO 对齐训练，使模型自信回答已知问题、坚定拒绝未知问题，在多个知识 QA 数据集上显著提升可靠性与泛化性。

研究背景与动机¶

LLM 在预训练阶段学到了大量知识，但在下游任务中经常无法准确表达它所掌握的事实知识。核心问题在于 LLM 的 知识边界模糊，具体体现在三个层面：

弱已知知识被丢弃：模型对某些问题实际上"知道"但不确定，多次采样中只有部分回答正确。先前方法（如 R-Tuning）会直接将这类问题标记为"未知"并训练模型拒绝，导致本可正确回答的知识被浪费。

未知知识被过度自信地回答：模型对完全不熟悉的问题也会生成看似合理的答案，造成严重的幻觉问题，损害用户信任。

现有对齐方法的不足：先前的事实性对齐工作（R-Tuning、RLKF、RL-DPO）没有显式利用知识边界信息。它们要么仅做已知/未知二分类，要么通过知识探测间接估计，均未将不确定性度量作为模型的直接输入。

UAlign 的核心洞察是：如果能显式量化 LLM 对每个问题的不确定性，并将这些信息作为额外输入特征融入对齐训练，就能让模型更好地理解自身的知识边界。这相当于在 prompt 中加入"自信程度"和"答案分散度"提示，帮助模型做出更审慎的决策——对已知问题大胆回答，对未知问题果断拒绝。

方法详解¶

整体框架¶

UAlign 分为两大阶段：

阶段一：数据集准备 — 对知识 QA 数据集进行多次采样，计算置信度和语义熵
阶段二：UAlign 训练 — 先 SFT 训练不确定性估计模型和奖励模型，再用 PPO 进行策略模型对齐

阶段一：数据集准备¶

多次采样策略：对数据集中的每个问题，使用 K=10 个不同的 1-shot prompt 模板、采样温度 T=0.2 重复生成。每次采样得到一个候选答案，与标准答案比较后标注正确性。若所有 K 次采样全部错误，则将该问题归为"未知"，标准答案改写为拒绝回复 "Sorry, I don't know."。

不确定性度量 1 — 置信度分数（Confidence Score）：定义为 K 次采样中正确答案的比例，反映模型对该问题的"答对概率"。直觉上，某个问题的置信度越高，LLM 对该知识越确定。

不确定性度量 2 — 语义熵（Semantic Entropy）：先用 NLI 模型将语义等价的回答聚类到同一个语义集合，然后计算聚类分布的熵。语义熵衡量的是生成答案在语义层面的分散程度——即使置信度低，如果所有答案都集中在少数语义上，熵也会较低。

两种度量的互补性：置信度衡量"模型多大概率答对"，语义熵衡量"模型的回答在语义上有多分散"。关键场景：某问题的置信度仅 40%（正确率低），但语义熵很高（其他答案更分散），此时正确答案虽不占优势但仍是最集中的，模型应被引导输出该答案而非拒绝。

阶段二：UAlign 训练¶

SFT 子阶段 — 训练估计模型和奖励模型：

不确定性估计模型（预测置信度和语义熵）：以 vanilla LLM 为底座，LoRA rank=4 微调。输入仅为问题，目标为预测对应的置信度或语义熵值。
奖励模型：同样以 LLM 为底座，LoRA rank=4。输入为问题 + 预测的两个不确定性值 + 候选答案，输出为正确性判定概率，使用二元交叉熵损失训练。

关键设计：奖励模型的输入显式包含了不确定性估计，使其能利用知识边界信息来更准确地判断答案质量。

PPO 子阶段 — 策略模型对齐：

策略模型的输入为：问题 + 预测的置信度 + 预测的语义熵
参考模型的输入为：仅问题（无不确定性信息）
奖励函数包含两部分：奖励模型的评分信号和 KL 散度惩罚项
通过 PPO 最大化该奖励，引导策略模型根据知识边界信息生成更事实性的回答

所有 LLM 均使用 LoRA（rank=16）微调，在 4x NVIDIA A100-40GB 上训练。

实验关键数据¶

实验设置¶

模型：Llama-3-8B、Mistral-7B
训练集：TriviaQA (TVQA)、SciQ、NQ-Open 三个知识 QA 数据集
测试集：上述三个数据集的验证/测试集（ID）+ LSQA 多语言 QA 数据集（OOD）
评价指标：Precision（已知问题中正确回答的比例）、Truthfulness（正确回答已知 + 正确拒绝未知的总比例）

主实验结果（Table 1，Llama-3-8B）¶

方法	TVQA Prec.	TVQA Truth.	SciQ Prec.	NQ Prec.	Avg ID Prec.	LSQA OOD Prec.
ICL	76.15	56.55	70.43	50.28	65.62	77.35
R-Tuning	72.93	55.44	71.38	47.81	64.04	71.54
RL-PPO	76.32	55.19	75.70	54.07	68.03	72.18
RLKF	77.12	56.07	72.36	54.86	68.11	74.95
UAlign	79.14	57.04	76.44	56.60	70.72	79.56

在 Mistral-7B 上，UAlign 在 TVQA 上达到 Prec. 82.10、Truth. 59.05，同样全面领先。值得注意的是，多数训练方法在 OOD 数据集上性能下降，但 UAlign 在 LSQA 上仍超越所有方法（含 prompt-based 基线）。

消融实验：不确定性度量对奖励模型准确率的影响（Table 2）¶

置信度	语义熵	TVQA	SciQ	NQ-Open	LSQA (OOD)
x	x	82.31	79.00	67.45	70.12
o	x	85.41	84.30	70.37	75.09
x	o	82.05	77.90	67.85	70.40
o	o	86.73	86.40	72.00	74.59

以上为 Llama-3-8B 结果。关键发现：

置信度贡献最大，单独加入可提升奖励模型准确率 3-5 个百分点
语义熵单独使用效果不稳定，在部分数据集上甚至轻微下降
两者联合使用在大多数设置下达到最优

采样次数 K 的影响¶

K 从 1 增至 4、7、10 时，Prec. 和 Truth. 持续提升但增幅递减。 K=10 时性能基本收敛，进一步增加 K 的边际收益有限。在 4x A100 上对 10000 个 QA 样本进行 K=10 次采样的时间成本可控（答案为实体级短文本）。

亮点¶

新颖的显式知识边界建模：首次将不确定性估计作为显式 prompt 输入融入 RLHF 对齐流程，思路直觉且有效
互补度量的精巧设计：置信度（"答对概率"）+ 语义熵（"答案分散度"）联合使用，能挽救低置信但正确的弱已知知识
OOD 泛化性突出：UAlign 是唯一在 LSQA (OOD) 上持续超越 prompt-based 基线的训练方法
与 Test-Time Scaling 的关联：多次采样后计算不确定性再指导对齐的流程，与推理时计算量分配趋势相呼应

局限性¶

任务范围窄：仅在短答案知识 QA 上验证，未扩展到开放式生成、长文本写作或推理任务
依赖标准答案：置信度计算需要 ground-truth 标签进行采样答案的正误比较，难以直接迁移到无标注场景
计算成本线性增长：数据集构建需 K 次采样，成本随 K 和数据规模线性增长
语义熵的不稳定性：消融实验显示语义熵单独使用时效果波动，在部分数据集上甚至略微降低性能

与相关工作的对比¶

R-Tuning：通过采样判定已知/未知后做 SFT，不使用 RL，无显式知识边界输入
RLKF：用知识探测和一致性检查训练 reward model 后做 PPO，知识边界信息仅隐式体现在奖励信号中
RL-DPO：构建事实性偏好对做 DPO 对齐，不涉及不确定性估计
ITI：推理时干预注意力头激活，无需训练但效果有限
UAlign：将置信度和语义熵显式作为 prompt 输入传递给奖励模型和策略模型，是区别于所有先前方法的核心创新

评分¶

新颖性: ⭐⭐⭐⭐ — 将不确定性估计显式融入对齐流程的思路新颖，但各组件（置信度、语义熵、PPO）均为已有技术的组合
实验充分度: ⭐⭐⭐⭐ — 覆盖 2 个模型、4 个数据集、多种基线和详细消融；缺少开放式生成任务验证
写作质量: ⭐⭐⭐⭐ — 逻辑清晰、图表丰富，知识边界的可视化解释直观易懂
价值: ⭐⭐⭐⭐ — 为事实性对齐提供了新视角，但实际应用受限于短答案 QA 场景