Annotation-Efficient Honesty Alignment via Confidence Elicitation and Calibration¶

会议: ICLR2026
OpenReview: cW6oDsPobl
代码: 待确认
领域: 对齐RLHF / LLM诚实性
关键词: 诚实对齐, 置信度校准, 自一致性, 标注高效, AUROC

一句话总结¶

这篇论文把"诚实对齐"（让 LLM 在回答前就准确说出自己有多大把握）拆成"引出-再-校准"两阶段：先用免标注的自一致性信号教模型把内在置信"说出来"，再用极少量（~1k 条，约 0.18% 全量）正确性标注把这个置信校准到真实准确率上，配套发布了 56 万训练样本的 HonestyBench，使得只用 1k 标注就能达到全量监督 98% 的对齐效果。

研究背景与动机¶

领域现状：诚实对齐（honesty alignment）是 HHH（helpful / harmless / honest）三准则之一，目标是让模型"知道自己知道什么、不知道什么"——理想情况下，模型在生成答案之前就能给出一个校准好的置信度：高置信就直接答，低置信就拒答或触发检索增强。现有做法分两类：训练无关方法（token 概率、口头表达置信、自一致性）和训练相关方法（用正确性标注去校准置信）。在训练无关里，自一致性（采样多条回答、看语义一致比例）与真实正确率的相关性最强。

现有痛点：训练相关方法虽然普遍更准，但要做出一个跨任务都可靠的通用诚实模型，需要海量带正确性标注（即每道题的标准答案）的数据，标注成本极高；而自一致性虽然免标注，却要在推理时反复采样 k 条回答再做一致性检查，开销大、无法一次出结果。

核心矛盾：作者把"正确性标注"的作用拆成两件事——第一，教模型把置信表达出来；第二，把表达出的置信校准到真实正确率上。如果第一件事能用便宜的信号（自一致性）替代，那昂贵的正确性标注就只需要留给第二件事，需求量会大幅下降。现有方法把这两件事混在一起、都靠正确性标注从零学，才导致标注需求居高不下。

本文目标：(1) 设计一个标注高效的训练框架，用极少正确性标注达到接近全量监督的诚实对齐；(2) 提供一个足够大、跨任务的基准来探索诚实对齐性能的上界。

切入角度：作者观察到（图 2）模型虽然普遍过度自信，但其自一致性置信与真实准确率在题目间高度相关（Spearman \(\rho=0.789\)）。这说明"内在置信"本身是可学习的信号——只要把它从模型内部状态里引出来，剩下的就只是一个轻量的标定问题。

核心 idea：用"自一致性引出 + 少量标注校准"的两阶段范式（类比预训练-微调）替代"全靠正确性标注从零校准"，把诚实对齐变成标注高效问题。

方法详解¶

整体框架¶

EliCal（Elicitation-Then-Calibration）把诚实对齐重构成一个两阶段学习问题。输入是一大批问题（无需标注答案），输出是一个能在生成回答之前就给出 0~1 置信分的模型。整条管线是：先从大规模问题集构造自一致性数据（每题采样 k 条回答，算与贪心答案语义一致的比例当作目标置信）；阶段一·置信度引出用这些免标注信号训练模型，让它学会"一次性"说出内在置信，不必再反复采样；阶段二·置信度校准再拿一小批带正确性标注的 QA 对，把引出的置信微调对齐到真实准确率。两阶段共享同一套"冻结骨干 + LoRA + 线性头"的架构，最终模型在推理时一步就能预测置信度。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["大规模问题集<br/>（无需答案标注）"] --> D["数据构造<br/>自一致性信号 + 少量正确性标注"]
    D --> S1["阶段一·置信度引出<br/>自一致性当免标注监督"]
    S1 --> S2["阶段二·置信度校准<br/>~1k 条正确性标注"]
    S2 --> I["生成前置信度预测<br/>冻结骨干 + LoRA + 线性头，一步出分"]

关键设计¶

1. 把诚实对齐拆成"先引出、再校准"两阶段：核心重构

痛点在于：以往训练相关方法用正确性标注"从零"学置信，等于让一个昂贵信号同时承担"教模型表达置信"和"标定到正确率"两份活，所以标注需求大、还容易过拟合到训练任务上。EliCal 的洞察是这两份活可以解耦——表达置信靠便宜的自一致性就够，正确性标注只留给最后的标定。形式化地，诚实对齐的目标是学一个目标置信 \(\text{Confidence}^*_\theta(q)\) 使其等于模型在该题上的期望准确率 \(\text{Accuracy}_\theta(q)=\mathbb{E}_{r\sim p^\pi_\theta(\cdot\mid q)}[\,\mathbb{I}[r\in G(q)]\,]\)（\(G(q)\) 是 \(q\) 的正确答案集合）。EliCal 把它分成：阶段一先逼近自一致性置信 \(\text{Confidence}_\theta(q)\)，阶段二再从这个起点微调到 \(\text{Accuracy}_\theta(q)\)。这一拆解之所以有效，是因为它和"预训练-微调"同构——阶段一用海量免标注数据打好"会表达置信"的基础，阶段二只需少量标注做领域标定；正因为基础牢，校准既更精确、又对未见任务泛化更好。

2. 阶段一·置信度引出：用免费的自一致性信号教模型把内在置信"说出来"

针对"推理时反复采样开销大、且置信需要昂贵标注"这个痛点，阶段一不要任何人工标注。对每道题 \(q\)，先采 \(k\) 条回答（论文取 \(k=20\)，温度 1）和一条贪心回答，把"与贪心答案语义一致的回答占比"当作目标置信：\(p^\pi_\theta(\tilde r\mid q)\approx\frac1k\sum_{r\in\hat R}s(r,\tilde r)\)，其中 \(s(r,\tilde r)=\mathbb{I}[\text{两条回答语义一致}]\)。然后用 MSE 训练模型直接预测这个值：\(\mathcal{L}=\frac1{|Q|}\sum_q(\hat c(q)-\text{Confidence}_\theta(q))^2\)。这一步之所以成立，是因为自一致性置信本质上只依赖模型内部表示、因而"天生可学"；训完之后模型把"采 20 条再数一致比例"这个过程内化成了一步前向预测——既省掉推理时的多次采样，又因为只在大规模问题上拟合内部信号（而非领域专属标签）而具备较强泛化。消融（图 7）显示引出性能随训练数据增大而提升、最终逼近多采样的 Consis-Sem 上限；对采样数 \(k\) 也很鲁棒，\(k=2\) 时虽噪声大但信号仍够用。

3. 阶段二·置信度校准：1k 条正确性标注就够

阶段一引出的置信和真实正确率之间还有系统性偏差（模型整体过度自信），需要校准。这一步从阶段一得到的参数 \((\phi^1,\theta^1_{\text{LoRA}})\) 出发，拿一小批带正确性标注的 QA 对 \(Q_{\text{small}}\) 继续用 MSE 微调，让预测分逼近真实准确率：\(\mathcal{L}=\frac1{|Q_{\text{small}}|}\sum_{q\in Q_{\text{small}}}(\hat c(q)-\text{Accuracy}_\theta(q))^2\)。关键在于"小"——因为阶段一已经把"会表达置信"这件难事解决了，这里只剩一个轻量的标定，所以仅 ~1k 条标注（约全量 0.18%）就能把对齐推到接近全量监督的水平。这与纯校准基线（Cal-Only，从零用正确性标注学）形成鲜明对比：后者在 1k 标注下很多数据集上甚至打不过最好的训练无关方法，因为它要同时承担"教表达"和"标定"两件事却没有引出阶段打底。

4. 冻结骨干 + LoRA + 线性头：在生成前一步直接预测置信度

为了不破坏模型原有的问答能力，EliCal 冻结骨干参数 \(\theta\)，在所有线性层插入 LoRA 模块 \(\theta_{\text{LoRA}}\) 与内部状态充分交互，并在最后一层接一个线性头 \(f_\phi\) 把最后一个问题 token 的隐状态映射成置信分：\(\hat c=f_\phi(h^{(L)}_T(\theta,\theta_{\text{LoRA}}))=w^\top h^{(L)}_T+b\)。训练时只更新 \(\theta_{\text{LoRA}}\) 和 \(\phi=\{w,b\}\)，骨干不动。这一设计有两个好处：其一，置信预测发生在最后一个问题 token 处、即生成答案之前，天然支持"先评估再决定答不答/要不要检索"的部署场景；其二，冻结骨干保证训练诚实性不会损害原始 QA 性能。消融里还试了"只训一个线性头"的极轻量版本（不加 LoRA），结论是性能随标注增多而升、且 EliCal 仍稳压 Cal-Only，但因交互/表达能力受限整体低于加 LoRA 的版本。

损失函数 / 训练策略¶

两阶段都用 MSE 回归：阶段一回归自一致性置信 \(\text{Confidence}_\theta(q)\)（公式 10），阶段二回归正确性 \(\text{Accuracy}_\theta(q)\)（公式 11），监督信号都是 0~1 标量。阶段一在 HonestyBench-Train 全部 56 万题上做引出，阶段二从 1k 到 56 万不等地采样正确性标注做校准，用以考察性能随标注量的扩展曲线。

实验关键数据¶

构建 HonestyBench：整合 10 个自由形式事实型 QA 数据集，含 56.7 万训练样本、约 3.8 万域内评测、约 3.3 万域外（OOD）评测；覆盖单跳/多跳/模板生成三类问题，并为三个代表性 LLM（Qwen2.5-7B/14B-Instruct、Llama3-8B-Instruct）每题提供 20 条采样回答 + 1 条贪心回答，标注语义一致性与正确性。评测指标主用 AUROC（区分对/错回答的能力，1 为完美、0.5 为随机），另用 alignment（二值化置信与正确性的匹配比例）。

主实验¶

Qwen2.5-7B-Instruct 上的 AUROC（域内 5 数据集 + OOD 5 数据集均值）：

方法	标注量	域内 Avg.	OOD Avg.
Consis-Sem（最强训练无关）	0	73.62	70.20
Eli-Only（仅引出）	0	71.19	69.66
Cal-Only（仅校准）	1k	73.41	77.32
EliCal	1k	84.36	84.47
Cal-Only（上界）	560k	86.20	85.75
EliCal（上界）	560k	86.49	85.83

要点：(1) 全量监督下 EliCal/Cal-Only 都把训练无关最优甩开 17%+，首次在如此大规模上探到诚实对齐的上界；(2) EliCal 仅 1k 标注（~0.18%）就达到全量上界约 98%，域内 84.36 对全量 86.49；同样 1k 下 Cal-Only 仅 73.41，很多数据集（如 NQ、HQ）甚至打不过最好的训练无关方法。

消融实验¶

配置	关键发现	说明
引出训练量 ↑	AUROC 升、增速放缓，逼近 Consis-Sem(73.62)	引出阶段数据越多基础越牢（图 7）
采样数 \(k\in\{2,5,10,20\}\)	Consis-Sem 随 \(k\) 单调升；EliCal 几乎不变	\(k=2\) 时 EliCal(1k) 域内仍 84.41，对 \(k\) 极鲁棒（表 3）
只训线性头（不加 LoRA）	EliCal 仍稳压 Cal-Only，但整体低于加 LoRA	轻量头交互/表达能力受限
MMLU（多选、与训练分布差异大）	即便 560k 标注，Cal-Only 仍落后 EliCal	引出内部信号比只拟合任务标签更能泛化

关键发现¶

引出阶段是泛化的来源：在与训练分布差异最大的 MMLU 上，纯校准即便用满 560k 标注都追不上 EliCal——说明大规模引出"内部信号"比只拟合任务专属标签更能跨任务迁移。
置信可二值化用于决策：用 alignment 指标看，EliCal 显著优于 Cal-Only；它给出的置信能可靠地二值化成"答/不答"判断，直接服务于"要不要触发检索增强"这类现实场景。
LLM 确实能被教会表达内在置信：Eli-Only（零标注）与多采样的 Consis-Sem 持平，却不需要推理时反复采样，省掉了置信估计的采样开销。

亮点与洞察¶

"标注的两个作用"这一拆解是全文最妙处：把正确性标注承担的"教表达"和"做标定"显式分开，再分别匹配便宜信号与昂贵信号，直接把标注需求从 560k 压到 1k，思路干净且可迁移到其它"标注昂贵但有免费弱信号"的对齐任务（如安全、拒答）。
自一致性"内化为一步前向"：把原本推理时要采 20 条的过程蒸馏进模型内部状态，既省推理开销又保留判别力，是个可复用的 trick——任何依赖多采样的不确定性估计都可以照此"引出"成一次预测。
生成前预测置信的设计天然契合检索增强/拒答的部署逻辑：先看把握、再决定要不要答或求助，而非生成后再补救。
配套的 HonestyBench（56 万训练 + 双重 OOD 评测、三模型全标注）本身是一项基础设施贡献，把诚实对齐从"小规模域内评测"推到"大规模通用模型上界探索"。

局限与展望¶

评测全部集中在自由形式事实型 QA，且多数题目源自 Wikipedia——域内与 OOD 现象高度相似，正是因为问题格式和知识来源同质；真正异质的只有 MMLU 一个多选基准，对推理密集、长文、代码等任务的诚实对齐尚未验证。
置信用单一标量回归（MSE），假设"模型对一题有一个确定的期望准确率"，对多答案合理/答案随上下文变化的开放问题可能不适用。
自一致性置信本身会被模型的系统性过度自信污染，阶段一拟合的是这个有偏信号，最终上界仍受其质量限制（消融里引出性能逼近但不超过 Consis-Sem）。
改进方向：把引出信号从自一致性扩展到更丰富的内部信号（如多层隐状态、注意力），或把两阶段拓展到生成式置信表达（口头说出而非线性头打分），以服务对话式拒答。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "标注两作用解耦 + 引出-校准两阶段"重构干净有力，视角新
实验充分度: ⭐⭐⭐⭐⭐ 三模型、域内+双 OOD、标注量扫描、\(k\)/线性头/训练量多重消融，配套大规模基准
写作质量: ⭐⭐⭐⭐ 形式化清晰、图表完整；部分公式排版稍密
价值: ⭐⭐⭐⭐⭐ 把诚实对齐成本压两个数量级，且贡献了可复用的 HonestyBench