AtC: Aggregate-then-Calibrate for Human-centered Assessment¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=XNbVoi9mfr
代码: 待确认
领域: 人本评估 / 评分聚合与校准
关键词: 人本评估, 排序聚合, 等渗回归, 标注者异质性, 单调投影

一句话总结¶

AtC 提出"先聚合、再校准"两阶段框架：先用考虑标注者可靠性的异质 Thurstone 模型把人的成对比较聚成一个共识排序，再把任意预测模型的打分通过等渗投影对齐到这个排序上，从而在没有可验证真值时同时拿到"人给的可靠次序"和"模型给的一致量纲"。

研究背景与动机¶

领域现状：在外卖配送工作量估计、会议论文质量评审等"人本评估"任务里，真值要么代价高昂、要么要等多年后才显现，决策时根本拿不到 ground truth，只能依赖人的判断或模型的预测。

现有痛点：两类方法各有死穴。只用人判断的评分聚合算法虽能按专长给标注者加权，却被不一致的打分量纲污染——一个宽松的专家和一个严苛的新手可能对相对优劣意见一致，但绝对分数差很多。只用模型打分的方法则陷入"监督危机"：真值常与难以大规模测量的潜在因素（如认知负荷）相关，模型只能从带噪代理标签学习，把系统性偏差传进评估里。

核心矛盾：人判断容易获取但缺乏统一标尺，模型预测量纲一致但需要监督信号——两者优势恰好互补，却长期被割裂使用。

本文目标：在真值不可观测时，把"人的结构（次序）"和"模型的标尺（量纲）"拼起来，给出一个既尊重人共识排序、又尽量保留模型量化信息的最终打分。

核心 idea：作者抓住心理物理学的 Weber–Fechner 规律——人擅长比较、不擅长绝对打分。因此只从噪声人输入里抽取序数信息（排序），而不信任其原始评分值；再用这个排序去约束模型分数的单调性，做"模型无关的校准"。

方法详解¶

整体框架¶

AtC 把问题拆成两步串联。Stage-1 把 \(m\) 个标注者对 \(n\) 个物品的成对比较，用考虑可靠性的排序聚合模型炼成共识排序 \(\hat\pi\)；Stage-2 把任意预测模型给出的原始分数 \(s_p\) 等渗投影到与 \(\hat\pi\) 一致的单调集合上，得到校准分 \(\hat s\)。最终输出既满足人共识的次序，又在欧氏距离上离模型原分最近。

flowchart LR
    A[m 个标注者<br/>成对比较 i≻j] --> B[Stage-1 异质 Thurstone<br/>MLE 估计 s* 与可靠性 γ]
    B --> C[共识排序 π̂<br/>= Sort 升序]
    D[预测模型 p<br/>原始分 s_p] --> E[Stage-2 等渗投影<br/>PAV 算法]
    C --> E
    E --> F[校准分 ŝ<br/>尊重 π̂ 且最接近 s_p]

关键设计¶

1. 异质 Thurstone 模型做排序聚合：把"标注者不一致"当信号而非噪声。 不同标注者对同一物品的判断分歧，反映的是专长差异而非主观偏好，所以 AtC 不去过滤新手意见，而是从数据里学每个标注者的精度参数 \(\gamma_u\)。在 HTM 下，标注者 \(u\) 偏好物品 \(i\) 胜 \(j\) 的概率被建模为 \(\Pr\{u: i\succ j\}=F(\gamma_u(s_i-s_j))\)，其中 \(F\) 是对称 CDF（正态对应 Thurstone、logistic 对应 Bradley–Terry），\(\gamma_u\) 越大代表该标注者越可靠、噪声越小。对全体数据的对数似然 \(\ell(s,\gamma)=\sum_u\sum_{i\succ j\in D_u}\log F(\gamma_u(s_i-s_j))\) 做 MLE（加上 \(\frac1n\sum_i s_i=0\) 之类约束保证可辨识），交替更新 \(s\) 和 \(\gamma\) 直到收敛，得到共识分 \(s^*\)，升序排序即共识排序 \(\hat\pi\)。理论上 Theorem 3.3 证明：当标注者真实可靠性不全相等时，正确指定的 HTM 估计量在 Loewner 序下严格优于错误假设同质性的估计量，即异质建模带来严格更高的统计效率。

2. 等渗回归做模型无关校准：把模型分"最小侵入"地掰回共识次序。 拿到 \(\hat\pi\) 后，AtC 把模型原始分 \(s_p\) 投影到按 \(\hat\pi\) 单调不减的集合 \(\widehat{\mathcal M}=\{y: y_{\hat\pi(1)}\le\cdots\le y_{\hat\pi(n)}\}\) 上：\(\hat s=\Pi_{\widehat{\mathcal M}}(s_p)=\arg\min_{y\in\widehat{\mathcal M}}\|y-s_p\|_2^2\)。这是一个等渗回归，用 Pool-Adjacent-Violators（PAV）算法高效求解——沿 \(\hat\pi\) 顺序扫描，遇到违反单调的相邻对就取平均压平，直到没有违反。若 \(s_p\) 本就符合 \(\hat\pi\) 则原样保留，否则以平方误差意义下最小的改动消除次序冲突。注意这里的"校准"不是概率校准，而是强制序数一致性，从而把模型的量纲和人的次序合二为一。

3. 误差可控 + 严格占优的理论保证：拼起来一定不更差。 作者给出鲁棒性界 Theorem 3.5，把总期望平方误差分解成三项：Stage-1 排序逆序数 \(E[\mathrm{Inv}(\hat\pi,\tilde\pi)]\) 带来的投影误差、零均值有效噪声贡献的统计误差（约以 \((\ln n)/n\) 衰减）、以及系统偏差 \(\nu\) 贡献的偏差误差（以 \(1/n\) 衰减）；即使排序完美，\(\tilde\sigma^2\) 和 \(\nu\) 的误差也不会消失，但都可缓解。进一步 Theorem 3.9（最优性保证）证明：以至少 \(1-\delta_1-\delta_2\) 的概率有 \(\|\hat s-s\|_2^2<\|s_p-s\|_2^2\)，即校准输出严格比未校准模型更接近真值；其中 \(\delta_1\)（排序出错概率）和 \(\delta_2\)（投影被噪声扰坏概率）都随 Stage-1 样本量增大、真实分数间隔 \(\Delta_{\min}\) 压过噪声而趋于 0，改进概率趋于 1。

实验关键数据¶

主实验表格（半合成 Reading-Level 数据集，490 文档 / 624 标注者 / 12728 成对判断）¶

Stage-1 方法	Kendall τ↑ (s*/s_p/ŝ)	Wasserstein↓ (s*/s_p/ŝ)	KS↓ (s*/s_p/ŝ)	MSE↓ (s*/s_p/ŝ)
HRA-G	0.375 / 0.399 / 0.410	2.250 / 2.831 / 0.839	0.500 / 0.300 / 0.163	8.658 / 29.00 / 8.122
HRA-E	0.375 / 0.399 / 0.403	2.243 / 2.831 / 0.827	0.498 / 0.300 / 0.163	8.658 / 29.00 / 8.191
HRA-N	0.368 / 0.399 / 0.399	2.351 / 2.831 / 0.738	0.563 / 0.300 / 0.192	8.985 / 29.00 / 7.919
CrowdBT	0.354 / 0.399 / 0.399	2.150 / 2.831 / 0.843	0.455 / 0.300 / 0.269	8.301 / 29.00 / 7.555
BTL（同质）	0.340 / 0.399 / 0.373	2.186 / 2.831 / 0.894	0.461 / 0.300 / 0.300	7.764 / 29.00 / 8.097

校准分 \(\hat s\) 在几乎所有方法、所有指标上压过人共识 \(s^*\) 和模型分 \(s_p\)；尤其 Wasserstein/KS 上 \(\hat s\) 把 \(s_p\) 的 2.8/0.30 大幅降到 0.7~0.9/0.16 量级（RQ1）。异质模型（HRA、CrowdBT/TCV）的校准结果优于同质模型 BTL/TCV，且校准后异质模型在分布指标上反超 4 个 baseline，验证"优先用 \(s^*\) 的排序信息而非数值"的设计正确（RQ2）。

真实数据表格（Dots-activity 数据集，300 参与者 / 30 图像 / 8700 成对比较）¶

Stage-1 方法	Kendall τ↑ (ŝ)	Wasserstein↓ (ŝ)	MSE↓ (ŝ)
HRA-G	0.940	2.53	9.61
HRA-E	0.943	2.53	9.59
GPPL	0.931	64.50	4220.36
Rank-SVM	0.923	61.20	3814.49
BARCW	0.940	64.62	4236.16

AtC 把模型分（HRA-E：Wasserstein 2.53、MSE 11.75）进一步校准到 MSE 9.59，远低于 GPPL/Rank-SVM/BARCW 上千的 MSE。

关键发现¶

鲁棒性：人为注入成对逆序时，AtC 在 400 个逆序内 Kendall τ/MSE 平缓退化、仍靠模型信号产出有意义结果；超过约 500 逆序才崩溃（τ 转负、分布塌平）（RQ3、RQ4）。
排序 vs 评分：4 种图像损坏下，用排序校准的 \(\hat s\)(Rank) 始终优于用聚合评分校准的 \(\hat s\)(Rate)，实证"排序比评分更可靠"的核心假设（RQ5）。
用 OpenCV 轮廓检测作为带噪预测器，在严重图像损坏下 AtC 仍保持高精度，证明把模型分锚定到人共识能有效抵抗噪声（RQ6）。

亮点与洞察¶

理论扎实：三条定理把"异质聚合更高效""校准误差可分解可控""校准严格占优"全部证出来，且 Theorem 3.5 把等渗回归理论推广到"投影到随机锥 + 有偏有效噪声"两个新场景，本身有方法论贡献。
模型无关：Stage-2 对任意 off-the-shelf 预测模型即插即用，无需重训，把"人判断"和"任意模型"解耦组合。
直觉清晰：抓 Weber–Fechner"人擅长比较不擅长打分"这一条心理物理学规律，推出"只用序数、不用数值"的设计，简单且站得住。

局限与展望¶

依赖成对比较：Stage-1 需要足够多且不太corrupted 的成对判断，逆序超过临界阈值（实验中约 500）后校准失效。
单调约束的天花板：等渗投影只能修正违反次序的部分，若模型分本身量纲整体错位但次序对，校准空间有限；且即使排序完美，\(\tilde\sigma^2\) 与系统偏差 \(\nu\) 的误差仍残留。
真值不可观测下的评测：半合成实验依赖模拟的 ground truth，真实任务里"对不对"本身难以验证，对方法的最终效用评估存在固有困难。

评分¶

新颖性: ⭐⭐⭐⭐ —— "聚合排序 + 等渗校准"的组合简单但视角新，把判断聚合与模型无关校准首次系统桥接，并配三条新理论。
实验充分度: ⭐⭐⭐⭐ —— 半合成 + 真实双数据集、7 种聚合方法、4 类损坏、6 个 RQ 覆盖完整；但数据集规模偏小（30~490 物品），缺真实大规模/LLM 评审场景验证。
写作质量: ⭐⭐⭐⭐ —— 动机—方法—理论—实验逻辑顺畅，符号体系清晰，理论与实验一一对应（RQ 编号回收）。
价值: ⭐⭐⭐⭐ —— 为"无可验证真值的人本评估"提供了即插即用、有理论保证的校准范式，在众包/评审/弱监督评估上有现实落地价值。