Who can we trust? LLM-as-a-jury for Comparative Assessment¶
会议: ICML 2026
arXiv: 2602.16610
代码: 无公开代码
领域: LLM 评估 / 比较式自动评价
关键词: LLM-as-a-jury, Bradley-Terry, 评审可靠性, 成对比较, 无监督校准
一句话总结¶
这篇论文指出多个 LLM 评审在成对比较中可靠性差异很大,提出带评审判别参数的 BT-σ 模型,在没有人工校准标签的情况下同时学习候选输出排名和每个 LLM judge 的可靠性,从而比简单平均和标准 Bradley-Terry 聚合更接近人类排序。
研究背景与动机¶
领域现状:LLM-as-a-judge 已经成为 NLG、摘要、对话回复和开放式生成评估中的常用工具。相比直接打分,成对比较通常更稳定,因此很多系统会让一个或多个 LLM 判断候选输出 \(i\) 是否优于 \(j\),再把这些比较结果聚合成全局排名。
现有痛点:多个 LLM judge 的质量并不一致。有的模型更偏好长回答,有的对候选顺序敏感,有的在不同评价维度上循环矛盾严重。常见的概率平均或投票平均默认所有 judge 等可靠,会把噪声模型和高质量模型等权相加,导致最终排名受不一致概率拖累。
核心矛盾:成对比较本身应该满足某种全局排序结构,但 LLM 给出的 preference probability 经常违反传递性、交换性和校准一致性。直接使用 soft probabilities 会保留更多信息,也会放大不一致;只使用 hard decisions 更鲁棒,却丢掉概率强度。
本文目标:作者希望在不依赖人工标注校准集的情况下,从多个 LLM judge 的成对比较概率中同时恢复候选 item 的全局 skill 排名,以及每个 judge 的可靠性或判别能力。
切入角度:论文从 Bradley-Terry 模型出发,先分析 soft BT 何时会自校准、何时会因概率不一致而失效,再把“judge 是否可信”写成模型参数,而不是在聚合前手工指定权重。
核心 idea:给每个 LLM judge 加一个可学习的判别尺度 \(\sigma_k\),让可靠 judge 对 skill 差异更敏感、噪声 judge 被自然降权,形成无监督的 reliability-aware BT 聚合。
方法详解¶
论文的主线很清楚:先把 LLM 比较概率放进 Bradley-Terry 框架,说明标准 soft BT 在多 judge 场景中等价于匹配平均概率;然后指出平均概率无法表达 judge 间的可靠性差异;最后提出 BT-σ,在同一个似然里学习 item skill 和 judge discriminator。
整体框架¶
输入是一组候选生成结果,以及多个 LLM judge 对所有候选对的 preference probabilities。对于每个 pair \((i,j)\) 和 judge \(k\),模型观察到 \(p_{ij}^{(k)}\),即 judge \(k\) 认为 \(i\) 优于 \(j\) 的概率。输出包括候选 item 的全局排序分数 \(s_i\),以及每个 judge 的可靠性参数 \(\sigma_k\)。评估时,候选排序与人类评分排序做 Spearman rank correlation。
方法先做一个对称化去偏:如果同一对候选在两个顺序下得到 \(p_{ij}\) 和 \(p_{ji}\),则用 \(p'_{ij}=\frac{1}{2}(p_{ij}+1-p_{ji})\) 强制满足最基本的顺序一致性。之后,hard BT、soft BT、Temp-BT、BT-σ 等方法都在同一组 debiased comparisons 上比较。
关键设计¶
-
从概率一致性解释 hard BT 与 soft BT 的差异:
- 功能:解释为什么有时 hard BT 反而比 soft BT 更好,并把这个现象和 LLM judge 的逻辑不一致联系起来。
- 核心思路:标准 BT 假设 \(P(i\succ j)=\sigma(s_i-s_j)\)。soft BT 用概率 \(p_{ij}\) 拟合这个结构;如果概率本身来自某个全局 skill 向量,则温度缩放只会整体缩放 skill,不改变排名。但如果 LLM 概率存在循环或非传递关系,soft BT 必须拟合矛盾的概率强度,hard BT 只保留方向反而更抗噪。
- 设计动机:这为后续 reliability modeling 提供诊断基础:问题不是 BT 结构本身,而是不同 judge 的概率信号质量不同,不能等权处理。
-
BT-σ 的 judge-specific discriminator:
- 功能:在没有人工标签的情况下学习每个 judge 的可靠性,并用它调节 judge 对全局排名的影响。
- 核心思路:BT-σ 把 soft BT 扩展为 \(\mathcal{L}(\mathbf{s},\{\sigma_k\})\propto\prod_k\prod_{(i,j)}\sigma((s_i-s_j)/\sigma_k)^{p_{ij}^{(k)}}(1-\sigma((s_i-s_j)/\sigma_k))^{1-p_{ij}^{(k)}}\)。较小的 \(\sigma_k\) 表示 judge 对 item skill 差异更敏感、更一致;较大的 \(\sigma_k\) 表示概率更平、更噪。
- 设计动机:这相当于无监督温度校准,但校准信号来自 judge 间比较结构本身,而不是人类标注;它能在聚合时自动让可靠 judge 占更大权重。
-
可靠性诊断与 aspect-dependent 扩展:
- 功能:验证学到的 \(\sigma_k\) 不是纯数学自由度,而是有可解释的可靠性含义。
- 核心思路:论文用 \(1/\sigma_k\) 与 judge 自身 SRC、以及 \(1-\text{CycleRate}\) 做相关分析。还提出 BT-σ-asp,为每个 judge-aspect pair 学单独 discriminator,用来检查 judge 可靠性是否随评价维度变化。
- 设计动机:如果 \(1/\sigma_k\) 与独立性能和循环一致性强相关,就说明模型学到的是实际可靠性,而不是简单过拟合某个 benchmark。
损失函数 / 训练策略¶
BT-σ 直接最大化上述联合似然,参数包括所有 item skills \(\{s_i\}\) 和 judge discriminators \(\{\sigma_k\}\)。作者用 L-BFGS-B 优化,随机初始化 \(s_i\) 和 \(\sigma_k\),通常 100 次迭代内收敛。Temp-BT 作为有监督参考,需要用人类标注拟合每个 judge/aspect 的温度;BT-σ 不使用人类标签,只依赖 LLM pairwise probabilities。
实验关键数据¶
主实验¶
论文在 SummEval、Topical-Chat 和 NovelEval 上测试,其中主表详细报告 SummEval 与 Topical-Chat 的 Spearman correlation。SummEval 有 coherence、consistency、fluency、relevance 四个维度;Topical-Chat 有 coherency、continuity、engagingness、naturalness 四个维度。
| 数据集 | 指标 | 本文 BT-σ | 之前强基线 | 提升 |
|---|---|---|---|---|
| SummEval COH | SRC | 57.38 | soft BT 53.94 / Temp-BT 56.21 | 优于无监督 soft BT 3.44 点 |
| SummEval FLU | SRC | 42.99 | soft BT 42.69 / Temp-BT 41.88 | 小幅领先 |
| SummEval REL | SRC | 54.15 | soft BT 53.11 / Temp-BT 55.14 | 优于 soft BT,但低于监督 Temp-BT |
| Topical-Chat CNT | SRC | 56.30 | soft BT 53.87 / Temp-BT 52.21 | +2.43 点 vs soft BT |
| Topical-Chat NAT | SRC | 60.56 | soft BT 58.20 / Temp-BT 60.65 | 接近监督校准 |
| SummEval ALL | SRC | 50.50 | soft BT 49.40 / Crowd-BT 48.35 | 总体领先 |
消融实验¶
消融和分析主要围绕两个问题:学到的 discriminator 是否真的代表 judge 可靠性,以及 aspect-specific discriminator 是否必要。
| 配置 | 关键指标 | 说明 |
|---|---|---|
| SummEval,\(1/\sigma_k\) vs judge SRC | ALL PCC 72.21 / SRC 85.71 | discriminator 与独立 judge 表现高度相关 |
| Topical-Chat,\(1/\sigma_k\) vs judge SRC | ALL PCC 67.41 / SRC 59.52 | 跨任务仍保持正相关 |
| SummEval,\(1/\sigma_k\) vs \(1-\text{CycleRate}\) | ALL PCC 90.29 / SRC 95.24 | 更一致的 judge 会学到更大的 \(1/\sigma_k\) |
| BT-σ-asp vs BT-σ | SummEval 小幅提升,Topical-Chat 混合 | aspect 相关可靠性存在,但收益有限 |
| hard BT-σ on Topical-Chat ENG | SRC 67.36 | 高循环噪声维度中,hard decision + reliability modeling 更稳 |
关键发现¶
- 单个 LLM judge 上,hard BT 经常能追上甚至超过 soft BT,这说明 raw probabilities 的幅度并不总可信;在多 judge 聚合后,soft BT 又变强,说明不同模型的噪声会部分抵消。
- BT-σ 的优势来自显式建模 judge heterogeneity。它不是简单平均概率,而是在 likelihood 中让不同 judge 的概率曲线有不同温度,从而自然削弱不可靠模型。
- \(1/\sigma_k\) 与循环一致性相关性极高,尤其 SummEval 的 ALL SRC 达 95.24。这是很强的证据,说明 discriminator 捕捉到了“是否容易产生 preference cycle”这一可靠性维度。
亮点与洞察¶
- 论文把“LLM judge 可信度”从工程经验变成了可学习参数。很多 evaluation pipeline 会手动挑模型或简单多数投票,BT-σ 给了一个无需人工标签的概率建模替代方案。
- 对 hard BT 和 soft BT 的解释很有价值。它提醒我们,概率输出并不必然比二值偏好更好;当概率本身不满足全局排序结构时,保留概率强度可能是在保留噪声。
- \(\sigma_k\) 的可解释性做得比较完整。作者没有只报告聚合分数,而是检查 discriminator 与 judge 表现、cycle inconsistency 的相关性,使方法更像一个诊断工具。
局限与展望¶
- BT-σ 仍然建立在全局 Bradley-Terry skill 的假设上。如果候选输出之间存在上下文依赖、非传递的人类偏好或多峰偏好群体,单一 skill 向量可能过于简单。
- 论文主要面向 NLG benchmark 的离线比较。真实开放式评估中,judge prompt、rubric、候选长度和安全约束会更加复杂,\(\sigma_k\) 是否稳定需要进一步测试。
- Temp-BT 在部分维度仍然有优势,说明如果有高质量标注,监督校准依然有价值。未来可以研究少量标注与 BT-σ 的半监督结合。
- BT-σ 估计的是 judge 级可靠性,不直接处理 instance-level reliability。某些 judge 可能只在特定样本类型上失效,这需要更细粒度的条件化 discriminator。
相关工作与启发¶
- vs Avg-Prob / majority voting: 简单平均把所有 judge 等权处理,本文通过 \(\sigma_k\) 学到软权重,并且强制输出满足全局排序结构。
- vs hard / soft Bradley-Terry: 标准 BT 只学习 item skill,本文把 judge 的概率尺度也放入模型,使 soft probability 的可信程度可变。
- vs supervised temperature scaling: Temp-BT 需要人类标签拟合温度,BT-σ 用成对比较结构自监督学习 discriminator,更适合 reference-free 评价场景。
- vs Crowd-BT / annotator aggregation: 众包模型通常假设重复标注和潜在真值,本文面向 LLM 软概率比较,直接处理生成评价中的 ranking recovery。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把 judge reliability 嵌入 Bradley-Terry soft comparison likelihood,问题抓得准,模型也简洁。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖多个 NLG 数据集、多个 judge、多个评价维度,并有可靠性相关分析;instance-level 失效分析还可加强。
- 写作质量: ⭐⭐⭐⭐☆ 理论动机、方法公式和实验现象衔接自然,hard/soft BT 的解释尤其清楚。
- 价值: ⭐⭐⭐⭐☆ 对自动评测系统很实用,可作为 LLM-as-a-jury 聚合和 judge 诊断的轻量模块。