Benchmarking is Broken — Don't Let AI be its Own Judge¶

会议: NeurIPS 2025
arXiv: 2510.07575
代码: https://peerbench.ai
领域: AI 安全 / 评估方法论
关键词: 基准评估, 数据污染, PeerBench, 同行评审, 声誉系统

一句话总结¶

系统性批评当前 AI 基准评估的根本缺陷——数据污染（MMLU 45%+ 重叠）、选择性报告、缺乏监考——并提出 PeerBench 方案：借鉴高考/GRE 的监考范式，用滚动更新的保密题库 + 同行评审质量控制 + 声誉加权评分 + 加密承诺机制构建下一代 AI 评估基础设施。

研究背景与动机¶

领域现状：MMLU、SuperGLUE 等静态基准是 AI 进展的主要度量标准。LLM 开发者在这些基准上竞争并发布排行榜。

现有痛点：(a) 数据污染——检索审计显示 QA 基准 45%+ 与训练数据重叠，GPT-4 能推断 57% 被 mask 的 MMLU 答案；(b) 选择性报告——策划者选择有利任务子集，开发者挑选有利基准；(c) 基准饱和——SuperGLUE 数月内被"刷满"，性能增长反映记忆而非能力；(d) 缺乏监考——无身份验证、无限提交、文化/人口偏差未处理。

核心矛盾：基准应该客观衡量能力，但当前系统有太多可被操纵的漏洞——LLM 开发者有动机（和能力）优化基准分数而非真实能力。

本文目标 提出替代性评估架构，使基准评估像 SAT/GRE 那样具有防作弊机制和持续更新能力。

切入角度：人类高风险考试（律师资格、医师执照）已有成熟的题目保密、监考、声誉管理机制。AI 评估应借鉴这些制度设计。

核心 idea：用考试监管范式替代当前的开放基准——保密题库 + 同行评审 + 声誉加权 + 加密承诺 + 定时退役发布。

方法详解¶

整体框架¶

PeerBench 架构: 数据贡献者提交保密测试 → 评审员同行评审质量 → 模型创建者注册推理端点 → 协调服务器管理活跃题库 + 调度评审 + 更新声誉 + 发布排行榜。三个排行榜：贡献者分数、评审员分数、模型分数。

关键设计¶

持续评估工作流（T1-T6）:
- 功能：实现题目的生命周期管理
- 核心思路：T1 提交+哈希承诺 \(h = \text{Com}(T, F)\) → T2 对所有注册模型评测一次 → T3 ≥3 评审员评质量 \(q \in \{-1,0,1,2\}\) → T4 声誉加权计算权重 \(w = 0.7 \cdot \text{quality} + 0.3 \cdot \min(2, \rho/100)\) → T5 题目进入/退出活跃库 → T6 更新所有参与者声誉。退役题目完全公开发布
- 设计动机：滚动更新保证题目新鲜度；退役发布保证透明度和可审计性
声誉系统（三方博弈）:
- 功能：激励高质量贡献、诚实评审、公平参与
- 核心思路：贡献者 \(\text{Score}(c) = \sum_i \text{quality}(T_i) + \text{bonuses}\)；评审员 \(\text{Score}(r) = \text{Pearson}(\{q_r\}, \{\bar{q}\})\)（与共识的相关性）；模型 \(\text{Score}(m) = \frac{\sum_i w(T_i) s_i^{(m)}}{\sum_i w(T_i)}\)（质量加权平均分）。Slashing 机制惩罚恶意行为
- 设计动机：声誉系统是支撑整个机制的经济学基础——不诚实参与会降低声誉并被踢出
安全与审计机制:
- 功能：防止数据泄露、篡改和串通
- 核心思路：评审员只看随机图像格式的题目子集（防复制）；所有提交/评估加密签名防篡改；退役后全部发布供社区验证哈希承诺；声誉低于阈值的参与者被移除
- 设计动机：当前系统零安全机制——任何人可无限次提交、无身份验证、评测数据完全公开

损失函数 / 训练策略¶

框架设计工作，无模型训练
讨论了时间公平性困境：即时评分（响应快但跨期不可比）vs 同步窗口（公平但不灵活）→ 混合方案

实验关键数据¶

现有平台对比¶

平台	动态更新	污染抵抗	质量控制	透明
MMLU	✗	✗	✗	✓
SuperGLUE	✗	✗	✗	✓
LiveBench	✓（月更）	部分	不透明	—
Chatbot Arena	✓	✓	有限（Elo）	—
PeerBench	✓	✓	✓（同行评审）	✓

污染证据汇总¶

类型	证据
检索重叠	QA 基准 45%+
推断能力	GPT-4 恢复 57% MMLU mask 答案
策划偏差	Humanity's Last Exam 仅针对 5 个模型的失败
饱和	SuperGLUE 数月内被刷满

关键发现¶

数据污染不是边缘问题——45% 重叠说明基准成绩的大部分可能反映记忆而非推理
私有基准转移了认识权威——从社区共识到策划者独裁
评估缺乏标准化使跨模型比较不可靠——不同评测用不同 few-shot 设置、不同 prompt 模板

亮点与洞察¶

考试学对 AI 评估的启发非常深刻：人类已经有数百年的防作弊考试经验，AI 评估不应从头发明而应借鉴
声誉系统的博弈论设计具有机制设计的严谨性——激励相容、惩罚串通
"不要让 AI 做自己的裁判"一语中的——self-evaluation 本质上存在利益冲突

局限与展望¶

时间公平性困境无完美解——不同时间的模型面对不同题目
需要持续高质量题目供给（非平凡负担）——长期可持续性存疑
经济激励/声誉机制的形式化不完整——需要博弈论严格分析
需要中立组织运营（NIST/MLCommons 等），但组织自身也可能有偏好
响应速度和认证级严谨性之间的权衡——混合方案增加了系统复杂度
跨模态评估（文本/图像/音频/代码）的统一标准设计困难
对 API-only 模型的推理环境标准化仍未解决

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将考试学引入 AI 评估是深刻的范式转换提议
实验充分度: ⭐⭐⭐ 以设计方案为主，实验验证有限
写作质量: ⭐⭐⭐⭐⭐ 批评尖锐但建设性，制度设计详尽
价值: ⭐⭐⭐⭐⭐ 可能改变 AI 评估的基础范式，原型 peerbench.ai 已上线