跳转至

Benchmarking is Broken — Don't Let AI be its Own Judge

会议: NeurIPS 2025
arXiv: 2510.07575
代码: https://peerbench.ai
领域: AI 安全 / 评估方法论
关键词: 基准评估, 数据污染, PeerBench, 同行评审, 声誉系统

一句话总结

系统性批评当前 AI 基准评估的根本缺陷——数据污染(MMLU 45%+ 重叠)、选择性报告、缺乏监考——并提出 PeerBench 方案:借鉴高考/GRE 的监考范式,用滚动更新的保密题库 + 同行评审质量控制 + 声誉加权评分 + 加密承诺机制构建下一代 AI 评估基础设施。

研究背景与动机

领域现状:MMLU、SuperGLUE 等静态基准是 AI 进展的主要度量标准。LLM 开发者在这些基准上竞争并发布排行榜。

现有痛点:(a) 数据污染——检索审计显示 QA 基准 45%+ 与训练数据重叠,GPT-4 能推断 57% 被 mask 的 MMLU 答案;(b) 选择性报告——策划者选择有利任务子集,开发者挑选有利基准;(c) 基准饱和——SuperGLUE 数月内被"刷满",性能增长反映记忆而非能力;(d) 缺乏监考——无身份验证、无限提交、文化/人口偏差未处理。

核心矛盾:基准应该客观衡量能力,但当前系统有太多可被操纵的漏洞——LLM 开发者有动机(和能力)优化基准分数而非真实能力。

本文目标 提出替代性评估架构,使基准评估像 SAT/GRE 那样具有防作弊机制和持续更新能力。

切入角度:人类高风险考试(律师资格、医师执照)已有成熟的题目保密、监考、声誉管理机制。AI 评估应借鉴这些制度设计。

核心 idea:用考试监管范式替代当前的开放基准——保密题库 + 同行评审 + 声誉加权 + 加密承诺 + 定时退役发布。

方法详解

整体框架

PeerBench 架构: 数据贡献者提交保密测试 → 评审员同行评审质量 → 模型创建者注册推理端点 → 协调服务器管理活跃题库 + 调度评审 + 更新声誉 + 发布排行榜。三个排行榜:贡献者分数、评审员分数、模型分数。

关键设计

  1. 持续评估工作流(T1-T6):

    • 功能:实现题目的生命周期管理
    • 核心思路:T1 提交+哈希承诺 \(h = \text{Com}(T, F)\) → T2 对所有注册模型评测一次 → T3 ≥3 评审员评质量 \(q \in \{-1,0,1,2\}\) → T4 声誉加权计算权重 \(w = 0.7 \cdot \text{quality} + 0.3 \cdot \min(2, \rho/100)\) → T5 题目进入/退出活跃库 → T6 更新所有参与者声誉。退役题目完全公开发布
    • 设计动机:滚动更新保证题目新鲜度;退役发布保证透明度和可审计性
  2. 声誉系统(三方博弈):

    • 功能:激励高质量贡献、诚实评审、公平参与
    • 核心思路:贡献者 \(\text{Score}(c) = \sum_i \text{quality}(T_i) + \text{bonuses}\);评审员 \(\text{Score}(r) = \text{Pearson}(\{q_r\}, \{\bar{q}\})\)(与共识的相关性);模型 \(\text{Score}(m) = \frac{\sum_i w(T_i) s_i^{(m)}}{\sum_i w(T_i)}\)(质量加权平均分)。Slashing 机制惩罚恶意行为
    • 设计动机:声誉系统是支撑整个机制的经济学基础——不诚实参与会降低声誉并被踢出
  3. 安全与审计机制:

    • 功能:防止数据泄露、篡改和串通
    • 核心思路:评审员只看随机图像格式的题目子集(防复制);所有提交/评估加密签名防篡改;退役后全部发布供社区验证哈希承诺;声誉低于阈值的参与者被移除
    • 设计动机:当前系统零安全机制——任何人可无限次提交、无身份验证、评测数据完全公开

损失函数 / 训练策略

  • 框架设计工作,无模型训练
  • 讨论了时间公平性困境:即时评分(响应快但跨期不可比)vs 同步窗口(公平但不灵活)→ 混合方案

实验关键数据

现有平台对比

平台 动态更新 污染抵抗 质量控制 透明
MMLU
SuperGLUE
LiveBench ✓(月更) 部分 不透明
Chatbot Arena 有限(Elo)
PeerBench ✓(同行评审)

污染证据汇总

类型 证据
检索重叠 QA 基准 45%+
推断能力 GPT-4 恢复 57% MMLU mask 答案
策划偏差 Humanity's Last Exam 仅针对 5 个模型的失败
饱和 SuperGLUE 数月内被刷满

关键发现

  • 数据污染不是边缘问题——45% 重叠说明基准成绩的大部分可能反映记忆而非推理
  • 私有基准转移了认识权威——从社区共识到策划者独裁
  • 评估缺乏标准化使跨模型比较不可靠——不同评测用不同 few-shot 设置、不同 prompt 模板

亮点与洞察

  • 考试学对 AI 评估的启发非常深刻:人类已经有数百年的防作弊考试经验,AI 评估不应从头发明而应借鉴
  • 声誉系统的博弈论设计具有机制设计的严谨性——激励相容、惩罚串通
  • "不要让 AI 做自己的裁判"一语中的——self-evaluation 本质上存在利益冲突

局限与展望

  • 时间公平性困境无完美解——不同时间的模型面对不同题目
  • 需要持续高质量题目供给(非平凡负担)——长期可持续性存疑
  • 经济激励/声誉机制的形式化不完整——需要博弈论严格分析
  • 需要中立组织运营(NIST/MLCommons 等),但组织自身也可能有偏好
  • 响应速度和认证级严谨性之间的权衡——混合方案增加了系统复杂度
  • 跨模态评估(文本/图像/音频/代码)的统一标准设计困难
  • 对 API-only 模型的推理环境标准化仍未解决

相关工作与启发

  • vs MMLU/SuperGLUE: 静态一次性基准,PeerBench 持续更新
  • vs Chatbot Arena: 众包比较但质量控制有限,PeerBench 加入同行评审
  • vs LiveBench: 月度更新但质量控制不透明
  • vs Kaggle 竞赛模式: Kaggle 有私有测试集但无滚动更新和同行评审,PeerBench 更完整
  • 启发:任何使用 LLM-as-Judge 的评估都应警惕自评偏差,交叉验证是必须的
  • vs SWE-bench/METR: 能力评估但固定题目;PeerBench 滚动交替确保新鲜度
  • 与 blockchain 的类比: PeerBench 的哈希承诺、质押惩罚、去中心化审核借鉴了区块链信任机制
  • 与学术同行评审: 评审者声誉系统与学术界的审稿制度异曲同工,但自动化程度更高

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将考试学引入 AI 评估是深刻的范式转换提议
  • 实验充分度: ⭐⭐⭐ 以设计方案为主,实验验证有限
  • 写作质量: ⭐⭐⭐⭐⭐ 批评尖锐但建设性,制度设计详尽
  • 价值: ⭐⭐⭐⭐⭐ 可能改变 AI 评估的基础范式,原型 peerbench.ai 已上线