Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory¶

会议: AAAI 2026
arXiv: 2505.15055
代码: https://github.com/Joe-Hall-Lee/PSN-IRT
领域: LLM评测
关键词: IRT, 基准评估, 条件数, 题目质量, PSN-IRT

一句话总结¶

提出 PSN-IRT（Pseudo-Siamese Network for IRT），用增强版项目反应理论同时估计 LLM 能力参数和题目的四参数特征（难度/区分度/猜测率/可行性），在 11 个基准 41,871 题上发现当前基准存在广泛饱和、难度天花板不足、数据污染等系统性问题，PSN-IRT 选出的题目子集排名一致性达 Kendall τ=1.00。

研究背景与动机¶

领域现状：LLM 评估主要依赖基准测试的平均分排名（如 MMLU、HumanEval），但不同 leaderboard 产生不一致排名，且顶级模型间差距微小难以区分。

现有痛点： - 不同基准对同一组模型的排名可能完全不同——信号还是噪声？ - 当前基准将所有题目等权平均，忽略了题目质量差异——简单题和困难题贡献相同 - 缺乏系统性工具来诊断基准本身的质量问题（饱和度、区分度、污染）

核心矛盾：基准应该是客观的标尺，但标尺本身的质量从未被系统审计。

本文目标 用 IRT 方法审计 LLM 基准的题目质量，建立更可靠的能力估计和排名。

切入角度：将教育测量学的项目反应理论（IRT）深度定制到 LLM 评估——用深度伪孪生网络端到端学习模型能力和题目参数。

核心 idea：PSN-IRT = 双网络（模型能力+题目参数）× 4PL IRT 公式 → 审计基准质量 + 可靠排名。

方法详解¶

整体框架¶

输入：12 个 LLM × 11 个基准的二值应答矩阵 → PSN-IRT 双分支网络 → 输出：每个模型的能力 θ + 每道题的四参数（难度 b、区分度 a、猜测率 c、可行上限 d）→ 基准质量分析 + 模型排名。

关键设计¶

PSN-IRT 架构:
- 功能：端到端同时估计模型能力和题目参数
- 核心思路：两个独立 MLP 分支——一个从模型应答模式估计 θ，另一个从题目应答模式估计 (a,b,c,d)。两者通过 4PL IRT 公式 \(P(\theta) = c + \frac{d-c}{1+e^{-a(\theta-b)}}\) 联合优化
- 设计动机：传统 IRT 用 MLE 或 MCMC 迭代求解，PSN-IRT 用神经网络端到端训练更高效且可处理大规模数据
四参数 IRT 模型（4PL）:
- 功能：比标准 IRT 更精确地建模 LLM 的应答行为
- 四个参数：难度 b（θ 需多高才能答对）、区分度 a（该题区分高低能力模型的有效性）、猜测率 c（低能力模型也能答对的概率）、可行上限 d（即使最强模型也无法 100% 答对）
- 设计动机：LLM 可能通过"猜"答对简单题（c>0），某些题可能对所有模型都不可行（d<1）——标准 IRT 无法捕捉这些
基准质量诊断:
- 功能：用题目参数诊断基准的系统性问题
- 诊断维度：饱和度（区分度 a 过低的题占比）、难度天花板（最大 b 是否足以区分顶级模型）、数据污染（题目猜测率 c 异常高可能说明答案在训练数据中）

损失函数 / 训练策略¶

二元交叉熵损失（应答预测）
评估 12 个模型（GPT-4、DeepSeek-V3、Qwen-Plus 等）× 11 个基准

实验关键数据¶

主实验¶

指标	PSN-IRT	Deep-IRT (1PL)	传统 IRT (4PL MLE)
ACC	0.7998	0.7974	0.7211
F1	0.8538	0.8516	0.8034
AUC	0.8485	0.8519	0.7012
Kendall τ	1.0000	0.9697	0.9697

消融：基准质量诊断¶

基准	主要问题	说明
MMLU	饱和度高	大部分题无法区分顶级模型
HumanEval+	难度天花板不足	最难题对 GPT-4 也不够难
GSM8K	疑似污染	部分题猜测率 c 异常高
MATH	区分度好	唯一在多维度都表现好的基准

关键发现¶

没有单个基准在所有质量维度上优秀——每个基准都有系统性弱点
PSN-IRT 排名与人类偏好一致：τ=1.00 远超传统方法（0.97）
PSN-IRT 选出的题目子集可替代整个基准——用少量高质量题目就能给出可靠排名
模型规模不是能力的唯一决定因素——IRT 估计的 θ 有时与参数量排名不一致

亮点与洞察¶

"审计基准本身"是元评估——用测量学工具检查测量工具的质量，概念上很重要
4PL 的猜测率 c 作为污染检测器是巧妙应用——如果答案在训练数据中，即使"不会"也能答对
PSN-IRT 可作为任何 AI 基准的质量把关工具

局限与展望¶

假设应答是二值的（对/错），对生成型评估不适用
12 个模型可能不够构建稳定的 IRT 估计
未考虑题目间的依赖性（标准 IRT 假设独立）

评分¶

新颖性: ⭐⭐⭐⭐ IRT 用于 LLM 基准审计的系统化框架，将心理测量学的成熟工具引入 AI 评估
实验充分度: ⭐⭐⭐⭐ 11 个基准、12 个模型、41K 题目，分析规模足够大
写作质量: ⭐⭐⭐⭐ 理论与实证结合良好，可视化清晰展示了题目质量问题
价值: ⭐⭐⭐⭐⭐ 对 LLM 评估方法论有重要基础贡献，揭示了现有基准中普遍存在的低质量题目