From Human-Level AI Tales to AI Leveling Human Scales¶

会议: ICML 2026
arXiv: 2602.18911
代码: 无
领域: AI 评测 / 心理测量
关键词: AI evaluation, psychometrics, ADeLe, world population calibration, LLM as annotator

一句话总结¶

本文用 LLM 当人口外推器，把 18 个能力维度按"全世界人口正确率"对数刻度 \(L=-\log_B p_W\) 校准，并发现 Volume / Attention 维度真实 base \(B \gg 10\)、Comprehension 维度 \(B \approx 1\)，揭示现行 AI 与人类的比较其实严重失调。

研究背景与动机¶

领域现状：AI 评测主流是 benchmarking——用单一 benchmark 平均分对比"人类水平"。这种做法把不同任务难度、不同样本人群、不同维度能力压成一个数字，于是矛盾结论遍地：LLM 在 MMLU 90% 但在真实软件工程任务 50-70%；GPQA Diamond 上 PhD 70%、模型 88%。

现有痛点：（1）benchmark 之间不可比，"人类水平"完全依赖采样的 reference 人群（多为 WEIRD：Western / Educated / Industrialized / Rich / Democratic）；（2）现有 ADeLe 等 criterion-referenced 框架虽给了维度级 rubric 但 base 取 \(B=10\) 是约定不是校准，跨维度仍不可比；（3）大规模真人测量极贵、不可能在新出现的 benchmark 上现做。

核心矛盾：要"以人类为参照"必须用人类样本，但能拿到的人类样本永远是有偏小子集；若不校准就直接比较，"超越人类"或"不及人类"的结论完全是 sample-dependent 的。

本文目标：（1）把 benchmark item 标到 ADeLe 18 维 demand level；（2）把任意小样本人类成绩外推到全球人口（WWP）；（3）按 WWP 正确率反推每个维度真实的 logarithmic base；（4）验证整套外推可靠。

切入角度：心理测量学早有 equating / post-stratification 处理小样本到大样本的外推；现代 LLM 训练数据里压缩了海量人口与人口学知识，可以当一个廉价、可重复的人口外推器。

核心 idea：用 LLM 把"focal-group 成功率 + 该组人口学描述 + 目标群体人口学描述"翻译为"目标群体成功率"，然后对每个能力维度做线性回归得到真实 base \(B = 10^m\)，建立人口学锚定的能力 ruler。

方法详解¶

整体框架¶

5 步 pipeline：（1）汇总 item 池（PISA 2009 / TIMSS 2003+2011 G4&G8 / ICAR / UKBioBank / ReliabilityBench）；（2）用 ADeLe rubric 给每道 item 标 18 维 demand level \(d_{i,c} \in \{0,1,2,3,4,5+\}\)；（3）用 LLM 把 focal group 正确率 \(p_i^g\) 外推到 WWP 正确率 \(p_i^W\)；（4）按 \(L_i = -\log_B p_i^W\) 转化成对数难度；（5）用 sub-group → full-sample 的预测做验证（MAE / RMSE / Pearson / Spearman）。

关键设计¶

LLM as 人口外推器:
- 功能：把任意小样本的 item 正确率翻译为"全球人口"基准下的正确率，避免人为标注偏差。
- 核心思路：Prompt 含 6 块——（a）数据集和测试 domain 简介；（b）focal group 人口学描述（如"2009 PISA 的 15 岁学生 OECD 国家"）；（c）题干 + 选项 + 正确答案；（d）focal group 实测正确率 \(p_i^g\)；（e）reference group（全世界人口）的人口学描述；（f）请求 LLM 输出 reference group 的预测正确率 \(\hat p_i^W\) 并附 rationale。Prompt 显式列出 7 类调整因素：全球年龄分布、教育可达性与质量、毕业后遗忘、流体 / 晶体能力寿命曲线、专业化与暴露、健康与认知衰退、语言因素。Robustness 用 27 个 paraphrase 版本。
- 设计动机：传统 IRT 需要大量被试，新 benchmark 不可能等收集；LLM 训练数据隐含的人口学统计提供了一条便宜的代理路径，rationale 还能审计。
维度特定的 base 校准（Optimal Base）:
- 功能：把对数难度的 base 从默认 \(B=10\) 校准成每个能力维度自己的真实陡度。
- 核心思路：经验难度 \(L_{\text{emp},i} = -\log_{10}(p_i^W / \sqrt{10})\)；按"主要瓶颈"过滤——只保留 \(d_{i,c} \ge \max_k d_{i,k}\) 的 item 用于维度 \(c\) 的回归，避免被其它瓶颈干扰。然后按 level \(l \in \{1,..,5\}\) 取平均得到 \(\bar y_l\)，对 \((l, \bar y_l)\) 做线性回归，斜率 \(m\) 给出 \(B = 10^m\)。结果分三类：High-base（Volume \(B\approx 32\)、Attention \(B\approx 17\)，难度增加比标注预期更陡）；Standard（Metacognition \(B\approx 6.7\)、Knowledge \(B\approx 5.1\)）；Invariant（Comprehension / Spatial \(B\approx 1\)，难度增加几乎没影响）。
- 设计动机：单一 \(B=10\) 假设跨维度不成立，会导致"AI 知识超越人类但推理远不如人类"这类结论难以横向理解；维度特定 base 是把不同 ruler 校到同一单位的关键一步。
Dominance Filter + Means-based 回归:
- 功能：从混杂多瓶颈 item 中提取纯维度信号，并对抗高难度 item 样本稀少导致的回归偏差。
- 核心思路：先 dominance filter 留瓶颈 item；再按 level 平均（不是 raw 点回归）来对抗"低 level item 数量远超高 level"造成的均值偏移。最后用 5 个均值点拟合一条直线，斜率即 \(\log_{10} B\)。
- 设计动机：原始数据里 level 1 item 几乎挤满，直接回归会把斜率压平；按 level 取均值再回归是 fair-weight 的妥协。

损失函数 / 训练策略¶

无训练。LLM 采用 GPT-5 Chat、GPT-4.1、Llama-4、DeepSeek-v3.1、GROK-3 共 5 个商用模型，低温度无工具调用；每题 × 27 paraphrase。验证用 ICAR、TIMSS、UKBioBank 的 sub-group → full-sample 设计。

实验关键数据¶

主实验（验证 LLM 外推质量）¶

模型	ICAR MAE ↓	ICAR RMSE ↓	ICAR Pearson ↑	ICAR Spearman ↑
gpt-5-chat	0.030	0.044	0.976	0.968
llama-4	0.033	0.052	0.971	0.963
gpt-4.1	0.040	0.058	0.958	0.944
deepseek-v3.1	0.043	0.085	0.922	0.914
grok-3	0.043	0.068	0.939	0.920

TIMSS 上 MAE 升到 \(0.12\)-\(0.16\)、Pearson 跌到 \(0.5\)-\(0.7\)，体现跨国异质性更大时外推更困难。

消融实验（维度特定 base 校准）¶

维度组	校准后 \(B\)	解读
Volume	\(\approx 32\)	远比 \(B=10\) 陡；高 level 需被上推
Attention	\(\approx 17\)	同上
Metacognition	\(\approx 6.7\)	与 \(B=10\) 接近，标定良好
Knowledge	\(\approx 5.1\)	同上
Comprehension & Expression	\(\approx 1\)	难度近乎不增，应下推 level
Spatial Reasoning & Navigation	\(\approx 1\)	同上

关键发现¶

单一 \(B=10\) 跨维度不成立——Volume 和 Comprehension 的真实 base 相差约 \(30\times\)，意味着"AI 在 Knowledge 维度领先人类"和"AI 在 Volume 维度仍远不如人类"的程度，若不校准就完全没法比。
LLM 外推在结构均质的 ICAR 上 MAE 仅 \(0.030\)（Pearson 0.976），证明 LLM 确实压缩了相当多人口学先验；但在 TIMSS 这类跨 60 国异质数据上误差陡升，说明 LLM 仍带 Western 偏置。
当对各维度采用各自校准 base 后，现行 LLM 的 capability profile 出现明显"Knowledge 强、Volume / Attention 弱"的形状，给政策制定者更可解释的对比。

亮点与洞察¶

把"AI 比人类"这件常被滥用的事，从"benchmark 分数对比"重新定义为"人口分布对数刻度上的位置"，是评测哲学层面的提案。
用 LLM 当人口外推器是巧妙的"以 AI 校准 AI 比较人类"的循环，作者用 sub-group → full-sample 验证证明它确实学到了 demographic 调整能力。
维度特定 base 校准结果（Volume \(\approx 32\)、Comprehension \(\approx 1\)）直接动摇了过去几年所有"AI 达到人类水平 X%"的标量结论，是有冲击力的负面发现。

局限与展望¶

仅 5 个数据源，且全为 text-only；多模态、agentic 任务都未覆盖。
LLM 外推器在 TIMSS 上 MAE 偏大、Western / Anglosphere 偏置明显；非西方文化的人口估计可能系统偏差。
假设 dominance filter 足以"纯化"维度信号，但实际 item 可能多瓶颈共存，过滤掉的样本可能本身有价值。
校准 base 用 5 个 mean 点做线性回归，统计显著性较弱，对一些维度（如 Mind Modeling）甚至给出负斜率。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "LLM 当人口外推器 + 维度特定 base 校准"是少见的方法学创新。
实验充分度: ⭐⭐⭐ 数据源仅 5 个且 text-only，TIMSS 上误差偏大，cross-cultural 验证不充分。
写作质量: ⭐⭐⭐⭐ Motivation 写得很有冲击力，技术叙述清晰。
价值: ⭐⭐⭐⭐⭐ 对 AI 评测社区是范式级反思，policy-maker 和研究者都应该读。