Do LLMs Give Psychometrically Plausible Responses in Educational Assessments?¶

会议: ACL 2025
arXiv: 2506.09796
代码: https://github.com/mainlp/llm-psychometrics
领域: LLM/NLP, 教育评估
关键词: 心理测量学, 项目反应理论, 经典测试理论, 教育评估, LLM评估

一句话总结¶

从心理测量学（经典测试理论 CTT 和项目反应理论 IRT）的角度评估 18 个指令微调 LLM 在教育评估中的"类人性"，发现即使经过温度缩放校准，LLM 的响应分布与人类仍有本质差异——大模型过度自信，且无法预测人类被干扰项吸引的模式，零样本 LLM 不适合替代人类进行测试预试验。

研究背景与动机¶

领域现状：教育评估（如 SAT、GRE 等）的开发是一个漫长且昂贵的过程，涉及专家编写试题、反复用数百至数千名真人受试者进行预试验（pilot study）来评估题目质量。最近有研究探索用 LLM 模拟受试者来加速这一过程。

现有痛点：要让 LLM 有效替代人类受试者，其响应必须在心理测量学框架（CTT 和 IRT）下表现出"类人性"——即 LLM 认为难的题目人类也应该觉得难，LLM 的错误选项分布应与人类类似。但目前缺乏从 CTT/IRT 双框架系统评估 LLM 心理测量学合理性的研究。

核心矛盾：LLM 在答题准确率上已非常强大，但准确 ≠ 类人。一个总是选对的模型（过度自信）无法提供有用的题目分析信息，因为它无法揭示哪些题目是"好题"（有区分度的题目）。

本文目标 提出基于 CTT 和 IRT 的心理测量学合理性评估方法，并在 18 个 LLM × 2 个数据集 × 3 个学科上进行系统基准测试。

切入角度：将 LLM 的 first-token 概率分布视为"一组虚拟受试者的响应分布"，与真实人类受试者的响应统计量进行对比。

核心 idea：用 CTT 的题目难度相关性和 IRT 的项目特征曲线拟合来定量衡量 LLM 响应的心理测量学合理性。

方法详解¶

整体框架¶

提出心理测量学合理性（psychometric plausibility）的三维评估方法：(1) 响应分布比较——用 KL 散度衡量 LLM 与人类在选项概率分布上的相似性；(2) CTT 分析——用 Pearson 相关系数衡量 LLM 答对概率与人类题目难度（item facility）的一致性；(3) IRT 分析——将 LLM 响应与基于人类数据拟合的项目特征曲线（ICC）进行比较。

关键设计¶

响应概率提取与温度缩放:
- 功能：从 LLM 的 first-token logits 中提取 A/B/C/D 四个选项的概率，使用循环置换（cyclic permutation）消除选项顺序偏差，并通过温度缩放校准分布
- 核心思路：对每道题生成 4 次响应（每种选项位置排列），取平均概率。然后通过最小化 KL 散度搜索最优温度参数 \(T\)，使 LLM 响应分布尽可能接近人类。大模型通常过度自信（几乎所有概率集中在一个选项），温度缩放可以缓解
- 设计动机：直接使用原始 logits 会使模型显得极度过度自信（90%+ 概率在正确选项上），无法与人类分布（通常更分散）比较
CTT 分析——题目难度相关性:
- 功能：计算 LLM 答对概率与人类 item facility（人类答对比例）之间的 Pearson 相关系数
- 核心思路：如果 LLM 心理测量学合理，那么人类认为简单的题目，LLM 也应该给正确选项更高的概率。强正相关表示 LLM 在题目难度维度上与人类一致
- 设计动机：CTT 是教育评估中最基础的分析框架，item facility 是最直观的题目特征
IRT 分析——ICC 拟合度:
- 功能：使用 3PL（三参数逻辑）IRT 模型 \(P(X=1) = c + \frac{1-c}{1+e^{-a(\theta-b)}}\) 的预期响应概率（\(\theta=0\)，即平均能力受试者）与 LLM 的答对概率进行相关分析
- 核心思路：IRT 的 ICC 包含题目的区分度 \(a\)、难度 \(b\) 和猜测参数 \(c\)，提供了比 CTT 更精细的题目特征描述。如果 LLM 与这些特征匹配，则说明其响应行为能模拟一个特定能力水平的人类受试者
- 设计动机：IRT 的优势在于题目参数不依赖特定受试者群体，提供了更理论化的评估标准

数据集¶

NAEP（美国全国教育进步评估）：549 道四选一题（阅读 252、美国历史 204、经济学 93），涵盖 4/8/12 年级，有人类响应分布和 IRT 参数
CMCQRD（剑桥多选阅读题）：504 道四选一题，覆盖 B1-C2 四个 CEFR 水平，针对英语二语学习者，有人类响应分布

实验关键数据¶

主实验：响应分布相似性（KL 散度）¶

模型族	规模	NAEP 阅读	NAEP 历史	CMCQRD B1
Llama 3	8B	中-高	高	中
Llama 3	70B	中	中-高	低
Qwen 2.5	72B	中	中-高	低
OracleBaseline	—	参考	参考	参考

模型越大，KL 散度越低（响应越接近人类），但仅极少数大模型在 CMCQRD B1 上显著超越 OracleBaseline（一个仅正确选项概率高、干扰项等概率的简单基线）。

消融实验：CTT 相关性分析¶

领域	年级/水平	最高相关	最低相关	显著比例
CMCQRD B1 (阅读)	B1	0.56	0.32	高
NAEP 阅读	8年级	~0.4	~0.2	中
NAEP 历史	8年级	~0.3	~0.1	低
NAEP 经济	12年级	~0.2	~0.1	极低

阅读理解的相关性最高（LLM 最"类人"），历史和经济学则很低，甚至出现显著负相关（LLM 在难题上反而更自信）。

关键发现¶

LLM 不容易被干扰项"欺骗"——它们擅长识别正确答案，但完全不能预测哪些错误选项对人类有吸引力。温度缩放无法解决这一根本问题
所有模型族和大小的结果高度一致，说明"类人性"不是通过模型缩放能解决的
学科间差异显著——阅读理解最类人，历史/经济学最不类人。可能原因：(1) 阅读理解更依赖文本理解能力（LLM 相对擅长），而非长期记忆提取（历史/经济学需要的知识性信息）；(2) 历史/经济学题目更常包含图片，纯文本 LLM 无法完全理解
4 年级历史的某些 IRT 量表上出现显著负相关——LLM 在难题上反而更自信，完全违反心理测量学预期

亮点与洞察¶

首次从 CTT+IRT 双框架系统评估 LLM 作为"虚拟受试者"的心理测量学合理性，方法论贡献突出
"LLM 不容易被干扰项欺骗"这一发现具有深层含义——说明 LLM 的"错误"与人类的"错误"由不同机制驱动，LLM 的出错不是因为被表面特征误导
学科间差异的发现为理解 LLM 的认知特征提供了线索——LLM 的阅读理解更接近人类，而知识性推理与人类差异更大
实验设计严谨——18 个模型 × 2 数据集 × 3 学科的大规模系统评估，且所有代码和数据公开

局限与展望¶

仅评估零样本场景，微调（如在人类响应分布上微调）可能显著改善心理测量学合理性
NAEP 数据包含图片题目（用 alt text 替代），可能影响了历史/经济学的结果
仅使用公开聚合数据，缺乏个体受试者级别的数据做更精细分析
温度缩放是在评估数据上优化的（上界估计），实际应用需要独立校准集
未探讨多模态 LLM 是否能在含图像的题目上表现更类人

评分¶

新颖性: ⭐⭐⭐⭐ 从心理测量学角度评估 LLM 是新颖且有价值的跨学科研究
实验充分度: ⭐⭐⭐⭐⭐ 18 个模型 × 2 数据集 × 3 学科 × 3 评估维度（KL/CTT/IRT），极为系统
写作质量: ⭐⭐⭐⭐ 心理测量学概念解释清晰，对 NLP 读者友好
价值: ⭐⭐⭐⭐ 为教育 AI 领域提供了重要的否定结论——零样本 LLM 不能替代人类预试验，标定了当前能力边界