Can LLMs Estimate Cognitive Complexity of Reading Comprehension Items?¶
会议: ACL2026
arXiv: 2510.25064
代码: https://github.com/SeonjeongHwang/ReCo
领域: NLP理解 / 教育测评 / LLM评测
关键词: 阅读理解难度、认知复杂度、证据范围、转换层级、元认知分析
一句话总结¶
这篇论文构建 ReCo 阅读理解认知复杂度数据集,并系统评估 8 个 LLM 是否能自动判断题目所需的证据范围和表述转换层级,结果显示强模型能接近但仍明显低于专家,尤其不擅长识别完整证据集合和细粒度词序转换。
研究背景与动机¶
领域现状:阅读理解题目的难度通常依赖学生作答后的 CTT/IRT 统计,或者由专家在出题阶段人工估计;NLP 侧也会抽取句长、词汇熟悉度、选项相似度等文本特征来解释难度。
现有痛点:这些方法要么发生在考试之后,要么只看表层语言特征。真正影响学习者负担的因素往往出现在答题推理过程中,例如需要跨几句话找证据、选项和原文之间是否只是词面匹配还是需要推断,这类认知特征过去主要依赖人工标注。
核心矛盾:LLM 已经具备很强的阅读理解能力,但“能答对”不等于“能解释题目为什么难”。如果模型能自动估计认知复杂度,它可以帮助出题前难度分析;如果不能,则说明 LLM 的推理能力和元认知意识之间仍有缺口。
本文目标:作者围绕两个认知维度展开:Evidence Scope 衡量判断答案需要引用多少文本证据,Transformation Level 衡量题干陈述和原文证据之间的语言转换程度。核心问题是:LLM 能否像专家一样给阅读理解题打上这些认知标签?
切入角度:论文不直接让 LLM 预测总体难度,而是把难度拆成可解释的认知因素,并用专家标注的数据集做分类评测。这比直接预测“难/中/易”更能看出模型到底理解了哪些推理负担。
核心 idea:用 LLM 自动估计阅读理解题的认知复杂度,同时把主任务拆成细粒度子任务,检验模型的答题能力和对自身证据/转换过程的识别能力是否一致。
方法详解¶
论文的“方法”不是提出新模型,而是提出一个数据集与评测协议。作者先从真实考试阅读理解题构造 TFNG 形式的 ReCo,再定义两个认知复杂度标签,最后用多种 prompting 策略评估不同 LLM 的分类能力和错误模式。
整体框架¶
输入是一篇阅读文章、一个陈述句以及该陈述的事实标签。模型需要输出两个维度之一的认知复杂度标签:证据范围任务要求判断证据是单句、多句还是不足;转换层级任务要求判断陈述与证据之间是词面匹配、改写、词序变化还是推断。输出结果与专家标注比较,主指标为 Macro F1。
关键设计¶
-
ReCo 数据集构造:
- 功能:把 RACE++ 中的多选 True/False 题拆成可标注的 TFNG 阅读理解样本。
- 核心思路:每个 MTF 题包含 passage 和 4 个选项,作者将其拆为
(passage, statement, factuality)三元组;对 False 样本,专家还写出最小修改后的 True 陈述,以便标注转换层级。 - 设计动机:TFNG 题天然覆盖从直接匹配到多句整合、从原文可证到证据不足的多种认知负担,适合观察阅读理解题为什么难。
-
双维度认知标签:
- 功能:把阅读理解复杂度拆成 Evidence Scope 和 Transformation Level 两个可操作标签。
- 核心思路:Evidence Scope 分为 single-sentence evidence、multi-sentence evidence、insufficient evidence;Transformation Level 在单句证据上用 5 级标签,即 word matching、transformed word matching、paraphrasing、transformed paraphrasing、inference,在多句场景中简化为 word matching、paraphrasing、inference。
- 设计动机:证据跨度对应需要读多少文本,转换层级对应从证据到答案要做多少语言/语义变换,这两个因素比句长等表层特征更贴近答题过程。
-
LLM 评测与细粒度诊断:
- 功能:评估模型能否给出主任务标签,并进一步分析失败来自哪里。
- 核心思路:作者测试 Gemma2、Mistral、Qwen2.5、GPT-4o 系列,在 standard prompting、CoT、CoT self-consistency 下做 zero/one/few-shot 分类;之后把任务拆成 falsifiability、evidence sentence counting、inference detection、paraphrasing detection、phrase reordering detection 等子任务。
- 设计动机:如果只看主任务 F1,很难判断模型是读不懂文章,还是答对了但无法准确复盘自己用了哪些证据。子任务能揭示 LLM 的元认知短板。
损失函数或训练策略¶
本文没有训练新模型,主要使用推理时提示策略。标准提示直接要求输出标签;CoT 提示要求先逐步分析再预测;self-consistency 在 CoT 条件下采样 10 次,使用 top-\(k=20\)、top-\(p=0.8\)、temperature \(0.7\),再按优先规则聚合答案。为避免简单样本抬高分数,作者还排除 GPT-4o 用 zero-shot CoT 可直接正确分类的过易样本。
实验关键数据¶
主实验¶
| 任务 | 最佳模型 / 设置 | 最佳 Macro F1 | 人类专家 | 关键结论 |
|---|---|---|---|---|
| 阅读理解事实判断 | GPT-4o CoT 1-shot | 84.4 | 未作为主对比 | 多数强模型能答题,说明认知标签错误不主要来自基础阅读失败 |
| Evidence Scope | GPT-4o CoT 1-shot | 74.8 | 87.0 | 模型能近似证据范围,但离专家仍有约 12 F1 差距 |
| Transformation Level 3级 | Mistral-24B CoT-SC zero-shot | 82.0 | 84.9 | 开源模型可接近专家,3级标签相对可学 |
| Transformation Level 5级 | GPT-4o CoT zero-shot | 61.3 | 83.0 | 细分词序重排后性能大幅下降 |
| ReCo 统计 | 数量 |
|---|---|
| Test passages | 151 |
| Test statements | 498,含 revised true 后为 671 |
| Demonstration passages | 83 |
| Demonstration statements | 278,含 revised true 后为 371 |
| Evidence Scope 分布 | single 388 / multi 243 / insufficient 145 |
| 3级 Transformation 分布 | word matching 123 / paraphrasing 189 / inference 319 |
消融实验¶
| 分析项 | 结果 | 说明 |
|---|---|---|
| 5级 vs 3级 TL | 3级最高 82.0,5级最高 61.3 | 词序重排和改写组合是最难被稳定识别的细粒度维度 |
| Evidence sentence selection | GPT-4o precision 88.8 / recall 79.2 / F1 80.0 | 模型偏向少选证据句,precision 高但 recall 低 |
| Deep reasoning mode | Qwen3-32B thinking mode 低于非 thinking | 更长推理并不等于更好的认知复杂度分类 |
| Prompting | one-shot/few-shot 不总是更好 | 大模型在少样本演示下有时反而退化,说明标签边界不只是示例覆盖问题 |
关键发现¶
- LLM 的阅读理解能力和认知复杂度估计能力并不同步:模型可以答对题,却说不清自己到底引用了哪些证据或进行了何种表述转换。
- Evidence Scope 的主要瓶颈是证据句数量识别,模型倾向于只选一两句显眼证据,忽略人类标注中必要但细微的句子。
- Transformation Level 的主要瓶颈是 phrase reordering,模型常把 transformed word matching 当成普通 word matching,也会混淆 paraphrasing 和 transformed paraphrasing。
亮点与洞察¶
- 论文把“题目难度”拆成更可解释的认知标签,而不是让 LLM 直接给一个粗粒度难度分数;这让评测结果可以落到出题、改题和教学诊断的具体环节。
- ReCo 的设计很巧:TFNG 题能自然产生证据不足、多句整合和表述转换三类难点,比普通抽取式 QA 更适合分析阅读理解的认知负担。
- 最有启发的结果是“推理强”不等于“元认知强”。Qwen3 thinking mode 的退化说明,分类人类认知过程可能更依赖细粒度模式识别,而不是更长的抽象推理链。
局限与展望¶
- 数据来自 RACE++ 英语考试题,任务格式集中在 TFNG,结论能否迁移到开放问答、主旨题、作者意图题或其他语言仍需要验证。
- 标注只保留至少两位专家一致的样本,提升了可靠性,但也可能过滤掉真实考试中最有争议、最能体现难度边界的题目。
- 评测主要依赖提示工程,没有训练专门的认知复杂度模型;未来可以尝试用 ReCo 微调小模型,或把证据句检索和转换分类拆成显式多阶段系统。
- Transformation Level 的 5 级标签对模型很难,后续可考虑引入对齐式证据标注、句法重排检测器或可视化解释,让模型先定位原文片段再分类。
相关工作与启发¶
- vs 传统 IRT/CTT 难度估计: IRT/CTT 依赖学生作答后的统计,本文在出题前基于题目文本和认知标签估计复杂度,优势是可解释和可预分析,劣势是不能直接替代真实学生表现。
- vs 表层文本特征难度预测: 句长、词频、语义相似度易自动抽取,但解释不了跨句证据和推断负担;本文的证据范围与转换层级更贴近答题过程。
- vs LLM 直接难度评分: 直接问 LLM “这题难不难”容易得到黑箱判断;本文要求模型给出可核验的认知标签,更适合发现模型在元认知上的具体失误。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把 LLM 难度估计落到教育心理学认知维度上,问题设定清晰且有数据集贡献。
- 实验充分度: ⭐⭐⭐⭐☆ 模型、prompt、子任务和错误分析都比较完整,但任务来源和语言范围仍偏窄。
- 写作质量: ⭐⭐⭐⭐☆ 结构清楚,标签定义和分析逻辑扎实,部分表格信息密集但结论明确。
- 价值: ⭐⭐⭐⭐☆ 对自动出题、阅读理解测评和 LLM 元认知研究都有直接启发。