Automatic Generation of Inference Making Questions for Reading Comprehension Assessments¶
会议: ACL 2025
arXiv: 2506.08260
代码: https://github.com/maafiah/InferenceQuestionsAQG
领域: NLP理解 / 教育NLP
关键词: 阅读理解, 推理题生成, 桥接推理分类法, GPT-4o, 诊断性评估
一句话总结¶
开发了一套阅读理解推理题分类法(代词桥接/文本连接/填补空白),用 GPT-4o few-shot 提示自动生成针对特定推理类型的多项选择题;93.8% 的题目质量合格,但仅 42.6% 准确匹配目标推理类型,说明 LLM 在精确推理能力控制上仍有不足。
研究背景与动机¶
领域现状:推理能力是阅读理解的核心但复杂的技能。诊断性 RC 评估需要针对特定推理类型的题目,以帮助教育者提供有针对性的阅读干预。现有 LLM 题目生成研究主要将阅读理解视为单一构念,未区分推理类型。
现有痛点:(a) 人工编写推理题成本高、难以规模化;(b) 现有自动题目生成研究关注整体质量但未控制推理类型;(c) 缺乏系统的阅读理解推理题分类法来指导生成。
核心矛盾:LLM 能生成高质量 RC 题目,但能否生成特定推理类型的题目?推理类型的精确控制是从"能用"到"诊断性评估可用"的关键差距。
本文目标 (a) 建立桥接推理题分类法;(b) 验证 GPT-4o 能否在 few-shot 提示下生成特定推理类型的 RC 题目;(c) 评估 CoT 提示是否有帮助。
切入角度:从阅读科学文献出发构建推理类型分类法,然后让 GPT-4o 针对每种类型分别生成题目,通过三位专家评估质量和类型准确性。
核心 idea:LLM 可以大规模生成高质量 RC 题目,但精准匹配推理类型仍需人工审查,"自动生成 + 人工判断"是可扩展的诊断性评估方案。
方法详解¶
整体框架¶
- 文献调研 → 构建桥接推理分类法(3 种类型)
- 在运营题库上标注验证分类法
- 手动编写训练示例题目(6 篇文章 × 每种类型 2-4 题)
- 用 GPT-4o few-shot 提示为 10 篇新文章生成题目
- 三位专家从三个维度评估生成题目
关键设计¶
-
桥接推理分类法:
- 功能:将 RC 推理题分为三种桥接推理类型
- 代词桥接 (Pronominal Bridging):用代词作为线索桥接句子间信息,如通过 "That" 指代前文的 "ships"
- 文本连接 (Text-Connecting):通过名词短语连接两个明确陈述的文本成分,通常涉及因果关系
- 填补空白 (Gap-Filling):需要读者运用文本外的常识知识填补未明确写出的细节
- 设计动机:在 192 题运营题库中,桥接推理占 51%,是最重要的子构念;三种类型对应不同的认知技能
-
Few-shot 提示生成:
- 功能:为每种推理类型设计独立的 system prompt,包含类型定义 + 编写步骤 + 4 或 6 个示例
- 四种条件对比:Standard_4, Standard_6, CoT_4, CoT_6
- CoT 条件额外提供 "Text Hint"(文本中相关句子)和 "Reasoning"(推理过程解释)
- 每个文章-类型组合生成 3 道题,温度设为 0,frequency_penalty=0.2
-
三维度专家评估:
- General Item Quality:题目整体质量(正确答案是否正确、干扰项是否合理、是否适合 3-12 年级)
- Inference-type Accuracy:生成题目是否匹配请求的推理类型
- Reasoning Quality:CoT 条件下 LLM 给出的推理过程是否充分合理
- 两轮标注:第一轮独立标注,第二轮对不一致项再审,最终 Fleiss' κ 达 0.57-0.83
实验关键数据¶
主实验¶
| 生成方法 | 题目数 | 质量合格率 | 推理类型匹配率 | 推理质量合格率 |
|---|---|---|---|---|
| Standard_4 | 88 | 93.2% | 40.9% | - |
| Standard_6 | 89 | 95.5% | 46.1% | - |
| CoT_4 | 90 | 90.0% | 41.1% | 35.6% |
| CoT_6 | 90 | 96.7% | 42.2% | 38.9% |
| 总计 | 357 | 93.8% | 42.6% | 37.2% |
消融:各推理类型的生成难度 (Standard_6)¶
| 目标推理类型 | 匹配率 | 说明 |
|---|---|---|
| Gap-Filling | 60.0% | 最容易正确生成 |
| Pronominal Bridging | 53.3% | 中等 |
| Text-Connecting | 24.1% | 最难,大量退化为 factual 题 |
关键发现¶
- 质量高但类型不准:93.8% 的题目质量合格可用于实际评估,但仅 42.6% 匹配目标推理类型——高质量 ≠ 精确可控
- 增加示例数(4→6)有效:6 篇示例时各指标都有提升
- CoT 没有帮助:加入推理过程示例并未提升推理类型准确性(42.2% vs 46.1%),可能因为 LLM 本身推理能力不足(仅 38.9% 的推理过程被认为合理)
- 34.8% 的生成题目退化为事实/字面题——LLM 倾向于生成不需要推理的简单题
- 生成题目的推理类型分布与人工题库高度相似——即使单个题目不准,整体分布可用
亮点与洞察¶
- 推理类型分类法有实用价值:在运营题库中验证(桥接推理占 51%),为题目开发和未来研究提供了路线图
- 质量与可控性的分离:LLM 能生成高质量题目 ≠ 能精确控制题目属性,这是 NLP 教育应用中的关键洞察
- "自动生成+人工审查"的务实路线:不追求全自动,而是用 LLM 大规模生成后人工筛选,比人工从头写效率高很多
局限与展望¶
- 仅用 GPT-4o 一个模型,未测试其他推理能力更强的模型(如 o1、Claude)
- 仅 10 篇说明文,未覆盖叙事文等其他体裁
- CoT 无效可能因为训练示例太少(仅 12-18 个),更多示例可能改善
- 未进行真实学生测试——题目的区分度、难度等心理测量指标未知
- 可尝试先用 LLM 分类库存题目的推理类型,再作为更多训练示例
- Text-Connecting 类型匹配率极低(24.1%),需要针对性的提示优化
相关工作与启发¶
- vs 通用 QG 研究:以往 QG 研究将 RC 视为单一构念,本文首次系统地按推理类型生成,填补了空白
- vs Säuberli & Clematide (2024):他们在 RC QG 中成功使用 CoT,但本文的推理类型控制任务更难,CoT 未见效
- vs 多跳 QA:NLP 中的多跳推理与桥接推理有交叉,但教育评估场景有特殊要求(年级适当性、干扰项质量等)
- 启发:LLM 在"理解什么是特定推理类型"上能力有限,未来可能需要结合结构化知识或特定微调
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统地将推理类型分类法应用于 LLM 题目生成,任务定义有价值
- 实验充分度: ⭐⭐⭐ 严格的三位专家评估,但仅用一个模型和有限文本
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,分类法有理论基础,评估方法论完善
- 价值: ⭐⭐⭐⭐ 对教育 NLP 领域有直接实用价值,"质量高但类型不准"的发现有重要意义