跳转至

Automatic Generation of Inference Making Questions for Reading Comprehension Assessments

会议: ACL 2025
arXiv: 2506.08260
代码: https://github.com/maafiah/InferenceQuestionsAQG
领域: NLP理解 / 教育NLP
关键词: 阅读理解, 推理题生成, 桥接推理分类法, GPT-4o, 诊断性评估

一句话总结

开发了一套阅读理解推理题分类法(代词桥接/文本连接/填补空白),用 GPT-4o few-shot 提示自动生成针对特定推理类型的多项选择题;93.8% 的题目质量合格,但仅 42.6% 准确匹配目标推理类型,说明 LLM 在精确推理能力控制上仍有不足。

研究背景与动机

领域现状:推理能力是阅读理解的核心但复杂的技能。诊断性 RC 评估需要针对特定推理类型的题目,以帮助教育者提供有针对性的阅读干预。现有 LLM 题目生成研究主要将阅读理解视为单一构念,未区分推理类型。

现有痛点:(a) 人工编写推理题成本高、难以规模化;(b) 现有自动题目生成研究关注整体质量但未控制推理类型;(c) 缺乏系统的阅读理解推理题分类法来指导生成。

核心矛盾:LLM 能生成高质量 RC 题目,但能否生成特定推理类型的题目?推理类型的精确控制是从"能用"到"诊断性评估可用"的关键差距。

本文目标 (a) 建立桥接推理题分类法;(b) 验证 GPT-4o 能否在 few-shot 提示下生成特定推理类型的 RC 题目;(c) 评估 CoT 提示是否有帮助。

切入角度:从阅读科学文献出发构建推理类型分类法,然后让 GPT-4o 针对每种类型分别生成题目,通过三位专家评估质量和类型准确性。

核心 idea:LLM 可以大规模生成高质量 RC 题目,但精准匹配推理类型仍需人工审查,"自动生成 + 人工判断"是可扩展的诊断性评估方案。

方法详解

整体框架

  1. 文献调研 → 构建桥接推理分类法(3 种类型)
  2. 在运营题库上标注验证分类法
  3. 手动编写训练示例题目(6 篇文章 × 每种类型 2-4 题)
  4. 用 GPT-4o few-shot 提示为 10 篇新文章生成题目
  5. 三位专家从三个维度评估生成题目

关键设计

  1. 桥接推理分类法:

    • 功能:将 RC 推理题分为三种桥接推理类型
    • 代词桥接 (Pronominal Bridging):用代词作为线索桥接句子间信息,如通过 "That" 指代前文的 "ships"
    • 文本连接 (Text-Connecting):通过名词短语连接两个明确陈述的文本成分,通常涉及因果关系
    • 填补空白 (Gap-Filling):需要读者运用文本外的常识知识填补未明确写出的细节
    • 设计动机:在 192 题运营题库中,桥接推理占 51%,是最重要的子构念;三种类型对应不同的认知技能
  2. Few-shot 提示生成:

    • 功能:为每种推理类型设计独立的 system prompt,包含类型定义 + 编写步骤 + 4 或 6 个示例
    • 四种条件对比:Standard_4, Standard_6, CoT_4, CoT_6
    • CoT 条件额外提供 "Text Hint"(文本中相关句子)和 "Reasoning"(推理过程解释)
    • 每个文章-类型组合生成 3 道题,温度设为 0,frequency_penalty=0.2
  3. 三维度专家评估:

    • General Item Quality:题目整体质量(正确答案是否正确、干扰项是否合理、是否适合 3-12 年级)
    • Inference-type Accuracy:生成题目是否匹配请求的推理类型
    • Reasoning Quality:CoT 条件下 LLM 给出的推理过程是否充分合理
    • 两轮标注:第一轮独立标注,第二轮对不一致项再审,最终 Fleiss' κ 达 0.57-0.83

实验关键数据

主实验

生成方法 题目数 质量合格率 推理类型匹配率 推理质量合格率
Standard_4 88 93.2% 40.9% -
Standard_6 89 95.5% 46.1% -
CoT_4 90 90.0% 41.1% 35.6%
CoT_6 90 96.7% 42.2% 38.9%
总计 357 93.8% 42.6% 37.2%

消融:各推理类型的生成难度 (Standard_6)

目标推理类型 匹配率 说明
Gap-Filling 60.0% 最容易正确生成
Pronominal Bridging 53.3% 中等
Text-Connecting 24.1% 最难,大量退化为 factual 题

关键发现

  • 质量高但类型不准:93.8% 的题目质量合格可用于实际评估,但仅 42.6% 匹配目标推理类型——高质量 ≠ 精确可控
  • 增加示例数(4→6)有效:6 篇示例时各指标都有提升
  • CoT 没有帮助:加入推理过程示例并未提升推理类型准确性(42.2% vs 46.1%),可能因为 LLM 本身推理能力不足(仅 38.9% 的推理过程被认为合理)
  • 34.8% 的生成题目退化为事实/字面题——LLM 倾向于生成不需要推理的简单题
  • 生成题目的推理类型分布与人工题库高度相似——即使单个题目不准,整体分布可用

亮点与洞察

  • 推理类型分类法有实用价值:在运营题库中验证(桥接推理占 51%),为题目开发和未来研究提供了路线图
  • 质量与可控性的分离:LLM 能生成高质量题目 ≠ 能精确控制题目属性,这是 NLP 教育应用中的关键洞察
  • "自动生成+人工审查"的务实路线:不追求全自动,而是用 LLM 大规模生成后人工筛选,比人工从头写效率高很多

局限与展望

  • 仅用 GPT-4o 一个模型,未测试其他推理能力更强的模型(如 o1、Claude)
  • 仅 10 篇说明文,未覆盖叙事文等其他体裁
  • CoT 无效可能因为训练示例太少(仅 12-18 个),更多示例可能改善
  • 未进行真实学生测试——题目的区分度、难度等心理测量指标未知
  • 可尝试先用 LLM 分类库存题目的推理类型,再作为更多训练示例
  • Text-Connecting 类型匹配率极低(24.1%),需要针对性的提示优化

相关工作与启发

  • vs 通用 QG 研究:以往 QG 研究将 RC 视为单一构念,本文首次系统地按推理类型生成,填补了空白
  • vs Säuberli & Clematide (2024):他们在 RC QG 中成功使用 CoT,但本文的推理类型控制任务更难,CoT 未见效
  • vs 多跳 QA:NLP 中的多跳推理与桥接推理有交叉,但教育评估场景有特殊要求(年级适当性、干扰项质量等)
  • 启发:LLM 在"理解什么是特定推理类型"上能力有限,未来可能需要结合结构化知识或特定微调

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统地将推理类型分类法应用于 LLM 题目生成,任务定义有价值
  • 实验充分度: ⭐⭐⭐ 严格的三位专家评估,但仅用一个模型和有限文本
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,分类法有理论基础,评估方法论完善
  • 价值: ⭐⭐⭐⭐ 对教育 NLP 领域有直接实用价值,"质量高但类型不准"的发现有重要意义