Automatic Generation of Inference Making Questions for Reading Comprehension Assessments¶

会议: ACL 2025
arXiv: 2506.08260
代码: https://github.com/maafiah/InferenceQuestionsAQG
领域: NLP理解 / 教育NLP
关键词: 阅读理解, 推理题生成, 桥接推理分类法, GPT-4o, 诊断性评估

一句话总结¶

开发了一套阅读理解推理题分类法（代词桥接/文本连接/填补空白），用 GPT-4o few-shot 提示自动生成针对特定推理类型的多项选择题；93.8% 的题目质量合格，但仅 42.6% 准确匹配目标推理类型，说明 LLM 在精确推理能力控制上仍有不足。

领域现状：推理能力是阅读理解的核心但复杂的技能。诊断性 RC 评估需要针对特定推理类型的题目，以帮助教育者提供有针对性的阅读干预。现有 LLM 题目生成研究主要将阅读理解视为单一构念，未区分推理类型。

现有痛点：(a) 人工编写推理题成本高、难以规模化；(b) 现有自动题目生成研究关注整体质量但未控制推理类型；(c) 缺乏系统的阅读理解推理题分类法来指导生成。

核心矛盾：LLM 能生成高质量 RC 题目，但能否生成特定推理类型的题目？推理类型的精确控制是从"能用"到"诊断性评估可用"的关键差距。

本文目标 (a) 建立桥接推理题分类法；(b) 验证 GPT-4o 能否在 few-shot 提示下生成特定推理类型的 RC 题目；(c) 评估 CoT 提示是否有帮助。

切入角度：从阅读科学文献出发构建推理类型分类法，然后让 GPT-4o 针对每种类型分别生成题目，通过三位专家评估质量和类型准确性。

核心 idea：LLM 可以大规模生成高质量 RC 题目，但精准匹配推理类型仍需人工审查，"自动生成 + 人工判断"是可扩展的诊断性评估方案。

桥接推理分类法:
- 功能：将 RC 推理题分为三种桥接推理类型
- 代词桥接 (Pronominal Bridging)：用代词作为线索桥接句子间信息，如通过 "That" 指代前文的 "ships"
- 文本连接 (Text-Connecting)：通过名词短语连接两个明确陈述的文本成分，通常涉及因果关系
- 填补空白 (Gap-Filling)：需要读者运用文本外的常识知识填补未明确写出的细节
- 设计动机：在 192 题运营题库中，桥接推理占 51%，是最重要的子构念；三种类型对应不同的认知技能
Few-shot 提示生成:
- 功能：为每种推理类型设计独立的 system prompt，包含类型定义 + 编写步骤 + 4 或 6 个示例
- 四种条件对比：Standard_4, Standard_6, CoT_4, CoT_6
- CoT 条件额外提供 "Text Hint"（文本中相关句子）和 "Reasoning"（推理过程解释）
- 每个文章-类型组合生成 3 道题，温度设为 0，frequency_penalty=0.2
三维度专家评估:
- General Item Quality：题目整体质量（正确答案是否正确、干扰项是否合理、是否适合 3-12 年级）
- Inference-type Accuracy：生成题目是否匹配请求的推理类型
- Reasoning Quality：CoT 条件下 LLM 给出的推理过程是否充分合理
- 两轮标注：第一轮独立标注，第二轮对不一致项再审，最终 Fleiss' κ 达 0.57-0.83

生成方法	题目数	质量合格率	推理类型匹配率	推理质量合格率
Standard_4	88	93.2%	40.9%	-
Standard_6	89	95.5%	46.1%	-
CoT_4	90	90.0%	41.1%	35.6%
CoT_6	90	96.7%	42.2%	38.9%
总计	357	93.8%	42.6%	37.2%

质量高但类型不准：93.8% 的题目质量合格可用于实际评估，但仅 42.6% 匹配目标推理类型——高质量 ≠ 精确可控
增加示例数（4→6）有效：6 篇示例时各指标都有提升
CoT 没有帮助：加入推理过程示例并未提升推理类型准确性（42.2% vs 46.1%），可能因为 LLM 本身推理能力不足（仅 38.9% 的推理过程被认为合理）
34.8% 的生成题目退化为事实/字面题——LLM 倾向于生成不需要推理的简单题
生成题目的推理类型分布与人工题库高度相似——即使单个题目不准，整体分布可用