Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction¶

会议: ACL 2025
arXiv: 2501.13125
代码: GitHub
领域: 其他
关键词: 干扰项生成, 多选题, DPO, 学生选择预测, 教育评估

一句话总结¶

本文提出了一个通过成对排序器预测学生选择倾向、再利用DPO训练干扰项生成器的三步流水线，使生成的多选题干扰项更具有迷惑性和区分度。

领域现状: 多选题（MCQ）是教育中重要的评估工具，其中干扰项（错误选项）的质量直接决定了测试的有效性。自动化干扰项生成已成为研究热点，但现有方法主要关注生成与人工编写相似的干扰项，忽视了提升迷惑性。

现有痛点: 先前工作生成的干扰项往往过于简单，学生一眼即可排除，无法有效评估学生的真实理解水平，降低了MCQ的教育价值和区分度。

核心矛盾: 生成可信的干扰项需要理解学生常见的误解和知识盲区，这种"学生心智模型"难以直接编码到生成模型中。

本文目标: 训练一个能生成高迷惑性干扰项的模型，使其产出的干扰项更可能被学生选择，从而提高MCQ的区分指数（DI）。

切入角度: 利用真实学生答题数据中的选择率信息，先训练一个能推断学生误解并排序干扰项可信度的模型，再用排序结果通过DPO训练生成器。

核心 idea: 用成对排序器学习学生的选择偏好模式，构造偏好数据集驱动DPO训练，使干扰项生成器能"投其所误"地生成更具迷惑性的选项。

三步训练流水线：Step 1 训练成对排序器（预测哪个干扰项更可能被选）→ Step 2 构建学生选择数据集（对干扰项排序）→ Step 3 用DPO训练干扰项生成器。

成对排序器（Pairwise Ranker）
- 功能：给定题目、正确答案和两个干扰项，判断哪个更可能被学生选择
- 核心思路：模型先生成推理过程（分析学生可能的误解），再输出选择结果。用GPT-4o生成推理训练数据进行SFT，再用DPO纠正推理错误
- 设计动机：通过结构化推理增强可解释性和准确性，推理过程揭示了学生误解的具体原因
学生选择数据集构建
- 功能：为每道题目的所有干扰项建立可信度排序
- 核心思路：用GPT-4o为每题生成新干扰项，与原始干扰项一起用排序器评分排序。原始干扰项间保留基于真实选择率的排序
- 设计动机：扩充干扰项候选池并建立偏好对，为DPO提供chosen/rejected样本
干扰项生成器训练（SFT + DPO）
- 功能：生成高迷惑性的干扰项
- 核心思路：SFT阶段学习基本生成能力（包括先判断题目类型），DPO阶段用top-n vs bottom-n干扰项构建偏好对，引导模型偏向生成更可信的干扰项
- 设计动机：题目类型判断（正确/错误陈述题）对生成有效性至关重要，DPO比SFT更好地优化了迷惑性

排序器	Python准确率	DB准确率	MLDL准确率	平均准确率
GPT-3.5 (Reasoning)	0.633	0.523	0.606	0.587
GPT-4o (Reasoning)	0.686	0.664	0.570	0.640
Ours (DPO, Comb.)	0.712	0.659	0.655	0.675
人类专家	-	-	-	0.717