EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions¶
会议: ACL 2026
arXiv: 2602.00095
代码: 项目站点 + GitHub(论文给出 Project Website / GitHub Repository 链接)
领域: 多模态 VLM / 教育评测
关键词: STEM 手写理解、MLLM 评测、auto-grading、识别误差传播、human-in-the-loop
一句话总结¶
作者发布 1,334 条真实大学电路课手写作业的 EDU-CIRCUIT-HW 数据集,并提出"upstream 识别 + downstream 评分"双层评测协议,发现即便最强 MLLM(GPT-5.1 / Gemini-3-Preview)也有 37–85% 样本含识别错误,但仅 7–20% 会传播到评分;通过 LLM-judge 错误模式 + 仅 3.3% 人工兜底的 regrading 模块,可把 point-agreement 从 70 %提升到 76 %。
研究背景与动机¶
领域现状:把 MLLM 用作"自动批改助教"已成 AI 教育的新风口:先让 Gemini/GPT/Claude 识别手写作业,再让 LLM 按 rubric 打分(Kortemeyer 2024、Liu 2024、Yang 2025 等)。但绝大多数评测要么用 K-12 简单数学(DrawEduMath),要么只评孤立公式(CROHME、MathWriting),无法反映大学 STEM 那种"公式 + 推导 + 手画电路图"交织的复杂手写文本。
现有痛点:作者点出两个根本问题——(1) 数据稀缺:缺少"图文混杂 + 大学难度 + 真实学生书写"的 benchmark;(2) 评测范式错位:现有工作只看下游(多为粗粒度 binary 自动评分),导致 rubric 外的识别错误被"屏蔽",开发者会高估 MLLM 的视觉理解能力。例如图 1 中 ① ② 识别出错但因不在评分点而被掩盖。
核心矛盾:识别错误的"潜伏率"远高于"显化率"——一旦 rubric 收紧或要做电路→网表等下游任务,这些潜在错误就会爆雷;但传统的"只看 grading agreement"评测协议根本看不到它们。
本文目标:搭起"upstream 识别 fidelity + downstream grading"双指标体系,定量回答 (i) 识别错误有多少,(ii) 哪些类型最致命,(iii) 能否用错误模式做防御。
切入角度:分出 "observation set"(513 张专家逐字校核的解答,做训练/分析用)和 "test set"(821 张仅有 ground-truth 分数,做泛化部署模拟用)的双拆分;用 LLM-as-a-judge 把识别误差自动列项后再分类。
核心 idea:先用"专家逐字 transcription"作为 oracle 计算识别错误,再定义 Error Impact Rate (EIR) 把识别错误与评分错误一一对应,最后用"错误模式 → 低置信路由 → 人工兜底"的 regrading pipeline 把识别脆弱性变成可控成本。
方法详解¶
整体框架¶
整个 benchmark + 诊断链路如下:(1) 数据收集:2025 春季某美国研究型大学本科电路课,29 名学生、62 道教材题,共 1,334 份手写解答,分别由专家给出 5 维 rubric 分数(E / M / U / C / NC);observation set(11 学生、513 张)还额外提供专家逐字 markdown 转录与图示自然语言描述;test set(18 学生、821 张)只有 ground-truth 分数。(2) 识别评测:6 个 MLLM(Gemini-3-Pro-Preview、Gemini-2.5-Pro、GPT-5.1、Claude-4.5-Sonnet、Qwen3-VL-Plus/8B-Thinking)做识别,Gemini-2.5-Pro 当 LLM-judge 对照 oracle 列出 discrepant items;再用另一个 LLM 把每个 item 按四类(Symbolic & Character / Structural & Notational / Diagrammatic / Textual & Logical)打标。(3) 下游评分:固定 GPT-5.1 作 grader,给定 problem + reference + rubric,输出 5 类扣分;与专家报告比对得 Binary / Type / Point agreement。(4) 影响分析:定义 EIR = 引起评分差异的识别错误 / 总识别错误。(5) Regrading 案例:把 observation set 总结的错误模式注入 prompt,让 LLM 在 test set 上检测潜在识别错误并给出 high/low 置信;低置信样本走人工,其余 LLM regrade。
关键设计¶
-
双层评测协议(SER / AEC + EIR + Binary/Type/Point Agreement):
- 功能:把"识别"和"评分"两个原本被混在一起的能力解耦评估,并量化错误传播。
- 核心思路:识别端用 Sample Error Rate \(\text{SER}=\frac{\#\{s: \text{errors}(s)>0\}}{|S|}\) 和 Average Error Count \(\text{AEC}=\frac{1}{|S|}\sum_s \#\text{errors}(s)\);评分端用三级递进 Binary \(\to\) Type \(\to\) Point agreement,越严格越能暴露细粒度错误;二者通过 \(\text{EIR}=\frac{\text{识别错误中引起评分差异的数量}}{\text{识别错误总数}}\) 桥接。
- 设计动机:单靠 "auto-grading accuracy" 这种 task-centric 指标会让大量"沉默错误"逃逸;引入 EIR 后才能定量回答"识别能力差到什么程度才会真伤到下游",这是教育以外的所有 vision→reasoning pipeline 都缺的指标。
-
LLM-as-a-Judge 识别误差自动列项 + 四类 taxonomy:
- 功能:自动找出 MLLM 识别结果与专家转录之间的语义差异条目,并按"surface→deep"四级归类。
- 核心思路:把 oracle markdown 和待测 markdown 喂给 Gemini-2.5-Pro,要求列出所有 discrepant items(句/式级别);语义等价的小写法差异(如
KCL: out≡KCL: @ out)算对齐;随后再用 LLM 按 Symbolic & Character(字符/操作符/单位)、Structural & Notational(公式版面/变量一致性)、Diagrammatic(电路拓扑/标注误读)、Textual & Logical(语境/推导步骤)四类做归档。在 186 份样本、5000+ items 的人工验证中,sample-level accuracy ≥ 0.95、item-level F1 ≥ 0.90。 - 设计动机:手工标注每条 item 不可扩展;把 judge 任务定义为"列差异 + 分类"两步,配合 oracle 让 LLM 只做"对照检查"而非"开放评分",从而把幻觉误差压到最低;taxonomy 让后续 EIR 分类分析成为可能。
-
错误模式驱动的 human-in-the-loop Regrading 模块:
- 功能:用 observation set 总结的错误模式当作"风险特征"扫描 test set,把识别可疑样本拦截后再决定 LLM regrade 或人工兜底。
- 核心思路:从 observation set 抽出常见 confusion 模式(如 \(-V\to V\)、\(\frac{1/8}{1/8+1/16}\to \frac{8}{8+16}\)、KCL 节点错连等)并塞进 detector prompt;detector 在被首轮扣分的样本上扫描识别可疑项并打 high/low 置信;low 置信 → TA 手批,high 置信 → LLM 按 detector 报告 regrade;首轮无扣分的样本直接放过(因为识别错误主要造成 false-positive 扣分)。
- 设计动机:完全自动化在高利害教育场景不可接受;完全人工又太贵;本设计利用"识别错误模式可统计、人工成本可控"这一假设,把人工占比压到 ≤5% 同时把 point-agreement 拉到逼近"专家做 OCR"的天花板。
损失函数 / 训练策略¶
本工作没有模型训练,只是 prompt-only 评测 + LLM-judge pipeline。Grader 统一用 GPT-5.1;识别端覆盖 5 个商业模型 + 1 个开源 8B;regrading 中 detector / regrader / grader 也全部用 GPT-5.1 以排除模型异构干扰。LLM-judge 阈值上把"语义等价"判定交给同一模型并保留人工反向核查。
实验关键数据¶
主实验¶
observation set 上六个 MLLM 的识别质量与对下游 5 维 rubric 评分的影响(GPT-5.1 当 grader;Graduate 行为助教 baseline;Human Expert 行表示用专家转录当输入的 oracle grader):
| 识别器 | SER ↓ | AEC ↓ | Binary ↑ | Type ↑ | Point ↑ | EIR ↓ |
|---|---|---|---|---|---|---|
| Graduate(人工) | – | – | 83.63 | 82.46 | 81.29 | – |
| Human Expert(oracle) | – | – | 89.47 | 78.36 | 74.46 | – |
| Gemini-3-Preview | 37.62 | 0.61 | 87.91 | 78.17 | 74.27 | 7.60 |
| Gemini-2.5-Pro | 53.52 | 1.23 | 85.58 | 73.68 | 69.40 | 14.72 |
| Qwen3-VL-Plus | 61.72 | 1.38 | 80.90 | 68.62 | 65.11 | 16.67 |
| GPT-5.1 | 71.54 | 2.05 | 77.78 | 65.50 | 61.99 | 17.89 |
| Claude-4.5-Sonnet | 80.70 | 2.76 | 77.58 | 63.16 | 59.84 | 18.05 |
| Qwen3-VL-8B-Thinking | 85.43 | 2.79 | 75.05 | 61.01 | 56.92 | 19.60 |
要点:(1) 即便最强 Gemini-3-Preview 也有 37.6% 样本含识别错误,但 EIR 仅 7.6%,说明下游评分掩盖了大量识别错误;(2) 从 Gemini-3-Preview 到 Qwen3-VL-8B-Thinking,rubric 越严,性能差距越大(Binary 差 12.86%,Point 差 17.35%)——证实"rubric 收紧 → 识别错误显化"的核心论点;(3) MLLM 在 Binary 上能超过 graduate 助教,但在 Type / Point 上仍落后,说明 LLM 偏宽松,人类更精细。
消融实验 / Regrading 模块对比¶
test set 上分别用 vanilla pipeline 与 regrading 模块对比(agreement 越高越好;LLM/Human 列为 regrading 占比):
| Workflow | Visual Recognizer | Binary | Type | Point | LLM regrade | Human regrade |
|---|---|---|---|---|---|---|
| Vanilla | Gemini-2.5-Pro | 85.02 | 74.91 | 69.91 | – | – |
| Vanilla | GPT-5.1 | 82.34 | 72.23 | 66.87 | – | – |
| + Regrading | Gemini-2.5-Pro | 86.48 | 77.34 | 74.42 | 20.6% | 3.3% |
| + Regrading | GPT-5.1 | 86.60 | 78.93 | 75.76 | 25.1% | 4.4% |
要点:在 ≤5% 人工兜底下,Point agreement 从 ~70% 提升到 76%,接近"专家做识别"的上限 74.46%(甚至略超,是因为 detector 帮 grader 主动避坑)。
关键发现¶
- 识别错误最常见的是 Symbolic & Character,但其 EIR 也最高(≈20%),因为 grader 高度依赖符号匹配;Diagrammatic 与 Textual & Logical 错误虽然认知层级更高,但当前 rubric 几乎不 cover,EIR 反而 <10%——这是 auto-grading 一种"幸存者偏差"。
- 越细 rubric 越能区分模型:Binary→Type→Point 三档下,模型间差距从 ~13% 拉大到 ~17%,说明今后 AI 教育评测必须用 Point 级 rubric 才有诊断价值。
- 小模型在 diagram 上反而不差:Qwen3-VL-8B-Thinking 在 Diagrammatic 错误数 98 反优于 Gemini-2.5-Pro 的 103,反映了商业模型主要赢在文字推理而非图形理解。
- Regrading 不靠强 MLLM 也能提升:即便 Gemini-2.5-Pro 作识别器,单靠 detector + 3.3% 人工就把 Point 提升 +4.5%,证明"识别错误模式 + 人机协作"的 ROI 极高。
亮点与洞察¶
- 真正在'高利害'场景跑通的双层评测:先前手写理解评测多停在 OCR 数字上,本文把"识别 fidelity"重新定位为下游可靠性的瓶颈,并用 EIR 量化"沉默错误",这种"先解耦、再桥接"的评测哲学可以照搬到任何 perception→reasoning 流水线(医学影像→诊断、文档→合规判断等)。
- Observation/Test 双切分的数据设计:把"专家逐字校核"的成本压在 ~40% 数据上做诊断与模式学习,剩余 60% 数据靠分数 oracle 评测部署效果,是一种成本 / 信息密度平衡得很好的 benchmark 构造范式。
- LLM-as-a-Judge "列差异"模式:作者把 judge 任务定义为"差异点列举 + 分类"而非"打分",从源头限制了 LLM 的自由度,使 F1 稳定在 0.9 以上——这一点对所有想用 LLM 做大规模标注的工作都有借鉴价值。
- 错误模式 → 路由 → 兜底的三段式 deployment 框架:把"识别可靠性"问题转化为"可控人工比例"问题,给真正想部署 AI 批改的学校一份直接可抄的工程蓝图。
局限与展望¶
- 数据集只覆盖电路分析一门课,diagram 形态偏电路;几何 / 化学结构 / 流程图等仍未覆盖,因此结论对其他 STEM 学科推广需谨慎。
- 下游任务仅做 auto-grading;VQA、circuit-to-netlist、tutoring 等不同任务对识别错误的敏感度可能完全不同,EIR 数值也会变化。
- rubric 与 ground-truth 由少量博士专家给出,开放式 STEM 评分本身具有一定主观性,可能存在系统性偏差。
- Regrading 的 detector / regrader / grader 都用 GPT-5.1,可能存在"同一模型既出题又当裁判"的隐性循环,需在未来用异构模型验证。
- 未来可扩展到多学科、多下游任务,并加入"错误模式持续学习"模块,让 detector 随新错误进化。
相关工作与启发¶
- vs DrawEduMath (Baral 2025):他们做 K-12 数学手画图 VQA;本工作把场景升到大学 STEM、解答远更复杂,并明确提供 Point-level rubric。
- vs CROHME / MathWriting:只评孤立公式 OCR;本文评的是"公式 + 推导 + 图示"交织文本,覆盖识别失败的"长尾"。
- vs Pensieve Grader (Yang 2025)、GPT-4 grading (Liu 2024):他们做端到端评分;本文额外把识别层单独评测、并提供 EIR 解释下游误差来源,方法论更完备。
- vs HTR Correction (Pavlopoulos 2023、Chen 2023):他们做事后纠错;本文用"识别错误模式"做事前过滤 + 路由,工程上更轻、且天然适配 LLM-only 部署。
- 启发:任何"视觉感知 → 高阶推理"任务都可以照搬 SER/AEC/EIR + observation/test 双切分 + LLM-judge 列差异 + 错误模式路由这一整套;尤其在医学影像、法律 OCR、自动化合规审计等高利害场景里几乎可以即插即用。
评分¶
- 新颖性: ⭐⭐⭐⭐ 双层评测协议 + EIR + 错误模式路由的组合是新的;单项技术不算特别炫,但合起来切中真痛点。
- 实验充分度: ⭐⭐⭐⭐⭐ 6 个 MLLM × 4 类错误 × 3 档 rubric + 真实部署 case study,覆盖很全面。
- 写作质量: ⭐⭐⭐⭐ 论点—证据—对策三段推进清晰,图 1 + 表 5 + 表 6 是论文骨架;少量段落偏冗长。
- 价值: ⭐⭐⭐⭐⭐ 直接对应 AI 教育"批改可靠性"工业痛点,并提供可落地工程方案。