SciMDR: Advancing Scientific Multimodal Document Reasoning¶
会议: ACL2026
arXiv: 2603.12249
代码: 未找到公开代码链接
领域: 多模态VLM / 科学文档理解
关键词: 科学文档推理、多模态QA、数据合成、长文档理解、证据定位
一句话总结¶
SciMDR 提出 synthesize-and-reground 数据构造框架,先在原子 claim 上合成可信 QA 与推理链,再把它们重嵌入完整科学论文中训练模型,使 7B VLM 在科学多模态文档推理上接近 GPT-5 系列表现。
研究背景与动机¶
领域现状:科学文档理解正在从摘要级 QA、图表 QA 走向完整论文级推理。真实科研问题往往需要同时读正文、图、表、caption 和实验描述,并在长文档中定位证据。
现有痛点:高质量科学 QA 数据存在三角矛盾:人工标注质量高但规模小;从图表或片段构造数据更可信但不真实;直接从完整文档生成问题更接近真实使用,但长上下文会稀释注意力并增加幻觉,导致答案和推理链不可靠。
核心矛盾:训练科学助手既需要 faithful 的监督信号,又需要 realistic 的完整文档任务。只用短片段训练,模型学不到在整篇论文中找证据;直接用整篇论文合成,又难以保证标注正确。
本文目标:构建一个大规模训练集 SciMDR 和一个专家标注评测集 SciMDR-Eval,让模型学习在完整科学文档中定位证据、连接文字与视觉元素、执行多步科学推理,并验证合成数据是否真正提升科学 QA 能力。
切入角度:作者把“生成可信 QA”和“构造真实训练任务”解耦。第一阶段只在小而可验证的原子上下文中生成 QA 和 CoT;第二阶段利用 claim 中记录的证据位置,把 QA 重嵌入完整文档,并给出信息定位步骤。
核心 idea:先把答案和证据锁定在原子 claim 上,再把同一监督信号放回完整论文环境,让模型在高噪声长上下文中学习“先找证据、再推理、最后回答”。
方法详解¶
SciMDR 的方法重点不是提出新模型结构,而是提出一种面向科学多模态文档的训练数据生成范式。它把科学论文解析成文本、章节、图表与 caption,围绕 claim 生成 VQA/TQA/MQA 三类 QA,再通过 document-scale regrounding 把这些 QA 变成完整文档训练样本。
整体框架¶
输入是 arXiv CoRR 与 Nature Communications 中筛选后的科学论文 PDF,经过 MinerU2.5 OCR 提取正文、章节、图、表和 caption,并序列化为 JSON。之后 GPT-5.1 先判断论文是否是原创实验研究,过滤 survey、position paper、tutorial 和纯概念文章。最终训练数据覆盖约 20K 篇论文、300K 条 QA;评测集来自 300 篇 arXiv 论文,由 3 名 CS 研究生人工构造 907 条高质量 QA。
框架包含两个阶段。Claim-Centric QA Synthesis 负责在小上下文中生成可信数据;Document-Scale Regrounding 负责把这些数据变成完整论文级训练任务。训练格式最终是 (Full Document Context, Question) -> (Information Localization + Reasoning + Final Answer)。
关键设计¶
-
Claim-Centric QA Synthesis:
- 功能:在小而可验证的上下文中生成可信 QA、答案和推理链。
- 核心思路:每个多模态 context unit 包含一段文本、相关图表和 caption。系统先识别文本中引用视觉元素的句子,再暂时隐藏视觉信息,让 LLM 从文本中拆出离散 declarative claims。随后再把视觉信息放回,用 cross-modal grounding 判断 claim 是否有视觉对应物,并据此路由到 VQA、TQA 或 MQA。
- 设计动机:直接让 LLM 从整篇论文开放式生成 QA 风险很高。claim 先给出“答案蓝图”,把推理链生成从开放推断变成“解释为什么该答案成立”,从而降低幻觉和证据错配。
-
Backward Reasoning Chain Construction:
- 功能:为每个 QA 生成可模仿、可验证的推理链。
- 核心思路:作者把 claim 当作 ground-truth conclusion,让模型围绕已知结论构造从问题到证据再到答案的推理过程。也就是说,LLM 不需要自己发现答案,而是要把问题、证据和 claim 逻辑串起来。
- 设计动机:科学 QA 的难点在于 evidence retrieval 与 open-ended inference。反向构造把这两个难点部分外包给 claim 抽取和定位,得到更稳定的 CoT 监督。
-
Document-Scale Regrounding:
- 功能:把原子 QA 变成完整文档中的真实训练样本。
- 核心思路:每个 QA 绑定的 claim 记录了文本和视觉证据位置,因此系统能自动生成 Information Localization 步骤,例如“先查看 Section X,再交叉引用 Table Y”。这些定位语句被 prepend 到合成推理链前,并与完整论文上下文一起作为训练样本。
- 设计动机:真实用户不会先帮模型截取相关段落。重嵌入让任务保持长文档噪声,同时答案链仍然由精确证据支持,解决了短上下文 faithful 但不 realistic 的问题。
损失函数 / 训练策略¶
论文采用监督微调而非新损失函数。主实验以 Qwen2.5-VL-7B 为 base model,分两阶段训练:Stage 1 用 VQA 与 TQA 数据训练 1 epoch,peak learning rate 为 \(1\times10^{-5}\),batch size 64;Stage 2 继续用 MQA 数据训练 1 epoch,learning rate 为 \(1\times10^{-6}\)。微调时冻结视觉编码器和 projector,只训练语言模型。SPIQA baseline 也用相同 base model 复现,以隔离数据质量差异。
实验关键数据¶
主实验¶
主表展示了 SciMDR 训练对 Qwen2.5-VL-7B 的提升。虽然表格中论文 PDF 的数据集名被渲染污染,但最后一列对应作者构造的 SciMDR-Eval;+ SciMDR 是使用本文 300K 数据微调后的模型。
| 模型 | ChartQA | CharXiv-D | CharXiv-R | SPIQA-A | SPIQA-B | SPIQA-C | SciMDR-Eval |
|---|---|---|---|---|---|---|---|
| GPT-5.1 | - | 90.9 | 58.3 | 79.4 | 79.8 | 71.6 | 47.2 |
| GPT-5.2 | - | 95.2 | 73.1 | 79.9 | 75.4 | 74.0 | 49.9 |
| Qwen-3-VL-8B | 87.4 | 74.2 | 40.1 | 73.2 | 64.0 | 62.3 | 34.2 |
| Qwen2.5-VL-7B | 84.6 | 65.0 | 37.7 | 66.4 | 56.6 | 48.9 | 19.8 |
| Qwen2.5-VL-7B + SPIQA | 81.8 | 50.9 | 33.3 | 62.7 | 44.7 | 40.0 | 5.6 |
| Qwen2.5-VL-7B + SciMDR | 86.3 | 75.6 | 37.9 | 68.6 | 58.8 | 47.3 | 49.1 |
与 proprietary model 的直接比较说明 SciMDR-Eval 难度较高,也说明 7B 专用训练能显著缩小差距。
| 模型 | SciMDR-Eval |
|---|---|
| GPT-5.2 | 49.9 |
| GPT-5.1 | 47.2 |
| GPT-4o | 24.7 |
| Qwen2.5-VL-7B | 19.8 |
| Qwen2.5-VL-7B + SciMDR | 49.1 |
消融实验¶
论文的关键分析用 LLaVA-1.5-7B 做数据质量 probe。作者在同样 50K 样本规模下比较原始 SPIQA、SciMDR VQA,以及用本文 claim-centric pipeline 重新标注的 SPIQA。正文报告重新标注 SPIQA 从 35.7 提升到 39.8,并且输出在 CharXiv 上平均长度约为原始数据的 5 倍,说明收益来自推理链质量而不仅是数据来源。
| 配置 | 关键结果 | 说明 |
|---|---|---|
| Qwen2.5-VL-7B base | SciMDR-Eval 19.8 | 通用 VLM 难以处理完整科学论文推理 |
| + SPIQA 数据 | SciMDR-Eval 5.6 | 短上下文合成数据迁移到完整文档反而退化 |
| + SciMDR 数据 | SciMDR-Eval 49.1 | 信息定位 + 推理链显著提升真实文档 QA |
| SPIQA 重新标注 | 39.8 vs 原始 35.7 | 同源文档下,claim-centric 标注质量更好 |
关键发现¶
+ SciMDR对 SciMDR-Eval 的提升最大,从 19.8 到 49.1,增加 29.3 分,几乎追平 GPT-5.2 的 49.9。+ SPIQA在多数指标上下降,尤其 SciMDR-Eval 从 19.8 降到 5.6,说明现有短上下文合成数据并不能自然教会模型在完整论文中找证据。- 在 CharXiv-D 上,SciMDR 从 65.0 提升到 75.6,说明 claim-centric 数据不仅服务于自建评测集,也能迁移到图表型科学 QA。
- SPIQA-C 上略降 1.6,提示专门训练完整文档定位可能牺牲部分原有子任务表现,或者评测集间技能分布存在差异。
亮点与洞察¶
- 论文最核心的洞察是把数据合成的两个目标拆开:faithfulness 在小上下文里保证,realism 在完整文档里恢复。这个拆法比“直接长文档生成”更稳,也比“只做片段 QA”更贴近应用。
- claim 作为中间表示非常有用。它既是 QA 生成的答案蓝图,又是重嵌入阶段的信息定位地图,相当于把“标注质量控制”和“训练任务构造”接在了一起。
- Information Localization 监督是科学文档助手训练中容易被忽略的一步。很多数据只给最终答案和 CoT,但 SciMDR 明确让模型先说应该查哪个 section/table/figure,这更接近真实科研阅读。
- 结果也提醒我们,数据规模不等于数据有效。SPIQA 这样的合成数据在不匹配任务形态时可能损害模型,专门面向完整文档的训练格式才是关键。
局限与展望¶
- 作者承认训练数据质量受 GPT-5.1 这个 proprietary teacher 限制。即使用原子 claim 降低幻觉,teacher 在冷门科学领域的细微错误仍可能被硬编码进学生模型。
- 实验主要集中在 STEM,尤其是计算机科学和自然科学。人文、社会科学等领域的论证结构、证据形式和语言风格不同,SciMDR 的 pipeline 是否适用尚未验证。
- 数据构造高度依赖 OCR、图表解析和章节结构抽取。MinerU2.5 的解析错误可能影响 claim、证据位置和重嵌入质量,论文没有系统量化这部分误差传播。
- SciMDR-Eval 使用 LLM judge 评分开放式回答,虽然合理,但仍可能引入 judge 偏差。后续可以增加人工复核、事实一致性检查和跨 judge 稳定性分析。
相关工作与启发¶
- vs ChartQA / CharXiv: 这些基准强调图表或科学图像理解,SciMDR 强调完整论文中的图文证据定位与推理,更接近科研助手场景。
- vs SPIQA: SPIQA 是近期科学论文 QA 数据,但其合成方式更偏短上下文。SciMDR 的结果表明,如果训练目标是完整文档推理,就必须显式加入 full-document regrounding。
- vs 人工标注科学 QA: ExpertQA、QASPER 等人工标注质量高但规模有限。SciMDR 用 claim-centric 合成扩展到 300K QA,同时用 907 条人工评测集验证效果。
- 启发: 对医学文档、法律文档、专利文档等长多模态材料,也可以沿用“原子可信标注 + 文档级重嵌入”的构造范式。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 核心不是新模型,而是非常实用的数据构造范式;claim 同时承担答案蓝图和证据地图的设计很巧。
- 实验充分度: ⭐⭐⭐⭐☆ 主结果、proprietary model 对比和数据质量分析较强,但 OCR 误差和 judge 稳定性分析不足。
- 写作质量: ⭐⭐⭐⭐☆ 逻辑线清晰,faithfulness-realism dilemma 讲得好;PDF 文本中数据集名渲染污染较严重,但不影响主要理解。
- 价值: ⭐⭐⭐⭐⭐ 对科学文档 VLM 训练很有启发,尤其适合构建能读完整论文的科研助手。