Ryze: Evidence-Enriched Data Synthesis from Biomedical Papers¶
会议: ACL2026
arXiv: 2606.00902
代码: https://github.com/Chivier/Ryze
领域: 医疗NLP
关键词: 生物医学VLM, 证据增强数据合成, 科学PDF理解, 图表感知OCR, GRPO
一句话总结¶
Ryze 将生物医学论文 PDF 自动转成保留图表、caption、结构化抽取和引用段落的证据增强 QA 数据,并用进度门控的 SFT+GRPO 训练 BioVLM-8B,在 LAB-Bench 上以 48.0% weighted accuracy 超过 Qwen3-VL-8B base 12.6 个百分点、超过 GPT-5.2 3.8 个百分点。
研究背景与动机¶
领域现状:通用 VLM 已经能处理日常图文任务,但科研论文理解不是普通图文问答。生物医学论文里的答案往往分散在多栏正文、图注、坐标轴、图例、多行表头和正文中对图表的解释里,模型需要把这些证据链同时读出来,才能回答实验设计、序列分析、protocol tracing 或文献综合问题。
现有痛点:领域 VLM 的瓶颈不只是模型规模,而是训练数据。专家标注的生物医学 QA 成本高、覆盖窄,直接复用 PubMedQA 或 MedQA 又会丢掉视觉和结构化证据;通用 OCR / Markdown 转换工具容易把基因名、化学式、图表数值和 figure/table 引用识别错,后续合成的 QA 会继承这些错误。
核心矛盾:科研问答需要“证据完整性”,而常见数据合成 pipeline 只保留局部文本或 figure-caption pair。缺少 referring prose、表格结构和图表 annotation 时,训练样本看似有答案,实则训练模型记浅层模式,不能学会跨元素的 evidence-grounded reasoning。
本文目标:作者想解决一个系统问题:给定一批开放获取的生物医学 PDF、一个 base VLM 和目标评测 benchmark,能否在不依赖人工标注的情况下,自动生成高质量领域 QA 数据,并把 Qwen3-VL-8B 这类 8B 级模型训练成可本地部署的 BioVLM。
切入角度:Ryze 的关键观察是,科学文档数据合成的最小单位不应是“文本片段”或“图片-caption”,而应是完整证据包:视觉元素、caption、抽取出的结构、正文中引用它的段落,以及经过术语修复和一致性检查后的上下文。
核心 idea:用证据增强的科学文档抽取与 QA 合成替代普通文本合成,再用 SFT 注入领域知识、用 GRPO 强化复杂证据推理。
方法详解¶
Ryze 是一个端到端 workflow,而不是单一模型结构。它从原始 PDF 出发,先做图表感知抽取和清洗,再基于完整证据包生成 QA,随后用进度门控策略决定何时从 SFT 切换到 GRPO,最后把评测暴露出的薄弱类别反馈回数据生成环节。
整体框架¶
输入包括一批生物医学论文 PDF、base VLM(论文中使用 Qwen3-VL-8B)和一个目标评测 benchmark(LAB-Bench)。Ryze 先将 PDF 切成文本块、figure、table 和 caption,并恢复正文里的 figure/table cross-reference;然后为每个问题检索关联证据,生成带完整 evidence 的 QA;接着按约 1M token 的增量反复合成、SFT、评测,当 SFT 提升停滞后切换到 GRPO;最后通过 benchmark category 的弱项诊断触发新一轮 paper 搜索和数据增强。
关键设计¶
-
图表感知抽取与三段式清洗:
- 功能:把科学 PDF 转成可靠的结构化 evidence store,避免 OCR 误读和跨元素关系断裂。
- 核心思路:Ryze 先用 Surya 做 layout detection,将页面分成文本、图、表、caption 等区域;文本区域转成保留章节结构的 Markdown;随后修复正文中的 “Table 1 / Figure 3” 等引用,把视觉元素和 caption、相关段落绑定起来;图和表由 GLM-OCR 做 chart/table-aware extraction,表格转成保留合并单元格和多行表头的 HTML;最后用 Qwen3 做 hallucination detection、领域术语修复和跨元素一致性检查。
- 设计动机:生物医学论文里一个错误的基因名或图表坐标会污染后续所有 QA。先保证抽取结果的结构和术语可信,数据合成才不会把 OCR 错误放大成模型知识。
-
证据增强 QA 合成:
- 功能:生成不依赖人工标注、但仍可追溯到原始论文证据的训练样本。
- 核心思路:问题种子来自两类来源:原始论文中的一般领域问题,以及从目标 benchmark 中抽象出的技能类别,例如 chart interpretation、protocol tracing、literature synthesis。Ryze 不复制 benchmark 问题和答案,而是用 Qwen3-VL-235B 对这些粗粒度技能进行重写和多样化,并把答案严格 grounding 到源 PDF corpus 中检索出的视觉元素、caption、OCR annotation、HTML 表格和 referring paragraphs。
- 设计动机:这种做法像 curriculum-aware active learning:benchmark 只告诉系统应覆盖什么能力,不给出具体题目或答案,从而在定向提升 LAB-Bench 相关能力的同时降低直接数据泄漏风险。
-
进度门控 SFT-to-GRPO 训练闭环:
- 功能:在数据合成成本和推理能力之间做自动切换,不盲目堆 SFT token。
- 核心思路:Ryze 每增加约 1M token 合成数据就训练一个 SFT checkpoint 并评测;当准确率连续停滞时,认为 SFT 已经饱和,冻结数据并转换成 RL 格式,用 GRPO 训练模型生成更连贯的 reasoning chain。SFT 阶段主要学习术语、常识和基础生物概念,GRPO 阶段强化复杂图表、文献和 protocol 推理。
- 设计动机:论文实验证明 SFT-only 已接近 GPT-5.2,但真正超过 GPT-5.2 的 +4.3pp 主要来自 GRPO,说明“先知道事实,再学会依据证据推理”比单纯增加合成样本更有效。
损失函数 / 训练策略¶
训练分为 LoRA SFT 和 GRPO 两段。SFT 在文本 QA 与视觉 QA batch 间交替,使模型同时吸收正文术语和图表证据。GRPO 不依赖单独 reward model,而是把已经累积的 evidence-enriched SFT 数据转换成可强化推理链的数据格式,重点提升需要跨图表、表格、caption 和正文推断的任务。所有训练配置使用相同 token budget:SFT 为 8,051,591 tokens,GRPO 为 1,584,412 tokens;实验硬件为 AMD EPYC 7313P CPU 和 4 张 NVIDIA RTX A6000 48GB。
实验关键数据¶
主实验¶
LAB-Bench 含 1,967 个样本、8 个生物学类别。BioVLM-8B 从 Qwen3-VL-8B 出发,在 weighted average 上达到 48.0%,相对 base 提升 +12.6pp,相对 GPT-5.2 提升 +3.8pp。
| 类别 | Qwen3-VL-8B | GPT-5.2 | BioVLM-8B (SFT only) | BioVLM-8B |
|---|---|---|---|---|
| Cloning | 24.2 | 36.4 | 34.5 | 38.4 |
| DbQA | 31.2 | 41.7 | 44.7 | 48.9 |
| FigQA | 24.7 | 36.5 | 31.8 | 35.2 |
| LitQA2 | 38.7 | 45.7 | 58.2 | 65.5 |
| ProtocolQA | 38.3 | 65.7 | 68.1 | 72.3 |
| SeqQA | 43.4 | 47.0 | 39.5 | 42.8 |
| SuppQA | 24.8 | 48.8 | 40.9 | 44.2 |
| TableQA | 34.0 | 36.9 | 40.3 | 45.6 |
| Weighted Avg | 35.4 | 44.2 | 43.7 | 48.0 |
消融实验¶
Ryze 同时验证了数据源、OCR pipeline 和跨模型泛化。下面保留最能说明机制的几组数字。
| 配置 | 关键指标 | 说明 |
|---|---|---|
| BioVLM-8B 完整模型 | 48.0 weighted accuracy | SFT 后再经 GRPO,是最终结果 |
| BioVLM-8B (SFT only) | 43.7 weighted accuracy | 已基本追平 GPT-5.2 的 44.2,但缺少最终推理增益 |
| PubMedQA SFT | 26.6 weighted accuracy | 同 token budget 下远低于证据增强数据 |
| MedQA SFT | 29.0 weighted accuracy | 说明现成 QA 数据不能替代科学文档 evidence package |
| Ours OCR pipeline | ChartQA 75.8 | 图表密集任务上明显优于通用 OCR |
| Without OCR / Marker / DeepSeek OCR | ChartQA 68.0 / 69.3 / 69.1 | 替换通用抽取会带来最高约 -7.8pp 下降 |
关键发现¶
- Ryze 的最大收益来自保留完整证据链:在 LitQA2、TableQA、DbQA 上分别比 GPT-5.2 高 +19.8pp、+8.7pp、+7.2pp。
- GPT-5.2 仍在 FigQA、SeqQA、SuppQA 上领先,说明 BioVLM 的视觉理解和序列分析还不是全面优势。
- 同一套 evidence-enriched SFT 数据迁移到其他 base model 也有提升:Qwen2.5-7B 从 33.1 到 35.1,LLaMA-3.2 从 31.3 到 34.4,Gemma-2 从 31.8 到 33.5,Qwen3-VL-8B 从 35.4 到 43.7。
- 成本低是本文的系统亮点:OCR+cleansing 约 $18,QA synthesis 约 $143,SFT 约 $24,GRPO 约 $12,总计低于 $200。
亮点与洞察¶
- 这篇论文最有价值的地方不是提出一个新的 VLM backbone,而是把“科学文档证据包”定义成数据合成的核心对象。对于科研任务,数据格式本身就是模型能力的上限。
- 进度门控很实用:它避免把预算浪费在 SFT 饱和后的重复样本上,而把后半段计算转向 GRPO,让模型学会在已有 evidence 上推理。
- 论文对 benchmark contamination 的边界说得比较清楚:使用的是能力类别而非题目/答案。这种做法适合很多领域定制模型,但最终仍需要额外 held-out benchmark 来证明泛化。
- Ryze 的 pipeline 对小实验室很友好。低于 $200 的训练成本、8B 模型和本地部署能力,使它比闭源 API 更适合隐私敏感的实验记录、内部报告或未公开论文。
局限与展望¶
- 当前实验只覆盖 biology / biomedicine,作者虽然提到正在扩展到 climate change、geoscience 和 civil engineering,但这些领域的结果还没有系统报告。
- BioVLM-8B 在 FigQA、SeqQA、SuppQA 仍落后 GPT-5.2,说明视觉细节、序列分析和支持性证据定位还需要更强的 multimodal RL 或更好的视觉抽取。
- 进度门控策略在更大模型上的 scaling behavior 尚不清楚。8B 模型上的 SFT 饱和点和 GRPO 收益,未必能直接迁移到 32B 或 70B 模型。
- 数据生成参考了 LAB-Bench 的粗粒度技能类别,虽然没有使用具体题目和答案,但未来最好在完全未参与 curriculum 设计的 benchmark 上验证。
相关工作与启发¶
- vs LLaVA-Med / PMC-VQA: 这些工作多使用医学图像或 figure-caption 数据来适配 VLM,Ryze 则强调 caption、图表结构和正文 referring prose 的绑定,适合更细粒度的科学论文推理。
- vs PubMedQA / MedQA SFT: 现成 QA 数据更像文本知识注入,Ryze 的数据来自原始 PDF 的完整证据包;同 token budget 下 PubMedQA 和 MedQA 明显落后,说明数据结构比数据来源名义上是否“医学”更重要。
- vs 通用 OCR/文档解析工具: Marker、DeepSeek OCR 等更关注通用转换质量,Ryze 面向科研论文中的图表和 cross-reference 设计,特别适合 chart/table-heavy 的训练数据构建。
- 启发: 对其他科学领域可以复用同一范式:先定义领域里的 evidence package,再做任务感知合成,最后用弱项反馈驱动数据增量,而不是直接把 PDF 切块喂给 LLM。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 系统设计很强,核心创新在证据增强数据合成和进度门控训练,而不是单一模型结构。
- 实验充分度: ⭐⭐⭐⭐☆ 主实验、数据源对比、OCR 消融、跨模型泛化和成本分析都较完整,但跨领域验证仍缺。
- 写作质量: ⭐⭐⭐⭐☆ 动机和系统流程清楚,实验数字集中,benchmark leakage 边界也有主动讨论。
- 价值: ⭐⭐⭐⭐⭐ 对科研 VLM 适配很实用,尤其适合低成本、本地部署和隐私敏感的领域模型训练。