MedBioRAG: Semantic Search and Retrieval-Augmented Generation with Large Language Models for Medical and Biological QA¶

一句话总结¶

MedBioRAG 提出了一种结合语义搜索、文档检索和微调 LLM 的检索增强生成框架，在生物医学问答的文本检索、封闭式 QA 和长文本 QA 三类任务上全面超越 GPT-4o 基线和此前 SOTA。

领域挑战：生物医学 QA 对事实准确性要求极高，通用 LLM（如 GPT-4o）依赖静态预训练数据，容易产生幻觉和过时信息
现有方法局限：传统关键词检索（BM25、TF-IDF）无法处理医学术语的同义词（如 "heart attack" vs "myocardial infarction"）和多义性，导致检索不完整
RAG 的瓶颈：检索增强生成虽然可以动态引入外部知识，但其效果高度依赖检索质量、文档排序和模型微调程度
核心动机：设计一个集成语义搜索（提升检索精度）和微调 LLM（提升生成质量）的端到端生物医学 QA 框架

MedBioRAG 包含三个核心阶段：

词法搜索（Lexical Search）：基于 BM25 的经典 term-frequency 排序方法，通过 IDF 和 TF 计算文档与查询的匹配分数。

语义搜索（Semantic Search）：将查询 Q 和文档 D 通过编码器 φ 映射为稠密向量表示，使用余弦相似度计算语义相关性：

\[\text{Sim}(Q, D_i) = \frac{v_Q \cdot v_{D_i}}{\|v_Q\| \|v_{D_i}\|}\]

检索系统根据相似度分数排序，选取 Top-K 文档。语义搜索的核心优势在于即使没有精确关键词匹配，也能检索到语义相关的文档。

监督微调：使用 (x, y) 对训练，x 为查询+检索文档上下文，y 为期望答案，优化标准语言模型损失
置信度过滤：模型为生成的响应分配置信度分数，低于阈值的响应被丢弃或迭代修正
Prompt 工程：针对封闭式 QA（只需输出选项字母）、长文本 QA（生成结构化回答）和短文本 QA（简洁回答）分别设计系统提示，包括不同的 max tokens、temperature 和 top-p 参数

方法	MedQA	PubMedQA	BioASQ
GPT-3.5 + MedBioRAG	45.36	38.60	66.91
GPT-4 + MedBioRAG	78.79	72.81	97.79
GPT-4o	81.82	44.74	96.12
GPT-4o + MedBioRAG	86.86	66.67	97.06
GPT-4o-mini + MedBioRAG	70.71	76.32	97.06
Fine-Tuned GPT-4o	87.88	80.70	97.06
Fine-Tuned GPT-4o + MedBioRAG	89.47	85.00	98.32

要点：微调 GPT-4o + MedBioRAG 在所有数据集上达到最优，PubMedQA 上从 GPT-4o 基线的 44.74% 提升至 85.00%，提升幅度超过 40 个百分点。

指标	NFCorpus 词法	NFCorpus 语义	TREC-COVID 词法	TREC-COVID 语义
NDCG@10	31.34	37.91	48.35	61.02
MRR@10	51.63	64.29	82.50	89.17
Precision@10	23.04	27.88	49.60	64.20
MAP@10	46.01	56.15	72.31	82.19

要点：语义搜索在所有指标上全面超越词法搜索，NFCorpus 上 NDCG@10 提升约 6.6 个点，TREC-COVID 上提升约 12.7 个点。

维度	分数 (1-5)	说明
创新性	2	语义搜索+RAG+微调的组合较为常规，未引入新颖的技术贡献
实验充分性	4	覆盖三类任务、多个基准数据集和多种指标，设计较完整
写作质量	3	结构清晰但描述偏冗长，部分内容重复
实用价值	3	为生物医学 QA 提供了可参考的 RAG 方案，但依赖闭源模型
总分	3.0	工程整合型工作，实验设计扎实但方法创新不足