SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning¶
会议: ACL 2026
arXiv: 2605.17101
代码: 无
领域: 医疗NLP
关键词: 医学问答, 多智能体RAG, 自演化检索, 证据链构建, 临床推理
一句话总结¶
提出 SEMA-RAG,一种自演化多智能体 RAG 框架,通过三个专职智能体(解释器、探索器、仲裁器)模拟临床推理的分阶段工作流,在 5 个医学 QA 基准上平均超越最强基线 +6.46 个准确率点。
研究背景与动机¶
领域现状: RAG 被广泛用于缓解医学问答中 LLM 的幻觉和知识过时问题,但现有 RAG 主要采用单轮静态检索范式。
现有痛点: (1) 问题到查询的转换缺乏临床语义解读,隐含约束难以显式化;(2) 检索缺乏充分性反馈机制,难以形成可靠的证据链;(3) 将解释、探索、裁决三种异质任务耦合在单一推理链中,认知负荷过高。
核心矛盾: 单轮静态 RAG 相当于要求临床医生在收到初始病历后立即同时分析、检索、评估和诊断,无法随新证据调整推理——与多阶段临床推理过程严重错配。
本文目标: 重构 RAG 工作流以匹配临床分阶段推理:将单轮查询扩展为多轮迭代探索,每轮检索后评估证据充分性并决定下一步行动。
切入角度: 任务解耦 + 角色专业化——将解释、探索、裁决分配给三个专职智能体协作完成。
核心 idea: 三智能体分工(I-Agent 解释 → E-Agent 充分性驱动的自演化检索 → A-Agent 证据仲裁),通过闭环证据链构建提升医学 RAG 可靠性。
方法详解¶
整体框架¶
SEMA-RAG 由三个角色智能体组成,共享同一底层 LLM,仅通过角色提示区分:(1) I-Agent 将原始问题映射为结构化临床图式;(2) E-Agent 基于证据充分性驱动的自演化检索循环逐轮积累证据;(3) A-Agent 对收敛证据集进行仲裁并输出最终答案。
关键设计¶
-
I-Agent(问题解释器):
- 功能:将非结构化医学问题映射为结构化临床图式元组
- 核心思路:生成包含四个组件的图式 \(Q' = \langle o_{\text{int}}, o_{\text{ent}}, o_{\text{cons}}, q_{\text{init}} \rangle\)——临床意图、医学实体、临床约束、初始检索查询;线性化拼接后作为检索入口
- 设计动机:原始问题中的隐含约束(如"住院第7天"暗示院内感染)在直接检索中易被忽略,结构化图式将其显式化
-
E-Agent(知识探索器,自演化检索循环):
- 功能:充分性驱动的多轮迭代检索,构建闭合证据集 \(C^*\)
- 核心思路:每轮检索后评估证据充分性标志 \(s_t \in \{0,1\}\);若 \(s_t=0\)(不充分),识别证据缺口 \(g_t\) 并生成 \(m\) 个后续查询 \(\mathcal{Q}_{t+1}\);直到 \(s_t=1\) 或达到 \(T_{\max}\) 轮次终止。使用 MedCPT 作为密集检索器
- 设计动机:单轮检索无法保证证据覆盖所有关键约束,充分性驱动的闭环迭代可避免在不完整证据下做出仓促决策
-
A-Agent(证据仲裁器):
- 功能:对收敛证据集进行裁决并生成可追溯的证据报告
- 核心思路:从冗余/矛盾证据中去噪去重,识别一致性和冲突,组织支持/反驳线索为结构化报告 \(R\);基于报告进行离散答案选择 \(\tilde{y} = \text{Agent}_A(\text{Pmt}_{\text{ans}}, [Q, R])\)
- 设计动机:医学推理中证据常冗余甚至矛盾,需要专门的仲裁步骤整合证据形成稳定判断基础
损失函数 / 训练策略¶
- 无需训练:三个智能体共享底层 LLM,仅通过角色提示区分
- 默认超参:\(T_{\max}=2\),\(k=16\)(Top-k 检索),\(m=3\)(每轮后续查询数)
- I/E-Agent 温度设为 1.0,A-Agent 温度设为 0.0(确定性输出)
实验关键数据¶
主实验(5 个基准 × 5 个 LLM 骨干,准确率 %)¶
| 方法 | MMLU-Med | MedQA-US | MedMCQA | PubMedQA* | BioASQ | 平均 |
|---|---|---|---|---|---|---|
| deepseek-v3.1 + CoT | 88.15 | 77.53 | 71.69 | 38.40 | 80.10 | 71.17 |
| deepseek-v3.1 + MedRAG | 88.61 | 77.14 | 67.99 | 44.60 | 78.48 | 71.36 |
| deepseek-v3.1 + i-MedRAG | 85.86 | 74.78 | 65.65 | 50.60 | 80.58 | 71.49 |
| deepseek-v3.1 + SEMA-RAG | 91.46 | 89.95 | 75.09 | 59.20 | 82.85 | 79.71 |
| gemini-2.0-flash + CoT | 58.22 | 65.12 | 41.33 | 40.20 | 68.45 | 54.66 |
| gemini-2.0-flash + SEMA-RAG | 80.99 | 90.42 | 71.60 | 59.20 | 88.19 | 78.08 |
消融实验(deepseek-v3.1,MedQA-US / PubMedQA*)¶
| 配置 | MedQA-US | PubMedQA* |
|---|---|---|
| w/o I-Agent | 85.47 | 54.20 |
| w/o E-Agent | 83.58 | 50.80 |
| w/o A-Agent | 86.49 | 53.60 |
| 完整 SEMA-RAG | 89.95 | 59.20 |
关键发现¶
- 去除 E-Agent 导致最大性能下降(MedQA-US 下降 6.37),证实自演化检索是核心增益来源
- 查询宽度 \(m\) 的消融:\(m=1\) → 86.72%,\(m=2\) → 89.00%,\(m=3\) → 89.95%,收益递减
- 探索深度 \(T_{\max}\) 在 2-3 轮时性能最佳,超过后可能引入噪声
- 效率对比:SEMA-RAG 平均 4.8 次 LLM 调用 / 3.4 次检索 / 9.5s 延迟,token 消耗 19488(vs i-MedRAG 的 21517),但准确率高出 15.17%
亮点与洞察¶
- 三智能体架构精确模拟临床推理的分阶段工作流(解释→探索→裁决),任务解耦思想具有普适性
- 充分性驱动的早停机制比固定轮次迭代(如 i-MedRAG 的 3 轮)更高效——用更少 token 达到更高准确率
- 在 gemini-2.0-flash 上提升最为显著(平均 +23.42),说明框架对较弱模型的增强效果更强
- 案例分析生动展示了如何通过结构化解释 → 缺口识别 → 定向检索形成可靠证据链
局限与展望¶
- 评估局限于基准测试环境,未在真实临床工作流(如纵向 EHR 推理)中验证
- 框架依赖检索语料库的质量和覆盖范围:关键证据缺失或过时时,自演化循环仍可能收敛到不完整证据
- 充分性判断标准尚未针对选项级可分离性或生成式完备性优化
- 多轮推理的额外开销虽优于固定步骤基线,但仍高于单轮方法
相关工作与启发¶
- MedRAG / MedCPT 提供了医学领域的检索基础,SEMA-RAG 在其上构建多轮闭环
- i-MedRAG 开创了迭代医学 RAG 但缺乏充分性反馈,SEMA-RAG 的自演化机制是关键改进
- 多智能体协作(CAMEL / MetaGPT / MedAgents)思想可推广到其他需要多阶段推理的高风险领域
- 自演化检索的 gap detection + targeted follow-up 模式可启发非医学领域的复杂 RAG 系统设计
评分¶
- 新颖性: ⭐⭐⭐⭐ 任务解耦 + 充分性驱动的自演化检索是清晰的创新点
- 实验充分度: ⭐⭐⭐⭐⭐ 5 个基准 × 5 个 LLM 骨干 × 完整消融 + 效率分析 + 案例研究
- 写作质量: ⭐⭐⭐⭐ 公式化表述严谨,临床推理类比直观
- 价值: ⭐⭐⭐⭐⭐ 在医学 QA 上取得显著且一致的提升,框架思想具有广泛适用性