MARCH: Multi-Agent Radiology Clinical Hierarchy for CT Report Generation¶

会议: ACL 2026
arXiv: 2604.16175
代码: 无
领域: 医学图像 / 报告生成
关键词: 多智能体, 放射学报告生成, 共识驱动, 检索增强, 3D CT

一句话总结¶

本文提出 MARCH，一个模拟放射科住院医-专科医-主治医层级协作流程的多智能体框架，通过三阶段（初始报告起草、检索增强修订、共识驱动定稿）生成 CT 报告，在 RadGenome-ChestCT 数据集上 CE-F1 达 0.399，比最佳基线 Reg2RG 的 0.253 提升 57.7%。

研究背景与动机¶

领域现状：自动化放射学报告生成是医学 AI 的重要方向。现有视觉-语言模型（VLM）已在 2D 胸片报告上取得进展，但 3D 体积数据（如胸部 CT）的报告生成仍处于早期阶段。

现有痛点：(1) 端到端"黑箱"模型缺乏临床工作流中的迭代验证和交叉核查机制，容易产生临床幻觉；(2) 3D CT 数据中异常发现稀疏，单一模型难以可靠检测所有病理；(3) 单读者模式（single-reader）固有的认知偏差无法被纠正。

核心矛盾：临床实践中，放射科通过住院医-专科医-主治医的层级审核流程降低误诊率，但现有自动化系统是单智能体的，缺乏这种多层验证机制。

本文目标：设计一个模拟放射科临床层级结构的多智能体框架，实现可解释、可验证的 CT 报告生成。

切入角度：借鉴放射科的 readout session 制度——住院医初读、专科医复审、主治医终审——将不同职责分配给不同 AI 智能体。

核心 idea：用多智能体层级结构替代单一端到端模型，通过检索增强和多轮共识讨论显著提升临床准确性。

方法详解¶

整体框架¶

MARCH 由三个阶段组成：(1) 住院医智能体从 3D CT 扫描中生成初始报告草稿；(2) 检索智能体从临床数据库检索相关病例，专科医智能体据此修订报告；(3) 主治医智能体主持多轮共识讨论，多个专科医智能体迭代交换立场直至达成临床共识。输入为胸部 CT 体积数据，输出为最终放射学报告。

关键设计¶

住院医智能体（Resident Agent）+ 多区域分割:
- 功能：从 3D CT 中提取特征并生成初始报告草稿
- 核心思路：使用 SAT（Segment Anything with Text）模型将 CT 分割为 10 个解剖亚区域（如骨骼、乳腺等），再用冻结的双流 ViT3D（来自 RadFM 预训练）提取空间特征，最后通过 LoRA 微调的 LLaMA-2-Chat-7B 生成文本报告 \(T = A_{res}(I; \theta_{res})\)
- 设计动机：3D 体积数据中异常发现往往局限于特定解剖区域且非常稀疏，全局编码容易遗漏。多区域分割强制模型关注局部解剖和病理实体，缓解了异常检测的稀疏性问题
检索增强修订（Retrieval-Augmented Revision）:
- 功能：通过检索相似病例为报告修订提供循证依据
- 核心思路：设计三种检索范式——(i) 图像到图像/图像到文本检索：用 3D 视觉编码器检索视觉相似的 CT 及对应报告；(ii) Logits 检索：用分类头预测 18 种临床异常的 logits 向量，检索诊断谱相似的报告。每种检索各取 top-3，拼接为结构化证据 \(R = A_{ret}(I, D)\)，由专科医智能体 \(A_{fel}\) 融合证据修订初稿 \(T' = A_{fel}(T, R)\)
- 设计动机：单独的生成模型可能遗漏或幻觉，检索增强提供了"第二意见"和循证基础，类比临床中查阅文献和参考病例的过程
共识驱动定稿（Consensus-Driven Finalization）:
- 功能：通过多轮立场交换解决诊断分歧
- 核心思路：主治医智能体 \(A_{att}\) 首先聚合多个专科医的修订报告生成初始共识 \(T^{(0)}\)。在后续轮次中，每个专科医 \(A_{fel,i}\) 审查当前共识并给出立场 \(S_i^{(t)}\)（同意/纠正/补充），主治医整合所有立场更新报告 \(T^{(t+1)} = A_{att}(T^{(t)}, \{S_i^{(t)}\})\)。迭代持续至达成稳定共识或达到最大轮数
- 设计动机：模拟真实放射科的 readout session，当多位医生意见不一致时通过讨论而非简单投票来解决分歧，这种"魔鬼代言人"机制在临床中被证明能显著降低误诊率

损失函数 / 训练策略¶

住院医智能体使用 AdamW 优化器（lr=1e-5），训练 10 个 epoch。ViT3D 骨干冻结，LLaMA-2-Chat-7B 通过 LoRA 微调。专科医和主治医智能体使用 GPT-4.1/GPT-4o 作为 LLM 骨干（temperature=0）。

实验关键数据¶

主实验¶

方法	BLEU-1	BLEU-4	METEOR	ROUGE-L	CE-Precision	CE-Recall	CE-F1
R2GenPT	0.433	0.242	0.399	0.323	0.340	0.066	0.110
MedVInT	0.443	0.246	0.404	0.326	0.377	0.148	0.212
M3D	0.436	0.245	0.400	0.326	0.407	0.090	0.148
RadFM	0.442	0.237	0.399	0.315	0.382	0.131	0.195
Reg2RG	0.473	0.249	0.441	0.367	0.423	0.181	0.253
MARCH	0.482	0.257	0.456	0.383	0.495	0.335	0.399

消融实验¶

配置	BLEU-1	BLEU-4	METEOR	CE-F1
Resident-only	0.469	0.246	0.435	0.219
SR-SA（单轮单智能体）	0.476	0.250	0.447	0.332
SR-MA（单轮多智能体）	0.475	0.251	0.454	0.352
MR-MA（多轮多智能体）	0.479	0.255	0.456	0.362
MARCH（完整）	0.482	0.257	0.456	0.399

关键发现¶

CE-F1 从 Resident-only 的 0.219 提升到完整 MARCH 的 0.399，提升 82%，主要来自检索增强（+0.113）和共识机制（+0.037）
检索增强对临床效能贡献最大（SR-SA vs Resident-only: CE-F1 +0.113），说明循证修订是减少幻觉的关键
不同 LLM 骨干（GPT-4.1-mini/GPT-4.1/GPT-4o/GPT-5）性能差异很小（CE-F1 0.391-0.399），表明框架设计比 LLM 能力更重要
MARCH 在低频异常（如 hiatal hernia、pericardial effusion）上的检测提升尤为显著

亮点与洞察¶

将放射科层级协作流程直接映射为多智能体架构是优雅的设计——不是随意分配角色，而是对应临床中已验证有效的误诊防范机制
三种互补的检索范式（视觉、文本、logits）覆盖了不同类型的相似性，这种多模态检索组合可迁移到其他需要循证的医学 AI 任务
共识机制使用"立场"（同意/纠正/补充）而非简单投票，保留了分歧的信息量

局限与展望¶

依赖 GPT-4 系列作为推理骨干，成本高且不可部署在医院内部，未验证开源 LLM 的可行性
缺乏长期记忆机制，无法利用患者历史影像对比或从既往诊断错误中学习
仅在 RadGenome-ChestCT 上评估，未验证对其他解剖部位（如脑部、腹部）的泛化性
共识轮数需要预设上限，最优轮数的确定缺乏自适应机制

评分¶

新颖性: ⭐⭐⭐⭐ 临床层级结构到多智能体的映射自然且有意义
实验充分度: ⭐⭐⭐⭐ 消融完整，包含 LLM 骨干对比和逐异常分析
写作质量: ⭐⭐⭐⭐ 框架描述清晰，临床背景交代充分
价值: ⭐⭐⭐⭐ 为高风险医学 AI 提供了可解释的协作范式