Radar: Enhancing Radiology Report Generation with Supplementary Knowledge Injection¶
会议: ACL 2025
arXiv: 2505.14318
代码: https://github.com/wjhou/Radar
领域: 医学影像 / 放射学报告生成 / 多模态 LLM
关键词: radiology report generation, knowledge injection, supplementary knowledge, LLM, chest X-ray
一句话总结¶
提出 Radar 框架,通过区分 LLM 已掌握的可信内部知识和需要外部补充的知识,系统性地融合两种知识源以生成更准确的放射学报告。
研究背景与动机¶
研究领域现状: 大语言模型(LLMs)在放射学报告生成任务中展现了卓越的文本生成能力。许多工作尝试通过检索领域特定知识来增强模型性能,但这些方法往往忽略了 LLM 内部已经编码的知识。
现有方法的局限性:(1)已有的知识增强方法常常检索到 LLM 已经掌握的冗余信息;(2)LLM 内部学到的知识并非总是可靠的,经常产生幻觉(如错误识别疾病);(3)缺乏有效机制来区分模型的可信知识和不可信知识。
核心动机: 以图 1 的例子说明:LLM 正确识别了 Cardiomegaly(无需额外知识),生成的 Pleural Effusion 与专家模型一致(可信),但 Edema 存在不确定性(需要补充知识)。因此需要平衡利用 LLM 的内部知识和外部检索知识。
方法详解¶
整体框架¶
Radar 包含两个阶段:Stage I: Preliminary Findings Generation(初步发现生成) 和 Stage II: Supplementary Findings Augmentation(补充发现增强)。
关键设计¶
-
内部知识可信度评估(Stage I): 先让 MLLM 生成初始报告,同时用一个独立的专家分类模型(图像编码器 + 文本编码器 + MLP)对影像进行观察分类。取初始报告的观察结果 \(O_R\) 与专家模型的结果 \(O_I\) 的交集 \(O_\checkmark = O_I \cap O_R\) 作为高置信度的内部知识(Preliminary Findings)。
-
补充知识检索与提取(Stage II): 利用专家模型的 14 类观察概率分布,通过 KL 散度计算样本相似度,检索 Top-K 相似报告。关键在于仅提取补充性知识:过滤掉与 Preliminary Findings 重叠的观察,只保留 \(O_\delta = \mathcal{O} - O_\checkmark\) 对应的句子。
-
观察识别增强生成(Observation Identification): 将 PF 和 SF 整合到临床上下文中,训练时要求模型先输出观察标签再生成报告文本,帮助模型在生成前先总结高层信息。
损失函数¶
- 专家模型训练: 使用带 log-scale re-weighting 的二元交叉熵损失处理类别不平衡:\(\alpha_i = \log(1 + |\mathcal{D}_{train}| / w_i)\)
- 报告生成模型: 标准的负对数似然损失:\(\mathcal{L} = -\sum_{t=1}^{T} \log p(y_t)\)
实验¶
主实验(MIMIC-CXR 数据集)¶
| 模型 | B-1 | B-4 | R-L | RG-F1 | 14Ma-F1 | 5Mi-F1 |
|---|---|---|---|---|---|---|
| R2GenGPT | 0.411 | 0.134 | 0.297 | - | 0.389 | - |
| LLaVA-Med | 0.354 | 0.149 | 0.276 | 0.191 | 0.269 | 0.439 |
| Med-PaLM | 0.323 | 0.115 | 0.275 | 0.267 | 0.398 | 0.579 |
| MAIRA-2 | 0.465 | 0.234 | 0.384 | 0.346 | 0.416 | 0.591 |
| Libra | 0.513 | 0.245 | 0.367 | 0.329 | 0.404 | 0.601 |
| Radar (Ours) | 0.509 | 0.262 | 0.397 | 0.346 | 0.460 | 0.627 |
Radar 在 B-4、ROUGE-L、14-class Macro-F1 和 5-class Micro-F1 上均取得最优或并列最优。
消融实验¶
| 消融变体 | 说明 | 效果 |
|---|---|---|
| 去除 Preliminary Findings | 不区分可信/不可信内部知识 | 临床指标显著下降 |
| 去除 Supplementary Findings | 不使用外部检索知识 | 覆盖不全面的观察 |
| 去除 Observation Identification | 不预测观察标签 | 生成质量下降 |
| 使用全部检索知识(不过滤) | 引入冗余信息 | 性能不如过滤后 |
关键发现¶
- Radar 在三个基准数据集(MIMIC-CXR、CheXpert-Plus、IU X-ray)上均超越 SOTA
- 补充知识过滤(只保留非重叠观察)比使用全部检索知识更有效,验证了去冗余的必要性
- 专家模型引入临床上下文(Indication 等)后分类性能优于仅用图像的方案
亮点¶
- 创新性地区分 LLM 的可信内部知识和需要补充的外部知识,避免冗余检索
- 通过专家模型与 LLM 输出的交集来识别高置信度知识,设计巧妙
- Observation Identification 机制让模型先"思考"再"写报告",提升生成质量
- 方法具有良好的通用性,可扩展到其他知识增强的医学 NLP 任务
局限性¶
- 依赖 CheXpert 的 14 类标签体系,无法覆盖所有放射学发现
- 专家模型的分类精度直接影响知识过滤质量
- 仅在胸部 X 光数据上验证,未扩展到 CT、MRI 等其他模态
- 检索知识库来源于训练集,可能存在分布偏差
- 两阶段推理引入额外计算开销(需要生成初步报告 + 检索 + 再生成)
相关工作¶
- 放射学报告生成: Chen et al. 2020/2021 开创性工作;R2GenGPT、LLaVA-Med、Med-PaLM 等基于 LLM 的方法
- 知识增强生成: Yang et al. 2021 的检索增强方法;Li et al. 2023 的领域知识注入
- 医学多模态模型: MAIRA-1/2, CheXagent, LLaVA-Rad 等专用医学 MLLM
- 幻觉缓解: Huang et al. 2025 关于 LLM 幻觉的研究
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 7 |
| 技术深度 | 7 |
| 实验充分性 | 8 |
| 写作质量 | 7 |
| 实用价值 | 8 |
| 总分 | 7.4 |