跳转至

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

会议: ICLR 2026
arXiv: 2603.01607
代码: https://xypb.github.io/CARE-Project-Page/
领域: 医学图像 / 多模态VLM / Agent
关键词: 医学VQA, 证据引导推理, Agent框架, 指称分割, 临床可问责性

一句话总结

提出 CARE 框架——将医学 VQA 拆分为"实体提议→指称分割→证据引导问答"三阶段专家管道,用 RLVR 微调各 VLM,并引入 GPT-5 作为动态协调器进行工具规划与 CoT 审查,在 4 个医学 VQA 基准上以 10B 参数量(77.54% 平均准确率)超越 32B 端到端 SOTA(72.29%)。

研究背景与动机

领域现状:多模态大模型(Lingshu、HuatuoGPT-Vision、medgemma 等)在医学 VQA 上持续刷新指标,但几乎所有方法都是端到端单次推理——输入图片+问题,直接输出答案。这种"黑盒"模式无法告诉临床医生"模型看了哪里、依据是什么"。

现有痛点:问题可以分为三个层次。(1) 不可审计:端到端 VLM 的推理过程不透明,临床医生无法验证模型是否关注了正确的解剖结构或病变区域,这在医疗场景中是致命的——错误诊断的问责链断裂。(2) Grounding 与 Reasoning 脱耦:虽然有些工作(MedPLIB、UniBiomed)给 VLM 加上了视觉定位头,但定位结果并未被反馈到推理过程中,只是作为辅助多任务输出,答案质量并没有因为定位而实质性提升。(3) 单模型耦合的脆弱性:一些通用域方法(DeepEyes、Fan et al.)尝试在单个生成式模型内交替进行 grounding 和 reasoning,但这要求海量配对数据和多轮 RL,且早期定位错误会直接放大下游推理的幻觉——小而关键的病变一旦被漏掉,后续的 CoT 全部建立在错误前提上。

核心矛盾:准确性 vs 可问责性之间的张力。更大的端到端模型(如 Lingshu-32B、InternVL3-38B)准确率更高,但每一步都在黑盒内完成;小模型可以做可解释推理,但能力不足。把定位和推理耦合在同一个 VLM 里,既难训练,又容易因为单点失败导致级联幻觉。

本文目标 (1) 如何让医学 VQA 的每一步推理都有像素级可视化证据支撑?(2) 如何在不牺牲准确率的前提下实现这种可问责性?(3) 如何让小模型组合胜过大模型?

切入角度:作者观察到,临床医生的诊断流程本身就是"分阶段"的——先假设可能涉及的解剖结构/病变(实体候选),再在影像上精确定位这些区域(视觉定位),最后综合局部细节和全局信息做出判断。这种人类工作流天然具有可审计性:每一步都有明确的输入输出和可检查的中间结果。

核心 idea:用三个轻量专家模型(实体提议 VLM + 指称分割模型 + 证据引导 VQA VLM)模拟临床分阶段诊断流程,并用一个强力 VLM 协调器做动态规划和答案审查,实现"小模型工具链 > 大模型单次推理"。

方法详解

整体框架

CARE 接收一张医学图像和一个自然语言问题,执行三个解耦的子任务:

  1. 医学实体提议:InternVL3-2B(经 RLVR 微调)根据问题和图像提议若干候选医学实体(解剖结构、病变名称、器械等),类似医生首先判断"需要关注哪些部位"
  2. 实体指称分割:基于 SA-Med-2D 的改进分割模型,为每个提议实体在图像中生成像素级 ROI 掩码,并输出置信度分数以过滤不可靠的分割结果
  3. 证据引导 VQA(EG-VQA):InternVL3-8B(经 SFT + RLVR 微调)以原始图像 + 三种形式的视觉证据(裁剪放大、二值掩码、全局指标)为输入进行推理

框架有两种运行模式:CARE-Flow(静态管道,三种证据全部执行后多数投票)和 CARE-Coord(GPT-5 作为动态协调器,自主选择证据类型、规划工具调用、审查 CoT-答案一致性)。

关键设计

  1. 实体提议 VLM 的 RLVR 训练:

    • 功能:将开放式的"图像中有哪些与问题相关的医学实体"建模为一个可训练的生成任务
    • 核心思路:由于没有公开的实体提议数据集,作者从 SA-Med-20M 中随机采样分割掩码/实体名,合成 (图像, 问题, 实体) 配对数据 10k 条训练 + 1k 测试。训练使用 DAPO 算法,奖励函数由四部分组成——(a) 相似度奖励 \(R_{\text{sim}}\):用 MiniLM-L6-v2 编码预测实体和 GT 实体的 embedding,构建余弦相似度矩阵,通过 Kuhn-Munkres 最佳二部匹配求最优配对后取平均相似度;(b) 数量奖励 \(R_{\text{count}}\):实体数量在 1-5 之间得 1 分,否则 0;(c) 去重惩罚 \(R_{\text{rep}} = 1/(r+1)\)\(r\) 为重复实体数;(d) 格式奖励 \(R_{\text{format}}\) 确保 <think>/<answer> 标签
    • 设计动机:相比精确匹配的二值奖励,连续的 embedding 相似度奖励避免了"梯度为零"问题,且对合成数据与真实问题之间的 domain gap 更鲁棒。Kuhn-Munkres 匹配比贪心匹配更稳定——贪心匹配只要有一个实体匹配对就会给奖励,容易学偏。消融显示 KM + Sim 组合的实体准确率(85.2%)远高于 Greedy + Binary(72.8%)
  2. 实体指称分割模型:

    • 功能:给定文本描述的医学实体,在图像中输出像素级分割掩码
    • 核心思路:在 SA-Med-2D(SAM 的医学影像版本,600M 参数)基础上增加文本理解能力。用一个冻结的 Bio-ClinicalBERT 编码器将实体名转为 token 序列,与图像 token 拼接后加入二值模态嵌入(图像=0, 文本=1),送入 SAM 编码器。解码时只取图像 token 作为 key/value,文本 token 经投影后作为 query 输入 SAM 掩码解码器。微调仅更新图像投影器、编码器和文本投影器
    • 置信度过滤:掩码概率图的置信度 \(C(M_p) = 1 - \text{Entropy}(M_p) / \log(2)\),低于阈值 \(\tau_C = 70\%\) 的掩码被丢弃,防止低质量分割污染下游推理
    • 设计动机:使用专家分割模型而非 VLM 内置的 grounding head,因为专家模型在微小但临床关键的病变上定位更准确。在 MeCo-G 基准上平均 Dice 81.9%,超越 LISA-7B(62.7%)和 BiomedParse(30.1%)
  3. 证据引导 VQA(EG-VQA):

    • 功能:将分割得到的 ROI 转化为三种互补的视觉证据形式,增强 VLM 推理
    • 三种证据类型:(a) Zoom-in 裁剪——围绕 ROI 裁剪并放大,提供高分辨率局部细节,适合需要观察纹理/形态的问题;(b) Binary Mask——将二值掩码作为额外图像通道输入,充当空间注意力先验,适合需要位置/形状判断的问题;(c) Global 全局——当不需要局部定位(如判断影像模态、扫描轴向)时使用全一掩码,保持全局视角
    • 训练策略:两阶段微调。第一阶段用训好的实体提议+分割模型给原始 VQA 数据标注视觉线索;第二阶段在标注后数据上先 SFT 再 DAPO-RFT。RFT 引入 CoT 长度奖励 \(R_{\text{length}} = 0.25 \cdot \min(1, |\hat{y}|/L)\) 鼓励充分推理,加上准确率奖励和格式奖励
    • 设计动机:掩码不直接叠加在原图上,因为医学影像的像素值有物理含义(如 CT 的 HU 值),叠加会破坏信息。三种证据互补且训练时混合使用,让模型学会在不同问题类型下利用不同粒度的视觉线索

损失函数 / 训练策略

整体采用 DAPO(Decoupled Asymmetric PPO)算法进行 RLVR。对于实体提议 VLM,奖励 \(R_{\text{Entity}} = R_{\text{sim}} + R_{\text{count}} + R_{\text{rep}} + R_{\text{format}}\);对于 EG-VQA VLM,奖励 \(R_{\text{EG-VQA}} = R_{\text{acc}} + R_{\text{format}} + R_{\text{length}}\)。关键设计选择包括:

  • SFT → RFT 两阶段:SFT 注入新知识(记忆医学事实),RFT 优化输出分布使模型产生合理的 CoT,二者互补
  • SFT + DAPO + 长度奖励的组合在消融中最优,比纯 SFT 高 +2.4%,比纯 DAPO 高 +3.6%
  • 分割模型使用标准 Dice + CE loss 训练,只微调投影层,保留 SAM 的预训练视觉特征

实验关键数据

主实验(4 个医学 VQA 基准,准确率 %)

方法 参数量 OMVQA-3k VQA-RAD SLAKE VQA-Med-2019 (OOD) 平均
GPT-4o - 64.07 58.54 63.55 59.60 61.44
GPT-5 - 74.73 63.19 67.75 62.20 66.97
InternVL3-8B 8B 75.97 61.86 66.13 57.40 65.34
HuatuoGPT-Vision-34B 34B 76.80 60.75 64.12 60.60 65.57
Lingshu-32B 32B 83.97 64.75 82.25 58.20 72.29
CARE-Flow-S 4B 94.53 56.32 78.44 53.60 70.72
CARE-Flow-B 10B 96.17 63.64 83.21 56.60 74.91
CARE-Coord-B 10B 97.97 68.29 83.11 60.80 77.54

CARE-Flow-B(10B)比同规模基线提升 +10.9%,比 Lingshu-32B 高 +2.6%。加入协调器后 CARE-Coord-B 进一步超出 Lingshu-32B 达 +5.2%。

消融实验——视觉证据与协调器的效果

训练阶段视觉线索 协调器 ID 平均 OOD 总体 vs 基线
无证据 77.9 56.0 72.4 +0.0
Mask 79.6 54.0 73.2 +0.8
Zoom 79.5 56.8 73.8 +1.4
Mask + Zoom 80.2 55.6 74.1 +1.7
三种全部 (CARE-Flow) 81.0 56.6 74.9 +2.5
三种全部 Planning 80.8 53.4 74.8 +2.4
三种全部 (CARE-Coord) Planning + Review 83.1 60.8 77.5 +5.1

训练策略消融

训练策略 ID 平均 OOD 总体 vs 基线
基线 (InternVL3-8B 原始) 67.9 57.4 65.3 +0.0
+ SFT 77.8 56.6 72.5 +7.2
+ GRPO 75.2 54.0 69.9 +4.6
+ DAPO 77.0 54.2 71.3 +6.0
+ SFT + DAPO 79.3 56.2 73.5 +8.2
+ SFT + DAPO + \(R_{\text{length}}\) (CARE-Flow) 81.0 56.6 74.9 +9.6

关键发现

  • 视觉证据组合的价值:三种证据全部使用比无证据基线高 +2.5%,且三种相互互补——单独用 zoom-in 效果最好(+1.4%),但三种组合更稳健
  • 协调器审查是最大增益来源:仅加 Planning 反而没有明显收益(+2.4 vs +2.5),但加上 CoT-Answer Review 后跃升至 +5.1%,说明迭代审查而非仅仅规划才是协调器的核心价值
  • SFT + DAPO 互补:单独 SFT(+7.2%)强于单独 DAPO(+6.0%),但组合(+8.2%)更好,再加长度奖励(+9.6%)最优。这验证了"SFT 注入知识 + RFT 优化推理"的假设
  • 协调器的行为分析:GPT-5 协调器总共修改了 7.89% 的样本,其中 4.84% 是纠正(✗→✓),3.05% 是误改(✓→✗),净收益 +1.79%。OOD 数据上纠正率更高(VQA-Med-2019 上 7.6% ✗→✓),说明强协调器增强了泛化能力
  • 专家分割 vs 通用分割:将分割模型从本文的 SA-Med-2D 改进版替换为 BiomedParse,VQA 准确率下降 3.4%,证明专家分割模型对整个管道至关重要
  • GPT-5 vs 其他协调器:GPT-5 协调器(77.5%)远优于 GPT-4o(73.3%)和 InternVL3-38B(74.0%),因为弱协调器容易选错证据类型或过度改写专家答案

亮点与洞察

  • "临床工作流仿生"的系统设计哲学:不是简单地把 VLM 做得更大,而是模拟医生"假设→定位→循证诊断"的三步流程来设计系统。这种设计哲学让每一步都有可审计的中间结果(提议的实体列表、分割掩码、选择的证据类型),天然满足医疗场景对可追溯性的要求。这种思路可以迁移到任何需要问责性的高风险决策场景(法律、金融)
  • RLVR 用于开放式概念提议的巧妙设计:实体提议没有固定答案空间,传统 RL 的二值奖励在这种场景下容易梯度消失。作者用 embedding 相似度 + KM 最佳匹配作为连续奖励信号,既保持了语义灵活性又提供了稳定的梯度。这个 reward shaping 方案可以复用到任何"生成集合需要与参考集合软匹配"的 RL 训练中
  • 小模型+工具链的参数效率:10B 的模块化管道超越 32B 端到端模型,甚至 4B 版本就能和 38B 的 InternVL3 打平。这证明了在垂直领域,精心设计的 agent + 专家工具策略比盲目扩大模型更有效。关键是每个模块只需解决一个相对简单的子问题,2B 足以做实体提议,600M 足以做分割

局限与展望

  • 对强协调器的依赖:CARE-Coord 的性能优势高度依赖 GPT-5,换成 GPT-4o 后掉 4.2%,换成开源 InternVL3-38B 后掉 3.5%。自训练的 InternVL3-8B 协调器虽然比多数投票好,但无法做 CoT 审查。如何训练一个小型但可靠的协调器是关键的开放问题
  • 三阶段管道的错误级联:实体提议→分割→VQA 的串行依赖意味着上游错误不可恢复。虽然置信度过滤(\(\tau_C = 70\%\))可以丢弃不可靠的分割,但错误的实体提议本身无法被下游检测到
  • 合成训练数据的局限:实体提议的训练数据是从分割数据集合成的,问题类型单一,可能无法覆盖真实临床问题的多样性
  • 部署成本:CARE-Coord 每个问题需要调用 GPT-5 API 做规划和审查,延迟和成本在实际临床部署中是障碍
  • OOD 泛化仍有差距:在 VQA-Med-2019 上 CARE-Coord 只有 60.8%,相比 ID 平均 83.1% 有明显差距。CARE-Flow 在 OOD 上更弱(56.6%),说明视觉证据管道对分布外数据的适应性仍需改进

相关工作与启发

  • vs Lingshu-32B(端到端医学 VLM): Lingshu 用大规模医学数据预训练 32B 模型实现域内强表现,但不产生任何中间证据。CARE 用 10B 模块化系统超越之,关键优势在于可审计性和参数效率。劣势是需要多次模型调用,延迟更高
  • vs DeepEyes-7B(单模型视觉推理): DeepEyes 在单个 VLM 内交替 grounding 和 reasoning,需要多轮交互和大量训练。CARE 将这两个任务解耦给专家模型,避免了单模型内的错误放大,且不需要复杂的多轮 RL
  • vs MedVLM-R1-2B(医学推理模型): MedVLM-R1 用 2B 参数做 CoT 推理但不做 grounding,平均只有 51.35%。CARE 证明了"推理 + 定位"的组合远比"纯推理"有效
  • vs BiomedParse / SA-Med-2D(分割模型): 本文的分割改进版在 MeCo-G 上 Dice 81.9% 显著优于 BiomedParse 的 30.1%,且将其替换到管道中会导致 VQA 掉 3.4%,说明专家分割质量对整体很关键

评分

  • 新颖性: ⭐⭐⭐⭐ 将临床诊断工作流形式化为 agent 管道的思路很有启发性,RLVR + KM 匹配的 reward 设计也很巧妙;但三阶段分解的框架本身在通用域已有先例
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个基准 × 多类基线 + 5 个维度的消融(证据类型、训练策略、协调器、分割模型、实体提议),每个消融都有清晰的结论
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表信息量大,但方法细节散布在正文和附录中需要反复跳转
  • 价值: ⭐⭐⭐⭐⭐ 为医学 AI 提出了"可问责"的具体技术路径,而非空谈可解释性;10B 超 32B 的效率故事对资源有限的医疗机构有实际意义