CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework¶

会议: ICLR 2026
arXiv: 2603.01607
代码: https://xypb.github.io/CARE-Project-Page/
领域: 医学图像 / 多模态VLM / Agent
关键词: 医学VQA, 证据引导推理, Agent框架, 指称分割, 临床可问责性

一句话总结¶

提出 CARE 框架——将医学 VQA 拆分为"实体提议→指称分割→证据引导问答"三阶段专家管道，用 RLVR 微调各 VLM，并引入 GPT-5 作为动态协调器进行工具规划与 CoT 审查，在 4 个医学 VQA 基准上以 10B 参数量（77.54% 平均准确率）超越 32B 端到端 SOTA（72.29%）。

研究背景与动机¶

领域现状：多模态大模型（Lingshu、HuatuoGPT-Vision、medgemma 等）在医学 VQA 上持续刷新指标，但几乎所有方法都是端到端单次推理——输入图片+问题，直接输出答案。这种"黑盒"模式无法告诉临床医生"模型看了哪里、依据是什么"。

现有痛点：问题可以分为三个层次。(1) 不可审计：端到端 VLM 的推理过程不透明，临床医生无法验证模型是否关注了正确的解剖结构或病变区域，这在医疗场景中是致命的——错误诊断的问责链断裂。(2) Grounding 与 Reasoning 脱耦：虽然有些工作（MedPLIB、UniBiomed）给 VLM 加上了视觉定位头，但定位结果并未被反馈到推理过程中，只是作为辅助多任务输出，答案质量并没有因为定位而实质性提升。(3) 单模型耦合的脆弱性：一些通用域方法（DeepEyes、Fan et al.）尝试在单个生成式模型内交替进行 grounding 和 reasoning，但这要求海量配对数据和多轮 RL，且早期定位错误会直接放大下游推理的幻觉——小而关键的病变一旦被漏掉，后续的 CoT 全部建立在错误前提上。

核心矛盾：准确性 vs 可问责性之间的张力。更大的端到端模型（如 Lingshu-32B、InternVL3-38B）准确率更高，但每一步都在黑盒内完成；小模型可以做可解释推理，但能力不足。把定位和推理耦合在同一个 VLM 里，既难训练，又容易因为单点失败导致级联幻觉。

本文目标 (1) 如何让医学 VQA 的每一步推理都有像素级可视化证据支撑？(2) 如何在不牺牲准确率的前提下实现这种可问责性？(3) 如何让小模型组合胜过大模型？

切入角度：作者观察到，临床医生的诊断流程本身就是"分阶段"的——先假设可能涉及的解剖结构/病变（实体候选），再在影像上精确定位这些区域（视觉定位），最后综合局部细节和全局信息做出判断。这种人类工作流天然具有可审计性：每一步都有明确的输入输出和可检查的中间结果。

核心 idea：用三个轻量专家模型（实体提议 VLM + 指称分割模型 + 证据引导 VQA VLM）模拟临床分阶段诊断流程，并用一个强力 VLM 协调器做动态规划和答案审查，实现"小模型工具链 > 大模型单次推理"。

方法详解¶

整体框架¶

CARE 接收一张医学图像和一个自然语言问题，执行三个解耦的子任务：

医学实体提议：InternVL3-2B（经 RLVR 微调）根据问题和图像提议若干候选医学实体（解剖结构、病变名称、器械等），类似医生首先判断"需要关注哪些部位"
实体指称分割：基于 SA-Med-2D 的改进分割模型，为每个提议实体在图像中生成像素级 ROI 掩码，并输出置信度分数以过滤不可靠的分割结果
证据引导 VQA（EG-VQA）：InternVL3-8B（经 SFT + RLVR 微调）以原始图像 + 三种形式的视觉证据（裁剪放大、二值掩码、全局指标）为输入进行推理

框架有两种运行模式：CARE-Flow（静态管道，三种证据全部执行后多数投票）和 CARE-Coord（GPT-5 作为动态协调器，自主选择证据类型、规划工具调用、审查 CoT-答案一致性）。

关键设计¶

实体提议 VLM 的 RLVR 训练:
- 功能：将开放式的"图像中有哪些与问题相关的医学实体"建模为一个可训练的生成任务
- 核心思路：由于没有公开的实体提议数据集，作者从 SA-Med-20M 中随机采样分割掩码/实体名，合成 (图像, 问题, 实体) 配对数据 10k 条训练 + 1k 测试。训练使用 DAPO 算法，奖励函数由四部分组成——(a) 相似度奖励 \(R_{\text{sim}}\)：用 MiniLM-L6-v2 编码预测实体和 GT 实体的 embedding，构建余弦相似度矩阵，通过 Kuhn-Munkres 最佳二部匹配求最优配对后取平均相似度；(b) 数量奖励 \(R_{\text{count}}\)：实体数量在 1-5 之间得 1 分，否则 0；(c) 去重惩罚 \(R_{\text{rep}} = 1/(r+1)\)，\(r\) 为重复实体数；(d) 格式奖励 \(R_{\text{format}}\) 确保 <think>/<answer> 标签
- 设计动机：相比精确匹配的二值奖励，连续的 embedding 相似度奖励避免了"梯度为零"问题，且对合成数据与真实问题之间的 domain gap 更鲁棒。Kuhn-Munkres 匹配比贪心匹配更稳定——贪心匹配只要有一个实体匹配对就会给奖励，容易学偏。消融显示 KM + Sim 组合的实体准确率（85.2%）远高于 Greedy + Binary（72.8%）
实体指称分割模型:
- 功能：给定文本描述的医学实体，在图像中输出像素级分割掩码
- 核心思路：在 SA-Med-2D（SAM 的医学影像版本，600M 参数）基础上增加文本理解能力。用一个冻结的 Bio-ClinicalBERT 编码器将实体名转为 token 序列，与图像 token 拼接后加入二值模态嵌入（图像=0, 文本=1），送入 SAM 编码器。解码时只取图像 token 作为 key/value，文本 token 经投影后作为 query 输入 SAM 掩码解码器。微调仅更新图像投影器、编码器和文本投影器
- 置信度过滤：掩码概率图的置信度 \(C(M_p) = 1 - \text{Entropy}(M_p) / \log(2)\)，低于阈值 \(\tau_C = 70\%\) 的掩码被丢弃，防止低质量分割污染下游推理
- 设计动机：使用专家分割模型而非 VLM 内置的 grounding head，因为专家模型在微小但临床关键的病变上定位更准确。在 MeCo-G 基准上平均 Dice 81.9%，超越 LISA-7B（62.7%）和 BiomedParse（30.1%）
证据引导 VQA（EG-VQA）:
- 功能：将分割得到的 ROI 转化为三种互补的视觉证据形式，增强 VLM 推理
- 三种证据类型：(a) Zoom-in 裁剪——围绕 ROI 裁剪并放大，提供高分辨率局部细节，适合需要观察纹理/形态的问题；(b) Binary Mask——将二值掩码作为额外图像通道输入，充当空间注意力先验，适合需要位置/形状判断的问题；(c) Global 全局——当不需要局部定位（如判断影像模态、扫描轴向）时使用全一掩码，保持全局视角
- 训练策略：两阶段微调。第一阶段用训好的实体提议+分割模型给原始 VQA 数据标注视觉线索；第二阶段在标注后数据上先 SFT 再 DAPO-RFT。RFT 引入 CoT 长度奖励 \(R_{\text{length}} = 0.25 \cdot \min(1, |\hat{y}|/L)\) 鼓励充分推理，加上准确率奖励和格式奖励
- 设计动机：掩码不直接叠加在原图上，因为医学影像的像素值有物理含义（如 CT 的 HU 值），叠加会破坏信息。三种证据互补且训练时混合使用，让模型学会在不同问题类型下利用不同粒度的视觉线索

损失函数 / 训练策略¶

整体采用 DAPO（Decoupled Asymmetric PPO）算法进行 RLVR。对于实体提议 VLM，奖励 \(R_{\text{Entity}} = R_{\text{sim}} + R_{\text{count}} + R_{\text{rep}} + R_{\text{format}}\)；对于 EG-VQA VLM，奖励 \(R_{\text{EG-VQA}} = R_{\text{acc}} + R_{\text{format}} + R_{\text{length}}\)。关键设计选择包括：

SFT → RFT 两阶段：SFT 注入新知识（记忆医学事实），RFT 优化输出分布使模型产生合理的 CoT，二者互补
SFT + DAPO + 长度奖励的组合在消融中最优，比纯 SFT 高 +2.4%，比纯 DAPO 高 +3.6%
分割模型使用标准 Dice + CE loss 训练，只微调投影层，保留 SAM 的预训练视觉特征

实验关键数据¶

主实验（4 个医学 VQA 基准，准确率 %）¶

方法	参数量	OMVQA-3k	VQA-RAD	SLAKE	VQA-Med-2019 (OOD)	平均
GPT-4o	-	64.07	58.54	63.55	59.60	61.44
GPT-5	-	74.73	63.19	67.75	62.20	66.97
InternVL3-8B	8B	75.97	61.86	66.13	57.40	65.34
HuatuoGPT-Vision-34B	34B	76.80	60.75	64.12	60.60	65.57
Lingshu-32B	32B	83.97	64.75	82.25	58.20	72.29
CARE-Flow-S	4B	94.53	56.32	78.44	53.60	70.72
CARE-Flow-B	10B	96.17	63.64	83.21	56.60	74.91
CARE-Coord-B	10B	97.97	68.29	83.11	60.80	77.54

CARE-Flow-B（10B）比同规模基线提升 +10.9%，比 Lingshu-32B 高 +2.6%。加入协调器后 CARE-Coord-B 进一步超出 Lingshu-32B 达 +5.2%。

消融实验——视觉证据与协调器的效果¶

训练阶段视觉线索	协调器	ID 平均	OOD	总体	vs 基线
无证据	无	77.9	56.0	72.4	+0.0
Mask	无	79.6	54.0	73.2	+0.8
Zoom	无	79.5	56.8	73.8	+1.4
Mask + Zoom	无	80.2	55.6	74.1	+1.7
三种全部 (CARE-Flow)	无	81.0	56.6	74.9	+2.5
三种全部	Planning	80.8	53.4	74.8	+2.4
三种全部 (CARE-Coord)	Planning + Review	83.1	60.8	77.5	+5.1

训练策略消融¶

训练策略	ID 平均	OOD	总体	vs 基线
基线 (InternVL3-8B 原始)	67.9	57.4	65.3	+0.0
+ SFT	77.8	56.6	72.5	+7.2
+ GRPO	75.2	54.0	69.9	+4.6
+ DAPO	77.0	54.2	71.3	+6.0
+ SFT + DAPO	79.3	56.2	73.5	+8.2
+ SFT + DAPO + \(R_{\text{length}}\) (CARE-Flow)	81.0	56.6	74.9	+9.6

关键发现¶

视觉证据组合的价值：三种证据全部使用比无证据基线高 +2.5%，且三种相互互补——单独用 zoom-in 效果最好（+1.4%），但三种组合更稳健
协调器审查是最大增益来源：仅加 Planning 反而没有明显收益（+2.4 vs +2.5），但加上 CoT-Answer Review 后跃升至 +5.1%，说明迭代审查而非仅仅规划才是协调器的核心价值
SFT + DAPO 互补：单独 SFT（+7.2%）强于单独 DAPO（+6.0%），但组合（+8.2%）更好，再加长度奖励（+9.6%）最优。这验证了"SFT 注入知识 + RFT 优化推理"的假设
协调器的行为分析：GPT-5 协调器总共修改了 7.89% 的样本，其中 4.84% 是纠正（✗→✓），3.05% 是误改（✓→✗），净收益 +1.79%。OOD 数据上纠正率更高（VQA-Med-2019 上 7.6% ✗→✓），说明强协调器增强了泛化能力
专家分割 vs 通用分割：将分割模型从本文的 SA-Med-2D 改进版替换为 BiomedParse，VQA 准确率下降 3.4%，证明专家分割模型对整个管道至关重要
GPT-5 vs 其他协调器：GPT-5 协调器（77.5%）远优于 GPT-4o（73.3%）和 InternVL3-38B（74.0%），因为弱协调器容易选错证据类型或过度改写专家答案

亮点与洞察¶

"临床工作流仿生"的系统设计哲学：不是简单地把 VLM 做得更大，而是模拟医生"假设→定位→循证诊断"的三步流程来设计系统。这种设计哲学让每一步都有可审计的中间结果（提议的实体列表、分割掩码、选择的证据类型），天然满足医疗场景对可追溯性的要求。这种思路可以迁移到任何需要问责性的高风险决策场景（法律、金融）
RLVR 用于开放式概念提议的巧妙设计：实体提议没有固定答案空间，传统 RL 的二值奖励在这种场景下容易梯度消失。作者用 embedding 相似度 + KM 最佳匹配作为连续奖励信号，既保持了语义灵活性又提供了稳定的梯度。这个 reward shaping 方案可以复用到任何"生成集合需要与参考集合软匹配"的 RL 训练中
小模型+工具链的参数效率：10B 的模块化管道超越 32B 端到端模型，甚至 4B 版本就能和 38B 的 InternVL3 打平。这证明了在垂直领域，精心设计的 agent + 专家工具策略比盲目扩大模型更有效。关键是每个模块只需解决一个相对简单的子问题，2B 足以做实体提议，600M 足以做分割

局限与展望¶

对强协调器的依赖：CARE-Coord 的性能优势高度依赖 GPT-5，换成 GPT-4o 后掉 4.2%，换成开源 InternVL3-38B 后掉 3.5%。自训练的 InternVL3-8B 协调器虽然比多数投票好，但无法做 CoT 审查。如何训练一个小型但可靠的协调器是关键的开放问题
三阶段管道的错误级联：实体提议→分割→VQA 的串行依赖意味着上游错误不可恢复。虽然置信度过滤（\(\tau_C = 70\%\)）可以丢弃不可靠的分割，但错误的实体提议本身无法被下游检测到
合成训练数据的局限：实体提议的训练数据是从分割数据集合成的，问题类型单一，可能无法覆盖真实临床问题的多样性
部署成本：CARE-Coord 每个问题需要调用 GPT-5 API 做规划和审查，延迟和成本在实际临床部署中是障碍
OOD 泛化仍有差距：在 VQA-Med-2019 上 CARE-Coord 只有 60.8%，相比 ID 平均 83.1% 有明显差距。CARE-Flow 在 OOD 上更弱（56.6%），说明视觉证据管道对分布外数据的适应性仍需改进

评分¶

新颖性: ⭐⭐⭐⭐ 将临床诊断工作流形式化为 agent 管道的思路很有启发性，RLVR + KM 匹配的 reward 设计也很巧妙；但三阶段分解的框架本身在通用域已有先例
实验充分度: ⭐⭐⭐⭐⭐ 4 个基准 × 多类基线 + 5 个维度的消融（证据类型、训练策略、协调器、分割模型、实体提议），每个消融都有清晰的结论
写作质量: ⭐⭐⭐⭐ 论文结构清晰，图表信息量大，但方法细节散布在正文和附录中需要反复跳转
价值: ⭐⭐⭐⭐⭐ 为医学 AI 提出了"可问责"的具体技术路径，而非空谈可解释性；10B 超 32B 的效率故事对资源有限的医疗机构有实际意义