ICLR 2026 VLM Reasoning 医学 VLM 视觉推理工具调用强化学习 GRPO 无标注监督熵引导探索

MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=cK35kNVm5r
代码: 待确认
领域: 多模态 VLM / 医学视觉推理
关键词: 医学 VLM, 视觉推理, 工具调用, 强化学习, GRPO, 无标注监督, 熵引导探索

一句话总结¶

MedVR 把医学 VLM 训练成会"放大看图"的智能体，用熵引导探索（EVR）找出该重新看图的时刻、用多条成功轨迹的共识（CCA）自动造出视觉 grounding 的伪标签，完全不需要任何中间步骤人工标注就在 6 个医学 VQA 基准上拿到 SOTA。

研究背景与动机¶

领域现状：RLVR（可验证奖励强化学习）已经显著提升了通用 VLM 的推理能力，医学界自然想把它搬过来武装医学 VLM（如 Med-R1、MedVLM-R1）。
现有痛点：主流医学 RLVR 几乎全在纯文本域做 chain-of-thought 推理，但临床诊断（定位细小病灶、比较组织密度、解读血流、量化解剖结构）天然需要细粒度的视觉 grounding——纯文本 CoT 给不了。更糟的是纯文本推理容易视觉幻觉：模型靠语言先验编答案而无视图像，在安全攸关的医疗场景里风险不可接受。
核心矛盾：通用域已有 DeepEyes、Pixel-Reasoner 这类"会缩放看图"的工具增强推理框架，但搬到医学有两难——(1) 通用 VLM 缺医学领域知识，对细微病变的 zero-shot 定位不可靠；(2) 要学会有意义的视觉 grounding 通常得对中间步骤做细粒度监督，而医学 bbox 标注极其昂贵稀缺，形成"要监督才能学、但监督拿不到"的悖论。
本文目标：实现annotation-free 的医学视觉推理——让模型像临床医生一样，把文字推敲与图像操作（放大、圈 ROI）自然交错，每一步关键分析都有可验证的视觉证据支撑，且不依赖任何中间步骤标注。
核心 idea：用模型自己的不确定性当"该看哪"的探索信号，用多条成功轨迹的共识当"看对没"的监督信号——两者合成一条完全自监督的视觉推理课程，把昂贵的人工 grounding 标注彻底绕开。

方法详解¶

整体框架¶

MedVR 把 VLM 当成一个策略 \(\pi_\theta\) 的智能体，用 GRPO 优化期望累积奖励（带 KL 约束）。智能体的动作空间除了生成 CoT token，还能调用 Zoom-in 工具裁剪指定图像区域，裁出的视觉证据被编码成特殊 token 回填进上下文，条件后续所有推理。训练靠两个无标注机制协同：EVR（先验探索器）根据生成工具坐标时的 token 熵升高来判断"模型对该看哪没把握"，在这些高不确定点上分叉出多条并行轨迹；CCA（后验蒸馏器）把成功轨迹的放大框聚合成共识热图，作为自生成伪标签去奖励那些"看了对的地方"的轨迹。

flowchart TD
    A[医学图文输入 Q,I] --> B[策略 πθ 生成 CoT + Zoom-in 工具调用]
    B --> C{EVR: 生成坐标时<br/>熵增 ΔHtool 是否高?}
    C -- 高不确定 --> D[以概率 P 分叉<br/>并行探索多个 ROI 假设]
    C -- 低不确定 --> E[继续单一轨迹]
    D --> F[M 条异质轨迹集合]
    E --> F
    F --> G[CCA: 取成功轨迹 T+<br/>放大框聚合成共识掩码 M̂]
    G --> H[按 IoU 与共识对齐<br/>分配 Tool Reward]
    H --> I[复合奖励 R = Racc + Rformat + 1·Rtool]
    I --> J[GRPO 策略更新]
    J --> B

关键设计¶

1. 复合终端奖励：把"答对"和"看对"拆开但挂钩。 没有逐步监督时，奖励必须在轨迹终点给出整体评价。MedVR 设计 \(R(T) = R_{\text{acc}}(T) + R_{\text{format}}(T) + \mathbb{1}(R_{\text{acc}}(T) > 0) \cdot R_{\text{tool}}(T)\)：主奖励看最终答案对错，小幅格式惩罚约束输出合法性，关键是工具奖励 \(R_{\text{tool}}\) 由指示函数门控——只有答对的轨迹才有资格领工具奖励。这个条件结构很重要，它逼模型去发现"视觉动作"与"成功结果"之间的因果关系，从而压制那种乱放大、放大了也没用的投机式工具调用。

2. 熵引导视觉重定位（EVR）：让不确定性告诉模型"该重新看图了"。 核心前提是：生成 Zoom-in 坐标 token 时若熵升高，说明模型知道"需要看图"但拿不准"该看哪个 ROI"。MedVR 持续监控 token 级熵 \(H_t = -\sum_j p_{t,j}\log p_{t,j}\)，先在起始 token 上算一个基线熵 \(H_{\text{base}}\)，再在工具相关 token 的滑窗上算滚动熵 \(H_{\text{tool}}\)，跟踪熵增 \(\Delta H_{\text{tool}} = H_{\text{tool}} - H_{\text{base}}\)。一旦 \(\Delta H_{\text{tool}}\) 显著为正，就以分叉概率 \(P = P_{\text{base}} + \gamma \Delta H_{\text{tool}}\) 触发自适应分叉：fork 当前生成状态、花一份预算开一条新轨迹，不同分支可采样不同坐标，从而在"模型最没把握的地方"集中探索多个视觉假设。rollout 预算一半给基础集、一半留给这种定向探索，输出是 \(M\) 条体现不同视觉搜索假设的异质轨迹。

3. 共识信用分配（CCA）：用"群体智慧"造伪标签。 EVR 产出多样轨迹后，难题是没有 GT 空间标注怎么奖励有益的中间视觉动作。CCA 的假设是：如果多条不同推理路径都答对、且都反复看同一图像区域，那这个区域极可能就是因果相关的解题证据。它先取成功轨迹子集 \(T^+\)，把每条轨迹所有 Zoom-in 框的并集栅格化成二值掩码 \(M_i\)，聚合成共识热图 \(C = \sum_{T_i \in T^+} M_i\)，再用多数票二值化 \(\hat{M}(u,v) = \mathbb{1}(C(u,v) > |T^+|/2)\) 得到共识掩码。然后对每条成功轨迹按它与共识的 IoU 发奖：\(R_{\text{tool}}(T_j) = 1.0\) 若 \(\text{IoU}(M_j, \hat{M}) > \eta\)，否则 \(0.5\)。这个分层结构给"答对"一个 0.5 底分、给"答对且看的地方跟集体共识一致"额外 0.5 奖励——奖励的不只是结果正确，更是视觉过程的可验证性与一致性。EVR 当先验探索器、CCA 当后验蒸馏器，二者闭环成完全自监督的学习循环。

实验关键数据¶

主实验¶

Qwen2.5-VL-7B 为 backbone，GRPO 训练 64 轮（32×H20），6 个医学 VQA 基准（†/⋄ 为 OOD 零样本）：

模型	OMVQA	PMC-VQA⋄	MedXQA⋄	通用 Avg.	VQA-RAD	SLAKE	PathVQA⋄	模态 Avg.
Qwen2.5-VL-7B	59.0	51.2	22.3	44.2	64.5	67.2	44.1	58.6
InternVL3-14B	81.9	54.1	23.1	53.0	66.3	72.8	48.0	62.4
MedGemma-4B	70.5	49.9	15.4	45.3	72.5	76.4	48.8	65.9
Lingshu-7B	84.2	54.3	26.5	55.0	67.9	83.1	61.9	70.3
MedVR (Ours)	96.8	54.3	26.4	59.2	74.4	85.3	62.3	74.0

MedVR 在多选与自由文本两类任务都拿下 SOTA 或并列最优，OOD 集泛化突出，且 7B 规模就胜过领域大规模预训练的 Lingshu-7B 和更大的 InternVL3-14B。

消融实验¶

逐步叠加三个核心组件（文本 RL 基线起步）：

Zoom-in	EVR	CCA	OmniMedVQA	PMC-VQA	MedXpertQA
—	—	—	94.50	53.40	21.38
✓	—	—	94.31	52.62	22.26
✓	✓	—	95.38	53.81	24.73
✓	—	✓	96.55	53.30	23.09
✓	✓	✓	96.77	54.31	26.38

关键发现¶

裸工具反而掉点：只加 Zoom-in 不加 EVR/CCA 在 OmniMedVQA/PMC-VQA 上轻微下降——VLM 不具备零样本用好新工具的能力，没有奖励/探索信号时工具反而引入无效搜索路径。
EVR 主攻 OOD、CCA 主攻 in-domain：EVR 单独加入对 OOD 基准增益最大（提升鲁棒泛化），CCA 单独加入对 in-domain 的 OmniMedVQA 增益最大（强化可靠 grounding）；二者协同才全面最优。
熵权重 \(\gamma\) 有甜点：\(\gamma=0\) 退化成随机采样，性能随 \(\gamma\) 单调上升到 \(\gamma=0.5\) 达峰，再大则过度贪心、探索多样性被压制而下降。
奖励设计层级清晰：w/o Tool Reward < Unconditional < Default（挂钩准确率）< CCA（跨轨迹共识细粒度奖励），印证"奖励可复现的视觉过程"比只奖结果更有效。
可扩展性：rollout 数越多，CCA 能蒸馏出越可靠的伪监督，准确率持续提升。

亮点与洞察¶

把"不确定性"和"群体共识"分别用作探索和监督，二者天然互补：一个解决"该看哪"（先验），一个解决"看对没"（后验），合起来恰好替代了缺失的中间步骤标注，设计相当优雅。
真正 annotation-free：医学 bbox 标注稀缺昂贵是行业级痛点，MedVR 完全用模型自己的成功轨迹造伪标签，把这个瓶颈绕开，临床落地可行性大增。
工具奖励的门控（答对才发奖）+ 分层 IoU 奖励，从机制上压制投机式工具调用、鼓励可验证的视觉过程，比"无脑奖励工具使用"高明。
7B 胜过大规模预训练模型，说明在医学推理上"改进推理过程"比"堆预训练数据"更划算。

局限与展望¶

只用了 Zoom-in 一个视觉操作，临床真实工作流还包括 windowing 调窗、测量、多切片对比等，工具空间还很窄。
CCA 共识假设的脆弱性：当多条轨迹"一致地看错地方"也能答对时，共识伪标签可能强化错误 grounding；论文未深入分析共识与真实病灶的对齐度。
依赖 OmniMedVQA 等现有基准，多为多选/短答，跟真实诊断报告生成的复杂度仍有距离。
计算开销：EVR 的分叉探索 + 大 rollout 预算（16 轨迹/prompt、32 GPU）成本不低，可扩展性虽好但门槛高。

评分¶

新颖性: ⭐⭐⭐⭐ 首个 annotation-free 医学视觉推理框架，EVR+CCA 用熵和共识替代中间监督的组合有原创性。
实验充分度: ⭐⭐⭐⭐ 6 个基准含 OOD、组件/超参/奖励设计/可扩展性消融完整，但视觉工具单一、共识伪标签与真值对齐缺定量验证。
写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法逻辑清晰，先验/后验的类比讲得到位，图示与公式配合好。
价值: ⭐⭐⭐⭐ 直击医学标注稀缺这一行业痛点，7B 超大模型、临床可验证性强，实用价值高。