MedLesionVQA: A Multimodal Benchmark Emulating Clinical Visual Diagnosis for Body Surface Health¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=BYtqk6AVuL
代码: https://github.com/bytedance/MedLesionVQA
领域: 医学影像 / 多模态评测基准
关键词: 体表健康, 视觉诊断, 医学 MLLM, VQA 基准, 皮肤病变, 临床评估
一句话总结¶
字节跳动小荷团队联合协和长庚医院构建的 MedLesionVQA,是首个对齐医生"分步视觉诊断流程"的体表健康多模态基准——12K 张从未泄露的院内真实患者图像 + 19K 专家审核 QA,覆盖 94 类病变 / 110 个身体部位 / 96 种疾病,实测 20+ 主流 MLLM 最高仅 56.2%,远低于初级医生 61.4% 和资深专家 73.2%。
研究背景与动机¶
领域现状:用手机拍照让 MLLM 判断皮肤、指甲、口腔、毛发等体表健康问题,是医疗多模态最高频的落地场景之一。GPT-4V、Gemini、Qwen-VL 等通用 MLLM 以及 HuatuoGPT、MedGemma 等医疗专用模型都宣称具备"医生级"辅助能力。
现有痛点:现有医学基准存在两类硬伤。一类是 GMAI-MMBench、OmniMedVQA 这种"广撒网"型,靠聚合开源网站数据扩到几十个模态,规模够大但内容陈旧、缺专家标注,无法支撑病变解读和治疗建议;另一类是 SkinCon、DDI 这种"专精"型,有专家标注但任务单一(只做疾病分类甚至二分类良恶性),且规模极小(SkinCon 仅 3700 图、DDI 仅 656 例),既不能反映真实临床复杂度,也不足以做稳健评测。
核心矛盾:真实医生的诊断是分步推进的视觉工作流——从细粒度识别(病变类型、部位、属性、空间关系),到推理、诊断、给出治疗建议,跨皮肤科、口腔科、外科多个科室。但现有基准都把它压缩成"一张图→一个疾病标签"的分类题,根本没法检验模型是否真的能像医生那样一步步看图诊断。
本文目标:构建首个显式对齐体表健康视觉诊断流程的大规模基准,用真实临床场景的题目检验 MLLM 能否复刻医生的分步诊断能力,并与人类医生直接对照暴露差距。
核心 idea:[流程对齐] 把医生的临床诊疗流程拆成 7 项核心能力分别出题;[真实院内数据] 12K 图全部来自真实患者就诊、绝不泄露上网,杜绝数据污染;[专家全程把关] 由 20+ 年经验的资深主任医师按权威教科书设计标注协议并逐条审核。
方法详解¶
整体框架¶
MedLesionVQA 的构建分四步串联:先做图像采集与预处理(质量过滤、内容审查、去标识、分布均衡);再由数十名医生执行分级标注协议(身体部位→病变→属性→疾病诊断→建议治疗,逐层标注并经资深专家复核,实体级精度/召回 >95%);然后基于真实临床问题做QA 构造(按 7 项能力的真实分布平衡出题,生成多选+开放两类题,再人工审核改写);最后用自动评分流水线对齐医生打分。整个流程的灵魂是把"医生怎么看病"翻译成"模型怎么答题"。
flowchart LR
A[12K 院内真实图像] --> B[预处理<br/>质检/去标识/均衡]
B --> C[分级标注协议<br/>部位→病变→属性→疾病→治疗]
C --> D[QA 构造<br/>7 能力平衡 + 多选/开放]
D --> E[人工审核改写]
E --> F[19K QA 基准]
F --> G[自动评分流水线<br/>对齐医生判分]
关键设计¶
1. 七项分步视觉诊断能力:把临床工作流拆成可评测维度。 参照权威皮肤病学教材,作者将医生诊断流程拆成七项核心能力——病变识别(Lesion Recognition)、部位识别(Location Recognition)、属性识别(Attribute Recognition)、空间关系(Spatial Relation)、病变推理(Lesion Reasoning)、疾病诊断(Disease Diagnosis)、建议与治疗(Suggestion & Treatment)。题量分布刻意贴合真实临床比例:病变+属性+部位三项细粒度识别占 61%,因为它们是后续诊断的根基。每种病变类型按真实世界分布等权重采样,保证覆盖全面而非长尾失衡。
2. 树状细粒度标注体系:让评测精确到"虎口到指尖"。 标注覆盖 94 类病变、110 个身体部位/子部位、96 种疾病。身体部位用"词法树"组织,按二级节点标注——一只手就细分为从虎口到指尖的 9 个区域。每个病变都标注 size、color、shape、quantity、distribution、boundary 六大属性,且都是多选项(而非"是/否"二值)、每项至少配 7 种文本描述,还区分原发/继发病变及其共现关系。疾病标注由两位医生各给出最多 3 个鉴别诊断并按合理性排序,用排名倒数作权重融合 \(w_i = 1/\text{rank}_i\) 得到最终排序,并附诊断推理逻辑。
3. 真实问题模板 + 双类题型:既贴临床又可机器评分。 QA 不是凭空捏造,而是以真实临床问题为模板自动生成、再经医生审核精修。题型分多选与开放两类,开放题进一步含判断、填空、简答。多选题会基于正确答案构造相似干扰项并随机打乱选项位置,杜绝答案位置偏置;开放题答案刻意保持简洁,降低后续自动评分的歧义。最终 19,843 条 QA 划分为验证集 1,499 条(7.55%)和测试集 18,344 条(92.45%)。
4. 对齐医生的自动评分流水线:多选按比例、开放靠裁判模型。 多选题先用提取提示从模型原始输出里抽出选项,再按规则评分:若含错误选项直接 0 分,若漏选则按正确选项命中比例给分 \(s = |\text{pred} \cap \text{gold}| / |\text{gold}|\)。开放题用 GPT-4 作裁判,以 0 / 0.5 / 1.0 三档打分。作者发现裁判模型对颜色("pink"vs"skin tone")、尺寸("pinpoint"vs"millimeter")等属性因缺医学常识而过于严苛,于是在提示里补充颜色/尺寸的评估细则,使模型评分与医生人工评分高度一致。
实验关键数据¶
主实验表格(测试集/验证集平均准确率,节选)¶
| 模型 | AVG_val | AVG_test | 病变识别 | 部位识别 | 疾病诊断 |
|---|---|---|---|---|---|
| 资深专家 | 0.7321 | - | 0.6826 | 0.7583 | 0.7313 |
| 初级医生 | 0.6144 | - | 0.5932 | 0.6218 | 0.6258 |
| Gemini-2.5-pro | 0.5624 | - | 0.4902 | 0.5166 | 0.6048 |
| GPT-5 | 0.5252 | - | 0.4741 | 0.5109 | 0.4444 |
| Claude4-opus | 0.5139 | - | 0.3906 | 0.4513 | 0.5744 |
| GPT-4V | 0.4938 | 0.4915 | 0.4071 | 0.4780 | 0.5132 |
| Qwen2.5-VL-72B | 0.4904 | 0.4904 | 0.3735 | 0.4636 | 0.5272 |
| GLM-4V-9B | 0.4654 | 0.4474 | 0.3472 | 0.4528 | 0.4929 |
| LLaVA-med-v1.5-7B | 0.0885 | 0.0791 | 0.0372 | 0.0715 | 0.0535 |
最好的 MLLM(Gemini-2.5-pro)56.2% 仍低于初级医生 5 个点、低于资深专家 17 个点;病变识别这种纯视觉任务模型最高仅 49%。
消融实验表格(纯文本 vs 图文输入,节选)¶
| 模型 | 图文 Suggestion | 纯文本 Suggestion | 图文 AVG_val | 纯文本 AVG_val |
|---|---|---|---|---|
| Qwen2.5-VL-72B | 0.8246 | 0.8124 | 0.4904 | 0.3478 |
| InternVL2.5-78B | 0.7963 | 0.8014 | 0.4790 | 0.3636 |
| GPT-4V | 0.8216 | 0.8140 | 0.4938 | 0.3089 |
"建议治疗"任务去掉图像后准确率几乎不变(82.4% → 81.2%),证明这类分数主要靠语言先验而非真正看图。
关键发现¶
- Insight 1:MLLM 当不了体表健康医生。 全部代表性模型准确率 <57%,主因是病变类型/部位/属性/关系的识别错误——这些恰是人类医生做得最稳的环节。
- Insight 2:文本能力让模型"显得"更行。 治疗建议得分在有无图像下都高,说明 MLLM 靠流畅的文本生成营造了专业假象,一到真正吃视觉的识别任务就露馅。
- Insight 3:模型越大越好,但有递减和反例。 <1B 模型几乎全崩(<0.2);GLM-4V-9B(0.465)反超 InternVL2.5-38B(0.309);InternVL2.5-78B 在疾病诊断上甚至不如更小模型。
- Insight 4:需重新审视医疗专用模型。 LLaVA-med-v1.5-7B 比通用 LLaVA-v1.5-7B 差 18%,MedGemma-4b 也不如 InternVL2.5-4B——SFT 领域适配易过拟合放射报告等模式,反而损害泛化与推理。
- 错误分析:GPT-4V 错误中 94.2% 是"缺乏知识",本质是未能把通用医学知识落到具体图像的解剖定位上(泛泛谈毛囊炎/痤疮的教科书特征,却没分析图中实际病灶)。
亮点与洞察¶
- 数据"绝不泄露"是真正的护城河:12K 图全部院内采集、从未上网,彻底规避了公开基准被训练数据污染、刷分失真的老问题,这对评测可信度是质的提升。
- 把"工作流"而非"标签"作为评测单位,七项能力的分维度结果直接定位了模型短板——视觉识别弱、文本生成强,为后续医疗 MLLM 的训练改进指明方向。
- 纯文本消融是点睛之笔:用最简单的对照(去掉图像)就戳穿了"治疗建议高分"的水分,提醒社区评测医疗模型必须做完整临床流程评估,别被单点高分误导。
- 专家深度参与:20+ 年经验主任医师设计协议+逐条审核、实体级精度召回 >95%、裁判模型与医生评分对齐,标注质量在医学基准里属于第一梯队。
局限与展望¶
- 仅评测、不训练:论文只提供基准与诊断分析,没有给出缩小 MLLM 与医生差距的方法或基线训练方案,"怎么补"留给了后续工作。
- 体表可见病变范围:聚焦皮肤/口腔/指甲等可拍摄的体表健康,不涉及 X 光、CT、MRI 等内部影像,跨模态医疗诊断仍需其他基准补充。
- 裁判模型仍有偏差:开放题靠 GPT-4 评分,虽经提示校准但对颜色/尺寸等细粒度属性的判断仍依赖人工补丁,大规模自动评分的稳健性有待进一步验证。
- 人类基线规模有限:医生基线只在 1499 题的验证集上由 15+15 名医生作答,样本量相对模型评测的测试集偏小。
相关工作与启发¶
- 与通用医学 VQA 基准的差异:相比 OmniMedVQA(119K 公开图)、GMAI-MMBench(26K 公开图)的"大而泛",MedLesionVQA 以"院内真实+专家标注+流程对齐"取胜,体现了医疗评测从"规模竞赛"转向"临床真实性"的趋势。
- 与皮肤专科数据集的差异:SkinCon(病变概念)、DDI(良恶性二分类)、Fitzpatrick17K(疾病分类)都是单任务标签,本文首次把识别→推理→诊断→治疗串成端到端 VQA。
- 对医疗 MLLM 训练的启发:Insight 4 关于"SFT 领域适配反伤泛化"的发现,呼应了通用大模型社区对"过度专精损害推理"的讨论,提示医疗模型或许需要更轻量的领域注入或检索增强而非粗暴 SFT。
- 评测方法论启发:纯文本对照这一简单设计,值得所有多模态医疗基准借鉴,用以剥离语言先验、衡量真实视觉贡献。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个对齐医生分步视觉诊断流程的体表健康基准,7 能力维度 + 院内未泄露数据的组合具有明确独创性,但属于"高质量基准"而非方法突破。
- 实验充分度: ⭐⭐⭐⭐⭐ 评测 20+ 主流开/闭源 MLLM、建立医生双层基线、做纯文本消融与逐能力错误分析,广度与深度俱佳。
- 写作质量: ⭐⭐⭐⭐ 动机—构建—评测—洞察逻辑清晰,四条 Insight 提炼到位;个别表述(如部位数 110 与 119 不一致)略有瑕疵。
- 价值: ⭐⭐⭐⭐⭐ 为可信医疗 AI 提供了高质量、抗污染的评测标尺,实证戳穿"MLLM 医生级"宣传,对学界与产业落地都有直接参考价值。