MedLesionVQA: A Multimodal Benchmark Emulating Clinical Visual Diagnosis for Body Surface Health¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=BYtqk6AVuL
代码: https://github.com/bytedance/MedLesionVQA
领域: 医学影像 / 多模态评测基准
关键词: 体表健康, 视觉诊断, 医学 MLLM, VQA 基准, 皮肤病变, 临床评估

一句话总结¶

字节跳动小荷团队联合协和长庚医院构建的 MedLesionVQA，是首个对齐医生"分步视觉诊断流程"的体表健康多模态基准——12K 张从未泄露的院内真实患者图像 + 19K 专家审核 QA，覆盖 94 类病变 / 110 个身体部位 / 96 种疾病，实测 20+ 主流 MLLM 最高仅 56.2%，远低于初级医生 61.4% 和资深专家 73.2%。

研究背景与动机¶

领域现状：用手机拍照让 MLLM 判断皮肤、指甲、口腔、毛发等体表健康问题，是医疗多模态最高频的落地场景之一。GPT-4V、Gemini、Qwen-VL 等通用 MLLM 以及 HuatuoGPT、MedGemma 等医疗专用模型都宣称具备"医生级"辅助能力。

现有痛点：现有医学基准存在两类硬伤。一类是 GMAI-MMBench、OmniMedVQA 这种"广撒网"型，靠聚合开源网站数据扩到几十个模态，规模够大但内容陈旧、缺专家标注，无法支撑病变解读和治疗建议；另一类是 SkinCon、DDI 这种"专精"型，有专家标注但任务单一(只做疾病分类甚至二分类良恶性)，且规模极小(SkinCon 仅 3700 图、DDI 仅 656 例)，既不能反映真实临床复杂度，也不足以做稳健评测。

核心矛盾：真实医生的诊断是分步推进的视觉工作流——从细粒度识别(病变类型、部位、属性、空间关系)，到推理、诊断、给出治疗建议，跨皮肤科、口腔科、外科多个科室。但现有基准都把它压缩成"一张图→一个疾病标签"的分类题，根本没法检验模型是否真的能像医生那样一步步看图诊断。

本文目标：构建首个显式对齐体表健康视觉诊断流程的大规模基准，用真实临床场景的题目检验 MLLM 能否复刻医生的分步诊断能力，并与人类医生直接对照暴露差距。

核心 idea：[流程对齐] 把医生的临床诊疗流程拆成 7 项核心能力分别出题；[真实院内数据] 12K 图全部来自真实患者就诊、绝不泄露上网，杜绝数据污染；[专家全程把关] 由 20+ 年经验的资深主任医师按权威教科书设计标注协议并逐条审核。

方法详解¶

整体框架¶

MedLesionVQA 的构建分四步串联：先做图像采集与预处理(质量过滤、内容审查、去标识、分布均衡)；再由数十名医生执行分级标注协议(身体部位→病变→属性→疾病诊断→建议治疗，逐层标注并经资深专家复核，实体级精度/召回 >95%)；然后基于真实临床问题做QA 构造(按 7 项能力的真实分布平衡出题，生成多选+开放两类题，再人工审核改写)；最后用自动评分流水线对齐医生打分。整个流程的灵魂是把"医生怎么看病"翻译成"模型怎么答题"。

flowchart LR
    A[12K 院内真实图像] --> B[预处理<br/>质检/去标识/均衡]
    B --> C[分级标注协议<br/>部位→病变→属性→疾病→治疗]
    C --> D[QA 构造<br/>7 能力平衡 + 多选/开放]
    D --> E[人工审核改写]
    E --> F[19K QA 基准]
    F --> G[自动评分流水线<br/>对齐医生判分]

关键设计¶

1. 七项分步视觉诊断能力：把临床工作流拆成可评测维度。 参照权威皮肤病学教材，作者将医生诊断流程拆成七项核心能力——病变识别(Lesion Recognition)、部位识别(Location Recognition)、属性识别(Attribute Recognition)、空间关系(Spatial Relation)、病变推理(Lesion Reasoning)、疾病诊断(Disease Diagnosis)、建议与治疗(Suggestion & Treatment)。题量分布刻意贴合真实临床比例：病变+属性+部位三项细粒度识别占 61%，因为它们是后续诊断的根基。每种病变类型按真实世界分布等权重采样，保证覆盖全面而非长尾失衡。

2. 树状细粒度标注体系：让评测精确到"虎口到指尖"。 标注覆盖 94 类病变、110 个身体部位/子部位、96 种疾病。身体部位用"词法树"组织,按二级节点标注——一只手就细分为从虎口到指尖的 9 个区域。每个病变都标注 size、color、shape、quantity、distribution、boundary 六大属性,且都是多选项(而非"是/否"二值)、每项至少配 7 种文本描述,还区分原发/继发病变及其共现关系。疾病标注由两位医生各给出最多 3 个鉴别诊断并按合理性排序,用排名倒数作权重融合 \(w_i = 1/\text{rank}_i\) 得到最终排序,并附诊断推理逻辑。

3. 真实问题模板 + 双类题型：既贴临床又可机器评分。 QA 不是凭空捏造,而是以真实临床问题为模板自动生成、再经医生审核精修。题型分多选与开放两类,开放题进一步含判断、填空、简答。多选题会基于正确答案构造相似干扰项并随机打乱选项位置,杜绝答案位置偏置;开放题答案刻意保持简洁,降低后续自动评分的歧义。最终 19,843 条 QA 划分为验证集 1,499 条(7.55%)和测试集 18,344 条(92.45%)。

4. 对齐医生的自动评分流水线:多选按比例、开放靠裁判模型。 多选题先用提取提示从模型原始输出里抽出选项,再按规则评分:若含错误选项直接 0 分,若漏选则按正确选项命中比例给分 \(s = |\text{pred} \cap \text{gold}| / |\text{gold}|\)。开放题用 GPT-4 作裁判,以 0 / 0.5 / 1.0 三档打分。作者发现裁判模型对颜色("pink"vs"skin tone")、尺寸("pinpoint"vs"millimeter")等属性因缺医学常识而过于严苛,于是在提示里补充颜色/尺寸的评估细则,使模型评分与医生人工评分高度一致。

实验关键数据¶

主实验表格(测试集/验证集平均准确率,节选)¶

模型	AVG_val	AVG_test	病变识别	部位识别	疾病诊断
资深专家	0.7321	-	0.6826	0.7583	0.7313
初级医生	0.6144	-	0.5932	0.6218	0.6258
Gemini-2.5-pro	0.5624	-	0.4902	0.5166	0.6048
GPT-5	0.5252	-	0.4741	0.5109	0.4444
Claude4-opus	0.5139	-	0.3906	0.4513	0.5744
GPT-4V	0.4938	0.4915	0.4071	0.4780	0.5132
Qwen2.5-VL-72B	0.4904	0.4904	0.3735	0.4636	0.5272
GLM-4V-9B	0.4654	0.4474	0.3472	0.4528	0.4929
LLaVA-med-v1.5-7B	0.0885	0.0791	0.0372	0.0715	0.0535

最好的 MLLM(Gemini-2.5-pro)56.2% 仍低于初级医生 5 个点、低于资深专家 17 个点;病变识别这种纯视觉任务模型最高仅 49%。

消融实验表格(纯文本 vs 图文输入,节选)¶

模型	图文 Suggestion	纯文本 Suggestion	图文 AVG_val	纯文本 AVG_val
Qwen2.5-VL-72B	0.8246	0.8124	0.4904	0.3478
InternVL2.5-78B	0.7963	0.8014	0.4790	0.3636
GPT-4V	0.8216	0.8140	0.4938	0.3089

"建议治疗"任务去掉图像后准确率几乎不变(82.4% → 81.2%),证明这类分数主要靠语言先验而非真正看图。

关键发现¶

Insight 1：MLLM 当不了体表健康医生。 全部代表性模型准确率 <57%,主因是病变类型/部位/属性/关系的识别错误——这些恰是人类医生做得最稳的环节。
Insight 2：文本能力让模型"显得"更行。 治疗建议得分在有无图像下都高,说明 MLLM 靠流畅的文本生成营造了专业假象,一到真正吃视觉的识别任务就露馅。
Insight 3：模型越大越好,但有递减和反例。 <1B 模型几乎全崩(<0.2);GLM-4V-9B(0.465)反超 InternVL2.5-38B(0.309);InternVL2.5-78B 在疾病诊断上甚至不如更小模型。
Insight 4：需重新审视医疗专用模型。 LLaVA-med-v1.5-7B 比通用 LLaVA-v1.5-7B 差 18%,MedGemma-4b 也不如 InternVL2.5-4B——SFT 领域适配易过拟合放射报告等模式,反而损害泛化与推理。
错误分析:GPT-4V 错误中 94.2% 是"缺乏知识",本质是未能把通用医学知识落到具体图像的解剖定位上(泛泛谈毛囊炎/痤疮的教科书特征,却没分析图中实际病灶)。

亮点与洞察¶

数据"绝不泄露"是真正的护城河:12K 图全部院内采集、从未上网,彻底规避了公开基准被训练数据污染、刷分失真的老问题,这对评测可信度是质的提升。
把"工作流"而非"标签"作为评测单位,七项能力的分维度结果直接定位了模型短板——视觉识别弱、文本生成强,为后续医疗 MLLM 的训练改进指明方向。
纯文本消融是点睛之笔:用最简单的对照(去掉图像)就戳穿了"治疗建议高分"的水分,提醒社区评测医疗模型必须做完整临床流程评估,别被单点高分误导。
专家深度参与:20+ 年经验主任医师设计协议+逐条审核、实体级精度召回 >95%、裁判模型与医生评分对齐,标注质量在医学基准里属于第一梯队。

局限与展望¶

仅评测、不训练:论文只提供基准与诊断分析,没有给出缩小 MLLM 与医生差距的方法或基线训练方案,"怎么补"留给了后续工作。
体表可见病变范围:聚焦皮肤/口腔/指甲等可拍摄的体表健康,不涉及 X 光、CT、MRI 等内部影像,跨模态医疗诊断仍需其他基准补充。
裁判模型仍有偏差:开放题靠 GPT-4 评分,虽经提示校准但对颜色/尺寸等细粒度属性的判断仍依赖人工补丁,大规模自动评分的稳健性有待进一步验证。
人类基线规模有限:医生基线只在 1499 题的验证集上由 15+15 名医生作答,样本量相对模型评测的测试集偏小。

评分¶

新颖性: ⭐⭐⭐⭐ 首个对齐医生分步视觉诊断流程的体表健康基准,7 能力维度 + 院内未泄露数据的组合具有明确独创性,但属于"高质量基准"而非方法突破。
实验充分度: ⭐⭐⭐⭐⭐ 评测 20+ 主流开/闭源 MLLM、建立医生双层基线、做纯文本消融与逐能力错误分析,广度与深度俱佳。
写作质量: ⭐⭐⭐⭐ 动机—构建—评测—洞察逻辑清晰,四条 Insight 提炼到位;个别表述(如部位数 110 与 119 不一致)略有瑕疵。
价值: ⭐⭐⭐⭐⭐ 为可信医疗 AI 提供了高质量、抗污染的评测标尺,实证戳穿"MLLM 医生级"宣传,对学界与产业落地都有直接参考价值。