Fetal-Gauge: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound¶

会议: ICLR 2026
OpenReview: AHZuGrWZ0d
代码: 待确认（论文称 benchmark 已公开）
领域: 医学图像 / 多模态VLM / 评测基准
关键词: 胎儿超声、视觉问答、VLM 评测、Med-VQA、医学影像基准

一句话总结¶

Fetal-Gauge 整合 13 个公开胎儿超声数据集，构建出首个也是规模最大的胎儿超声视觉问答基准（4.2 万张图、9.3 万条问答、五大临床任务），系统评测 15 个主流 VLM，发现最强模型 GPT-5 也只有 55% 准确率，远低于临床可用门槛，暴露出当前 VLM 在胎儿超声上的系统性短板。

研究背景与动机¶

领域现状：超声是产前胎儿健康监测的首要影像手段，全球每年上亿次孕检都依赖它，但训练合格超声医师周期长、成本高，导致超声技师严重短缺。深度学习（尤其能同时处理图像与文本、用一套框架完成多种临床任务的视觉-语言模型 VLM）被寄望于提升效率、辅助新手培训。

现有痛点：医学影像领域已经有不少 VLM 评测基准（VQA-Med、VQA-RAD、SLAKE、PMC-VQA、OmniMedVQA 等），但它们几乎都集中在成人的 CT / MRI / X 光 / 病理切片，没有任何一个专门针对胎儿超声。原因有三：胎儿超声本身成像噪声大、强烈依赖操作者手法、可用的公开标注数据稀缺。

核心矛盾：胎儿超声对 VLM 提出了其他模态没有的独特挑战——需要细粒度空间推理、要在巨大的操作者间差异下读图、还要应对超声特有的伪影；但没有针对性基准，这些短板就永远是隐形的，无法被量化，也就无法驱动模型改进。

本文目标：填补这个空白，把异构的胎儿超声数据统一成一个标准化、可复现的 VLM 评测基准，并系统回答"现成的 VLM 到底能不能读胎儿超声"。

切入角度：作者不去训练新模型，而是先把"评测标尺"立起来——聚合 13 个公开数据集，把分类标签、分割掩码、检测框等异构标注统一成多选题视觉问答（MCQ-VQA）形式，覆盖从高层场景理解到细粒度解剖定位的五类临床任务。

核心 idea：用一个统一、大规模、多任务的 MCQ-VQA 基准（Fetal-Gauge），把现有 VLM 在胎儿超声上的能力与盲区一次性照出来。

方法详解¶

本文不是一个"模型方法"论文，而是一个 benchmark 构建 + 系统评测论文，所以方法详解聚焦三件事：评什么任务、数据怎么从 13 个异构来源汇聚标准化、怎么切分与统计。

整体框架¶

Fetal-Gauge 的构建可以概括为一条数据流水线：13 个公开胎儿超声数据集 → 任务与标注统一（异构标签/掩码/框 → 统一 MCQ-VQA）→ 词表规范化 → 严格病人级切分 → 4.2 万图 / 9.3 万 QA 的五任务基准。在此基准上，再用统一协议（accuracy 指标、按任务分项报告）评测 15 个 VLM，并做微调、phantom vs. 临床、结构尺寸、定性错误等多维分析。整套设计的核心约束是"评测要反映真实泛化能力，而不是病人级记忆"，这一约束贯穿任务设计与数据切分。

关键设计¶

1. 五类临床任务覆盖从场景理解到细粒度定位

作者把胎儿超声医师的实际工作流拆解成五个临床上彼此区分的任务，且全部统一成多选题形式——MCQ 的好处是评测简单、可自动化、能规避自由文本回答里的歧义与幻觉，从而保证打分客观可扩展。五个任务分别是：解剖切面识别（PI，判断图像属于哪个标准切面，如腹围切面、丘脑切面，考基础图像识别）；临床切面合规性（VC，判断图像是否达到诊断可用的标准切面规范，考"够不够用来测量"）；胎儿朝向评估（FO，判断胎儿在扫描中的方位，关乎胎位与分娩规划）；临床诊断（CD，把图像分为正常/良性/恶性，考诊断推理）；解剖结构视觉定位（VG，给定一张画了红色边界框的图，判断框内是什么解剖结构，直接考空间推理与细粒度识别）。这五个任务从高层（PI/VC）到细粒度（VG）形成梯度，能分层暴露模型的不同能力短板。

2. 异构标注统一为带红框的视觉问答

13 个来源数据集的标注五花八门——有图像级标签、有分割掩码、有边界框。最棘手的是怎么把它们灌进同一种问答格式。作者的做法是：对带分割掩码的数据，把掩码转成其外接边界框坐标，再把这个框以红色矩形叠加到原图上，于是定位问题就能统一表述成"红框里代表什么结构？"这一句话（"What does the red bounding box represent?"）。这一步巧妙地把分割任务"降维"成了可用 MCQ 评测的视觉定位任务，让原本无法直接问答的像素级标注也能纳入统一基准。

3. 词表规范化压制多源标签噪声

多源聚合带来标签不一致：临床缩写（如 "abdomcirc"）要展开成完整术语（"abdominal circumference plane"），同义词要归一。对于某些数据集没有标出器官内部具体切面的情况（比如心脏只标了 "heart plane"，而没区分"三血管切面"还是"四腔心切面"，脑、腹同理），作者保留一个通用的"[器官] plane"标签，保证全基准术语口径一致。这一步看似琐碎，却是让跨数据集评测公平、答案选项不被噪声污染的前提。

4. 病人级严格切分 + 小数据集全进测试集

为了让评测衡量的是真泛化而非"记住了某个病人"，切分策略很讲究：能用原始 train-test 划分就沿用；没有预设划分的，强制病人级切分以杜绝数据泄漏；样本量小的数据集干脆整个分到测试集，专门考"对未见分布的泛化"。同时剔除临床价值低的类别（如 "other"），把基准聚焦到定义明确、有意义的临床任务上。此外，约 1.9 万张图来自解剖 phantom（教学模型），作者将其视为有意设计而非缺陷——phantom 是培训超声医师的标准手段，纳入后可支撑教育/仿真场景的 DL 系统开发，并能单独评测模型在受控可重复环境下的表现。最终基准规模为 42,036 张图、93,451 条问答，是迄今最大的胎儿超声 VLM 数据集。

实验关键数据¶

主实验¶

评测 15 个 VLM（6 个医学专用、8 个通用、1 个商用 GPT-5），外加随机猜测基线；指标为各任务的 accuracy。核心发现是当前 VLM 在胎儿超声上整体很弱——最强的 GPT-5 总体也只有 55%，多数模型在随机水平（26%）附近徘徊。

模型	PI	VC	FO	CD	VG	Overall
随机猜测	0.26	0.47	0.24	0.35	0.25	0.26
GPT-5（商用最强）	0.66	0.62	0.23	0.20	0.58	0.55
Lingshu-32B	0.53	0.57	0.24	0.23	0.47	0.46
Lingshu-7B	0.39	0.61	0.24	0.24	0.45	0.40
Llama-3.2-11B-Vision	0.40	0.55	0.23	0.23	0.31	0.33
Qwen2.5-VL-7B	0.24	0.58	0.24	0.39	0.23	0.24
MedVLM-R1	0.21	0.54	0.25	0.26	0.18	0.21

按任务看：PI 与 VG 上模型差异最大，GPT-5 和 Lingshu 系列明显高出一截；而 VC 与 FO 上所有模型都在随机水平，没有任何模型表现出有意义的能力。

微调与结构尺寸分析¶

针对性微调能大幅翻盘：用 LoRA 在训练集上微调后，Llama-3.2-11B 总体准确率从 33% 飙到 85%，Qwen2.5-VL-7B 从 24% 升到 52%，说明短板更多源于领域数据缺失而非架构本身。视觉定位则受结构尺寸强烈影响。

边界框尺寸	GPT-5	Lingshu-32B	Lingshu-7B	说明
大（2,160 题）	0.85	0.79	0.82	大结构常超 80%
中（1,799 题）	0.67	0.45	0.45	急剧下滑
小（7,373 题）	0.48	0.38	0.34	多数 <50%

关键发现¶

任务难度分层明显：PI/VG 能拉开差距，VC/FO 全员近随机，说明"朝向"和"合规性判断"是当前 VLM 的共同盲区。
超声预训练是关键变量：Lingshu 是唯一明确报告训练过（成人）超声数据的开源模型组，也正是开源里最强的——即便是成人超声，也提供了可迁移到胎儿超声的解剖先验。
现成医学 VLM 收益有限：评测的医学 VLM 都没在胎儿超声上训练过，成人 MRI/CT 与胎儿超声在外观和分辨率上差异大，只能提供比自然图像略近的先验，故表现"略好但仍不够"。
细粒度定位是硬伤：框越小准确率掉得越狠，而临床恰恰需要精确定位小结构。
phantom 比临床图更难：多数模型在 phantom 上接近甚至低于随机，而在真实临床图上普遍超过随机，暴露持续存在的域适配缺口。
GPT-5 的优势存疑：作者直言其闭源专有训练数据可能已包含胎儿超声或相关医学数据，因此领先未必代表架构更强。

亮点与洞察¶

"红框转 VQA"是可复用的工程 trick：把分割掩码取外接框、叠红色矩形再问"框里是什么"，一举把像素级标注降维成 MCQ，让异构标注能塞进统一基准——这个套路可迁移到任何需要把检测/分割统一进 VQA 的场景。
MCQ 化的评测哲学：用多选题规避自由文本的歧义、幻觉与不可自动评分，是 benchmark 设计里"为了可扩展客观打分而牺牲一点开放性"的务实权衡。
把 phantom 数据从"缺陷"重定义为"特性"：作者论证 phantom 是培训标准手段，纳入后能支撑教育/仿真，并提供受控可重复的评测维度——这是一个值得借鉴的叙事与设计视角。
最有价值的"啊哈"：连 GPT-5 都只有 55%，但 LoRA 微调能把 11B 模型推到 85%——说明胎儿超声的瓶颈主要是数据可得性而非模型容量，这给后续"领域适配 + 专门训练"指明了高性价比方向。

局限与展望¶

作者承认的局限：GPT-5 领先可能源于训练数据污染（可能见过胎儿超声），使其结果难以作为"架构能力"的纯粹证据；现成医学 VLM 普遍未在胎儿超声上训练，评测更多反映"没见过"而非"学不会"。
评测形式的局限：全 MCQ 形式虽便于打分，但与真实临床中超声医师的开放式报告、连续测量、交互式追问相去甚远，高 MCQ 分数不等于临床可用。
数据来源的局限：基准由 13 个公开数据集拼成，phantom 占比近半（1.9 万/4.2 万），整体分布与真实临床扫描分布之间仍有差距；不同子任务难度不可直接横向比大小（如不能因 VC 数值高就说模型在 VC 上更强，其随机基线本就 0.47）。
改进思路：补充开放式问答与测量类任务、引入更贴近临床的私有数据、针对小/中结构定位与 phantom 域做专门的领域适配训练，是把"55% 天花板"推向临床门槛的关键。

评分¶

新颖性: ⭐⭐⭐⭐ 首个也是最大的胎儿超声 VLM 基准，填补明确空白，但"聚合+VQA 化"在方法论上属常规组合。
实验充分度: ⭐⭐⭐⭐⭐ 15 个模型 × 5 任务，外加微调、phantom vs 临床、结构尺寸、定性错误多维分析，覆盖全面。
写作质量: ⭐⭐⭐⭐ 结构清晰、任务与数据流水线讲得明白，分析诚实（主动指出 GPT-5 数据污染嫌疑）。
价值: ⭐⭐⭐⭐⭐ 为产前超声这一高需求、高短缺临床场景立起评测标尺，并指明数据适配的高性价比方向，临床与研究价值都高。