Gastric-X: A Multimodal Multi-Phase Benchmark Dataset for Advancing Vision-Language Models in Gastric Cancer Analysis¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://huggingface.co/datasets/HaoChen2/Gastric-X （数据集，论文称将随发表开放完整版）
领域: 医学图像
关键词: 胃癌诊断, 多模态benchmark, 多相CT, 医学VLM, 临床推理

一句话总结¶

Gastric-X 构建了一个以真实胃癌诊疗流程为蓝本、把四相 3D CT + 内镜图 + 结构化生化指标 + 临床报告在患者级别对齐的 1.7K 例多模态 benchmark，并定义 VQA、报告生成、跨模态检索、分期分类、病灶检测五大任务，系统评测了 6 个通用/医学 VLM，揭示当前模型在「让多模态证据真正互相印证」上仍有明显差距。

研究背景与动机¶

领域现状：CLIP、BLIP、Flamingo 等视觉-语言模型（VLM）在自然图像上展现了强跨模态推理能力，医学界自然想把这套范式迁到临床诊断。已有的医学 VLM 多建立在 MIMIC-CXR、CheXpert、PadChest 这类「单模态 2D 影像 + 自由文本报告」的数据集上，近期才出现 MedVL-CT69K、3D-RAD 等少量体素级 CT 数据。

现有痛点：这些 benchmark 几乎都停留在「影像-报告匹配」，绝大多数缺三样真实诊断离不开的东西——多相位/动态影像（同一部位在不同造影时相下的变化）、结构化生化检验（血常规、肿瘤标志物等）、精确病灶定位标注。模型只能学到影像和文字之间表层的相关性，无法复现医生「多源证据交叉印证」的推理。

核心矛盾：肿瘤学诊断本质是多模态的——放射科看多相 CT、消化科看内镜、再结合化验值和病史综合判断；但现有数据集只给模型「半张拼图」，于是 VLM 在真实临床推理上泛化失败。

本文目标：造一个直接源自真实胃癌诊疗工作流、把异质证据在患者级别对齐的数据集，并配上能模拟临床各阶段的评测任务，从而既测模型性能、又探问「当前 VLM 能不能把生化信号、肿瘤空间特征和文本报告真正关联起来」。

核心 idea：用「四模态患者级对齐 + 临床级专家标注 + 五任务评测协议」三件套，把整条诊断信息流灌进一个统一 benchmark，逼 VLM 去做真正的多模态印证而非表层匹配。

方法详解¶

整体框架¶

Gastric-X 不是一个新模型，而是一个数据集 + 评测协议的工程。它从 1.74K 真实胃癌患者的诊疗记录出发，把四类异质证据——四相 3D CT（非造影/动脉/静脉/平衡期）、内镜图、结构化生化与 EHR、三类临床报告——在患者级别对齐，再叠上专家标注的三层 3D 边界框、TNM 分期和从报告蒸馏出的 VQA 对，最后定义五个对应临床各环节的任务，并给出一套把通用/医学 VLM 适配到多模态多相输入的统一方案来跑评测。

规模上：7.1K 个 CT 扫描（共 83.48K 张切片）、1.7K 张内镜图、21,408 个 3D 边界框、26,760 个 VQA 对、11 项血清生化 + 5 个肿瘤标志物 + 134 项结构化 EHR。下图按「原始诊疗数据 → 对齐 → 标注 → 任务 → 适配 → 评测」串起整条构造与评测管线：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实胃癌诊疗记录<br/>CT/内镜/化验/报告"] --> B["1. 四模态患者级对齐<br/>四相CT+内镜+生化+报告"]
    B --> C["2. 临床级专家标注<br/>三层3D bbox + TNM分期"]
    C --> D["3. 五任务评测协议<br/>报告蒸馏26760 VQA对"]
    D --> E["4. VLM多模态适配<br/>异常值压缩+bbox软先验"]
    E --> F["6个通用/医学VLM<br/>横向评测"]

关键设计¶

1. 四模态患者级对齐：把整条诊断信息流灌进一条记录

针对「现有数据集只给半张拼图」的痛点，Gastric-X 的核心不在于某一种模态做得多好，而在于把临床医生真实会同时翻阅的四类证据对齐到同一个患者：① 四相 3D CT（动脉、静脉、平衡、非造影），每一相反映造影剂经过胃壁时不同的血流灌注与组织强化，医生正是靠这些动态差异判断病程；② 内镜图，提供 CT 看不到的黏膜纹理、颜色和微血管细节，捕捉早期恶变信号；③ 结构化生化——11 项血清生化、5 个肿瘤标志物、外加 134 项 EHR；④ CT 报告 / 内镜报告 / 诊断报告三类文本。和 Table 1 里其他数据集对比，Gastric-X 是唯一同时勾满「多相位 + 生化数据 + 病灶标注 + 报告」四列的资源——这种「患者级多模态全配齐」正是逼模型做交叉印证的前提，而不是像 MIMIC-CXR 那样只能学影像-报告匹配。

2. 临床级专家标注：三层 3D 边界框 + TNM 分期落地真实语义

光有模态还不够，要让数据有「临床语义」就得有医生级的 ground truth。每个 CT 研究在四个相位上各给三个 3D 边界框，按诊断关注度分三个层级——肿瘤核心、区域淋巴结、整个胃区域，覆盖多尺度病灶分析；1.74K 患者 × 4 相 × 3 框累计得到 21,408 个 3D bbox。分期标注采用临床标准的 TNM 体系：分别评估原发肿瘤（T）、区域淋巴结（N）、远处转移（M），三者汇成 overall stage，这套标注直接对应治疗决策与预后判断。所有标注由一线临床医生在 IRB 伦理批准下完成并交叉复核，去标识化处理，保证可作为可靠的训练/评测信号。这一层是 Gastric-X 区别于「只有影像-报告」数据集的关键——它把医生的空间定位与分期判断显式写进了标签。

3. 五任务评测协议：用报告蒸馏 VQA，把临床各环节映射成可测任务

数据齐了还要有「怎么考」的标准。作者基于三类报告构造了 26,760 个 VQA 对，把叙述性的临床观察转成结构化推理题；并据此定义五个对应临床工作流不同阶段的任务：视觉问答（视觉理解与推理）、报告生成（语言表达）、跨模态检索（影像↔文本对齐）、疾病分期分类（决策）、病灶检测（定位）。评测指标各任务专用——VQA/分类用 Precision/Accuracy/F1/AUC，报告生成用 ROUGE-L/BLEU-4/METEOR/BERTScore-F1，检索用 Recall@K/MedR/MnR/mAP，检测用 COCO 风格 AP 与定位精度。这套协议的价值在于：它不是单测一个指标，而是把「看懂→推理→决策→定位」整条临床链路都纳入考核，从而能探问 VLM 的理解到底是表层匹配还是真有证据推理。

4. VLM 多模态适配：异常值压缩 + bbox 软先验，最小改动喂进多相与表格

要在这个 benchmark 上评测现成 VLM，得先解决「模型大多只吃 2D 单图，而数据是多相 3D + 表格 + 框」的错配。作者给出一套轻量适配：对 LLaVA-1.5、BLIP-2 这类原生支持多通道的，把多相 CT 切片拼成多通道输入；对 2D 架构的 X2-VLM、LLaVA-Med，则换上 3D Swin Transformer 视觉编码器（X2-VLM 还把文本编码器换成 Med-BERT），得到 X2-VLM-Med。两类辅助模态用「最小架构改动」注入：边界框直接以彩色叠加渲染到 CT 切片上，作为不改视觉编码器的软空间先验，把注意力轻推向临床相关区域；生化表格则不整张喂——模仿医生「先找异常值再推理」的习惯，只抽取超出生理阈值的异常项，转成「检验名 + 测量值 + 超标倍数」的简洁文本描述。后者很关键，因为整张表里大量指标落在正常范围、属于噪声，全塞进去反而稀释信号。雷达图显示「Image+Table+BBox」全模态配置在各任务上都最优，验证了这套适配确实让模型用上了多模态证据。

损失函数 / 训练策略¶

所有模型用 AdamW（学习率 \(5\times10^{-5}\)、weight decay 0.01、10% 线性 warm-up）微调，batch size 32，单张 RTX 3090；数据按患者级别 70/15/15 划分训练/验证/测试（避免同一患者跨集泄漏），各任务独立训练，统一从 X2-VLM checkpoint 初始化，文本编码器用 2× 于视觉编码器的学习率。

实验关键数据¶

数据集横向对比¶

Gastric-X 与主流医学 VLM 数据集的关键差异（节选 Table 1）：

数据集	年份	部位	影像模态	多相位	生化数据	病灶标注	文本形式
PathVQA	2020	多器官	病理	✗	✗	✗	VQA
MIMIC-CXR v2	2024	胸部	X 光	✗	✓	✗	报告
Merlin	2024	腹部	CT	✗	✓	✗	报告
MedVL-CT69K	2025	多器官	CT	✓	✗	✗	报告
3D-RAD	2025	多器官	CT	✗	✗	✗	VQA
Gastric-X	2025	胃	CT+内镜	✓	✓	✓	报告

Gastric-X 是表中唯一同时满足「多相位 + 生化 + 病灶标注 + 报告」四项的数据集。

主任务结果（X2-VLM-Med 为最强基线）¶

VQA 与跨模态检索上各模型表现（节选 Table 2a / Table 4，全模态或最佳设置）：

任务	指标	X2-VLM-Med	Med-Flamingo(次优)	LLaVA-1.5-7B(弱)
VQA（Image+Table+BBox）	AUC	91.5	86.5	77.8
VQA（Image Only）	AUC	85.3	80.5	67.8
报告生成（全模态）	BERTScore-F1	82.0	73.1	57.8
检索 Image→Text	R@1	48.9	42.8	24.3
检索 Text→Image	R@1	47.5	41.5	22.1

模态消融（VQA / 报告生成随模态递增单调上升）¶

以 X2-VLM-Med 为例，逐步加入辅助模态的增益：

输入配置	VQA AUC	报告生成 BERTScore-F1
Image Only	85.3	68.7
Image + Table	88.7	76.2
Image + BBox	89.2	78.3
Image + Table + BBox	91.5	82.0

分类（Table 5）上 X2-VLM-Med 全模态 AUC 90.8，较 Swin Transformer 在同配置高约 +1.6（作者原文给的 AUC 差，⚠️ 表中 X2-VLM-Med 90.8 vs Swin 90.1 实差约 0.7，以原文为准）；检测（Table 6）上 MedVInT 拿到最高 [email protected]=72.1、mAP=50.2，X2-VLM-Med 在 [email protected]、mAP、定位精度上最佳。

关键发现¶

多模态单调增益是最强信号：所有模型从 Image Only 到 Image+Table+BBox，VQA/报告生成/分类指标都单调上升——说明 benchmark 设计的辅助模态确实携带了影像之外的判别信息，也验证了「异常值表格 + bbox 软先验」适配有效。
生化表格 vs 边界框各有侧重：单加 BBox 通常比单加 Table 增益略大（如报告生成 78.3 vs 76.2），但两者叠加才到峰值，提示空间定位与生化证据是互补而非冗余。
没有模型在所有任务上通吃：X2-VLM-Med 在 VQA/报告/检索/分类领先，但病灶检测的 [email protected] 反被 MedVInT（72.1）和 Swin（70.5）超过——纯定位任务上专门的检测/检索预训练仍占优，反映通用多模态对齐与精细空间定位之间存在张力。

亮点与洞察¶

「异常值抽取」这步很临床、很省：不把整张化验表硬塞给模型，而是只留超阈值项并写成「名称+数值+超标倍数」，既去噪又自带可解释性，是个能直接迁到其他「结构化指标 + 影像」场景（如肝病、心血管）的轻量 trick。
bbox 作为渲染叠加的软先验：把标注画到图上当颜色提示、而不改视觉编码器，几乎零成本地把空间先验注入任意 VLM——比起改架构做 region-text 对齐，这是个工程上极友好的「弱注入」思路。
患者级划分守住了泄漏底线：很多医学数据集按图划分会让同一患者的多相切片散到训练/测试两边造成虚高，本文明确按患者 70/15/15 划分，benchmark 可信度更高。
最 "啊哈" 的是评测目标的转向：作者不只问「谁分数高」，而是问「VLM 能不能把生化信号、肿瘤空间特征、文本报告真正关联起来」——把 benchmark 当探针去测「理解的本质」，而非单纯刷榜。

局限与展望¶

规模仍偏小：1.74K 患者、单中心来源（瑞金等医院），相对自然图像 benchmark 量级有限，跨机构/跨设备泛化未验证；分期等类别可能长尾不均（Sankey/分布图暗示）。
适配方案是"喂法"而非新模型：多通道拼接、Swin 换编码器、bbox 叠加都属于把现成 VLM 套进来的工程适配，没有提出针对多相对齐的原生架构，留给后续工作。⚠️ 文中分类 AUC 增益的表述（+1.6 over Swin）与表内数值（约 0.7）不完全一致，以原文表格为准。
检测任务上通用 VLM 不占优：说明该 benchmark 对「精细空间定位」这一环的考核，现有多模态对齐方法尚未吃透，是明确的改进空间。
数据可得性：完整集需签署知情同意、按机构政策发放，HuggingFace 仅放小样本子集，复现门槛较高（CC BY-NC-ND 4.0，禁衍生与商用）。

评分¶

新颖性: ⭐⭐⭐⭐ 首个把多相 CT + 内镜 + 生化 + 病灶框 + 报告在患者级别全对齐的胃癌 VLM benchmark，配置确属空白，但属"数据集+评测"而非新方法。
实验充分度: ⭐⭐⭐⭐ 6 模型 × 5 任务 × 4 模态配置系统评测，消融清晰；规模与跨中心验证略欠。
写作质量: ⭐⭐⭐⭐ 临床动机叙述到位、表格规范；个别增益数值（分类 AUC）正文与表格表述不完全一致。
价值: ⭐⭐⭐⭐ 为医学多模态 VLM 提供了贴近真实诊疗的高质量评测平台，"异常值压缩 + bbox 软先验"两个 trick 可迁移性强。