RAM-W600: A Multi-Task Wrist Dataset and Benchmark for Rheumatoid Arthritis¶

会议: NeurIPS 2025
arXiv: 2507.05193
代码: GitHub
领域: 医学图像
关键词: 类风湿关节炎, 腕骨分割, 骨侵蚀评分, 数据集, 实例分割

一句话总结¶

首个公开的多任务腕骨常规X光数据集RAM-W600，包含1048张影像，支持腕骨实例分割和SvdH骨侵蚀评分两大任务，并提供全面的基准测试。

研究背景与动机¶

类风湿关节炎(RA)是一种常见的自身免疫疾病，腕关节是RA诊断的核心区域。临床上广泛使用常规X光(CR)进行病程筛查和评估，因为CR成本低且可及性强。然而，计算机辅助诊断(CAD)在腕骨领域的研究严重受限，核心瓶颈在于高质量实例级标注的获取极其困难：

解剖复杂性：腕部由多块小骨组成，关节间隙窄、结构复杂、骨骼频繁重叠，准确标注需要深厚的解剖学知识

病理干扰：RA进展导致骨赘、骨侵蚀(BE)甚至骨性融合，改变骨骼形态，使标注难度进一步升高

现有数据集缺陷：公开的手部X光数据集要么缺少腕部像素级分割标注，要么BE评分不完整，无法满足RA研究需求

现有工作主要聚焦CT/MRI模态的腕骨分割，且数据集规模小（多为私有数据，几十到几百张）。对于CR的腕骨分割研究极少，尤其缺少面向复杂病理条件的公开数据集。

本文的切入角度是：构建一个多任务、多中心的腕骨CR基准数据集，同时覆盖实例分割和SvdH BE评分两个临床关键任务，降低RA腕部研究的门槛。

方法详解¶

整体框架¶

RAM-W600并非提出新模型，而是一个数据集+基准测试的贡献。数据集设计涵盖：数据采集→影像预处理→专家标注→数据划分→基准评估的完整流程。

关键设计¶

数据集构成与标注体系

数据集包含来自6个医疗中心的388名患者的1048张腕部CR影像。其中618张提供了像素级实例分割标注（覆盖14种腕骨），800张提供了SvdH BE评分（涵盖6个关节面共4800个得分）。

标注体系包括三个层次： - 解剖结构标注：对14种腕骨（MC1-5、Tr、Tz、Sca、Lu、Cap、Ham、Tri、Radius、Ulna）进行精确轮廓勾画，采用多标签策略独立标注每个骨结构 - 骨位置标注：对SvdH系统关注的6个关节区域进行ROI标注 - SvdH BE评分标注：对6个关键关节面进行BE严重程度评分

数据多样性与质量控制

数据来源包括3家日本医疗机构（HMCRD、SCGH、HU）和3个公开数据集（DHA、BTXRD、FA），覆盖207名RA患者和181名非RA患者。影像参数通过DICOM标准管理，分辨率为0.15 mm/pixel（内部队列）。

标注流程由高级放射科医师指导，采用严格的审核程序确保质量。数据集设计注重BE和非BE病例的分层划分，确保训练/测试集的代表性。

基准评估方案
- 分割任务：评估13种监督模型（Unet、DeepLabV3+、TransUNet、SwinUMamba等）和3种基础模型（SAM、MedSAM），使用DSC、NSD、VOE、MSD、RAVD指标
- BE分类任务：评估7种分类模型（MobileViT、ResNet、MedMamba等），使用BACC、F1、DOR、ACC、SEN、SPC、PRE指标

损失函数 / 训练策略¶

基准实验统一使用AdamW优化器（weight decay=1e-2），余弦退火学习率调度。分割任务初始学习率1e-4，100 epochs，batch size 8；分类任务初始学习率1e-6，100 epochs，batch size 16。所有实验在RTX 4090上重复5次（5个固定种子）。

实验关键数据¶

主实验——分割¶

模型	DSC(%) ↑	NSD(%) ↑	VOE(%) ↓	MSD(pix) ↓	参数量
SwinUMamba	97.75	90.71	4.35	1.06	59.89M
TransUNet	97.62	89.48	4.60	1.05	105.91M
UMambaEnc	97.56	89.10	4.71	1.11	4.58M
Unet++	97.33	86.99	5.15	1.36	2.41M
SAM (box)	88.74	64.40	18.45	4.25	641.09M
MedSAM (box)	85.07	38.81	25.15	5.97	93.74M

主实验——BE分类¶

模型	BACC(%)	F1(%)	DOR	SEN(%)	SPC(%)
MobileViT	52.64	11.85	1.82	21.06	84.23
EfficientFormer	50.63	12.40	1.06	27.90	73.37
MedMamba	50.83	6.91	5.89	8.94	92.73
ConvKAN	49.26	3.49	0.44	3.82	94.70

关键发现¶

分割任务：主流模型在DSC上表现优异（最高97.75%），但NSD指标偏低（最高90.71%），说明骨边界精确分割仍是瓶颈。BE组和非BE组的DSC存在显著差异（p<0.05-0.001），证实骨侵蚀对分割性能有负面影响
分类任务：所有模型BACC和F1均很低（最高仅52.64%和12.40%），反映任务极具挑战性。模型普遍对非BE类偏向严重(高特异性/低敏感性)，极端类不平衡是核心难点
基础模型差距：SAM和MedSAM在腕骨分割上远不如监督模型，通用基础模型在细粒度医学分割上仍有较大提升空间

亮点与洞察¶

首个公开的腕骨实例分割数据集，且覆盖分割和BE评分两大临床任务，填补了RA腕部CAD研究的数据空白
多中心数据来源（6个机构）增强了数据多样性和模型泛化评估的可靠性
基准结果清晰地揭示了当前模型在骨重叠、边界模糊、侵蚀形变等方面的不足，为后续研究指明了具体方向
Mamba架构模型（SwinUMamba、UMambaEnc）在性能和参数效率上展现出良好平衡

局限与展望¶

RA案例主要来自日本单一地区，人口学同质性较高，可能限制模型在不同种族/地区的泛化能力
SvdH BE评分分布严重不均衡，高分病例极度稀缺（3分和5分几乎没有），影响细粒度评分模型的训练和评估
仅评估了二分类（有无BE），未探索多等级回归评分
未结合临床流程的下游任务（如JSN进展量化、纵向监测）

评分¶

新颖性: ⭐⭐⭐⭐ 首个同类公开数据集，填补重要空白
实验充分度: ⭐⭐⭐⭐ 基准覆盖广泛，但缺少多等级评分和下游任务验证
写作质量: ⭐⭐⭐⭐ 结构清晰，统计分析详尽
价值: ⭐⭐⭐⭐⭐ 对RA领域CAD研究有很高的实用价值