RAM-W600: A Multi-Task Wrist Dataset and Benchmark for Rheumatoid Arthritis¶
会议: NeurIPS 2025
arXiv: 2507.05193
代码: GitHub
领域: 医学图像
关键词: 类风湿关节炎, 腕骨分割, 骨侵蚀评分, 数据集, 实例分割
一句话总结¶
首个公开的多任务腕骨常规X光数据集RAM-W600,包含1048张影像,支持腕骨实例分割和SvdH骨侵蚀评分两大任务,并提供全面的基准测试。
研究背景与动机¶
类风湿关节炎(RA)是一种常见的自身免疫疾病,腕关节是RA诊断的核心区域。临床上广泛使用常规X光(CR)进行病程筛查和评估,因为CR成本低且可及性强。然而,计算机辅助诊断(CAD)在腕骨领域的研究严重受限,核心瓶颈在于高质量实例级标注的获取极其困难:
解剖复杂性:腕部由多块小骨组成,关节间隙窄、结构复杂、骨骼频繁重叠,准确标注需要深厚的解剖学知识
病理干扰:RA进展导致骨赘、骨侵蚀(BE)甚至骨性融合,改变骨骼形态,使标注难度进一步升高
现有数据集缺陷:公开的手部X光数据集要么缺少腕部像素级分割标注,要么BE评分不完整,无法满足RA研究需求
现有工作主要聚焦CT/MRI模态的腕骨分割,且数据集规模小(多为私有数据,几十到几百张)。对于CR的腕骨分割研究极少,尤其缺少面向复杂病理条件的公开数据集。
本文的切入角度是:构建一个多任务、多中心的腕骨CR基准数据集,同时覆盖实例分割和SvdH BE评分两个临床关键任务,降低RA腕部研究的门槛。
方法详解¶
整体框架¶
RAM-W600并非提出新模型,而是一个数据集+基准测试的贡献。数据集设计涵盖:数据采集→影像预处理→专家标注→数据划分→基准评估的完整流程。
关键设计¶
- 数据集构成与标注体系
数据集包含来自6个医疗中心的388名患者的1048张腕部CR影像。其中618张提供了像素级实例分割标注(覆盖14种腕骨),800张提供了SvdH BE评分(涵盖6个关节面共4800个得分)。
标注体系包括三个层次: - 解剖结构标注:对14种腕骨(MC1-5、Tr、Tz、Sca、Lu、Cap、Ham、Tri、Radius、Ulna)进行精确轮廓勾画,采用多标签策略独立标注每个骨结构 - 骨位置标注:对SvdH系统关注的6个关节区域进行ROI标注 - SvdH BE评分标注:对6个关键关节面进行BE严重程度评分
- 数据多样性与质量控制
数据来源包括3家日本医疗机构(HMCRD、SCGH、HU)和3个公开数据集(DHA、BTXRD、FA),覆盖207名RA患者和181名非RA患者。影像参数通过DICOM标准管理,分辨率为0.15 mm/pixel(内部队列)。
标注流程由高级放射科医师指导,采用严格的审核程序确保质量。数据集设计注重BE和非BE病例的分层划分,确保训练/测试集的代表性。
-
基准评估方案
- 分割任务:评估13种监督模型(Unet、DeepLabV3+、TransUNet、SwinUMamba等)和3种基础模型(SAM、MedSAM),使用DSC、NSD、VOE、MSD、RAVD指标
- BE分类任务:评估7种分类模型(MobileViT、ResNet、MedMamba等),使用BACC、F1、DOR、ACC、SEN、SPC、PRE指标
损失函数 / 训练策略¶
基准实验统一使用AdamW优化器(weight decay=1e-2),余弦退火学习率调度。分割任务初始学习率1e-4,100 epochs,batch size 8;分类任务初始学习率1e-6,100 epochs,batch size 16。所有实验在RTX 4090上重复5次(5个固定种子)。
实验关键数据¶
主实验——分割¶
| 模型 | DSC(%) ↑ | NSD(%) ↑ | VOE(%) ↓ | MSD(pix) ↓ | 参数量 |
|---|---|---|---|---|---|
| SwinUMamba | 97.75 | 90.71 | 4.35 | 1.06 | 59.89M |
| TransUNet | 97.62 | 89.48 | 4.60 | 1.05 | 105.91M |
| UMambaEnc | 97.56 | 89.10 | 4.71 | 1.11 | 4.58M |
| Unet++ | 97.33 | 86.99 | 5.15 | 1.36 | 2.41M |
| SAM (box) | 88.74 | 64.40 | 18.45 | 4.25 | 641.09M |
| MedSAM (box) | 85.07 | 38.81 | 25.15 | 5.97 | 93.74M |
主实验——BE分类¶
| 模型 | BACC(%) | F1(%) | DOR | SEN(%) | SPC(%) |
|---|---|---|---|---|---|
| MobileViT | 52.64 | 11.85 | 1.82 | 21.06 | 84.23 |
| EfficientFormer | 50.63 | 12.40 | 1.06 | 27.90 | 73.37 |
| MedMamba | 50.83 | 6.91 | 5.89 | 8.94 | 92.73 |
| ConvKAN | 49.26 | 3.49 | 0.44 | 3.82 | 94.70 |
关键发现¶
- 分割任务:主流模型在DSC上表现优异(最高97.75%),但NSD指标偏低(最高90.71%),说明骨边界精确分割仍是瓶颈。BE组和非BE组的DSC存在显著差异(p<0.05-0.001),证实骨侵蚀对分割性能有负面影响
- 分类任务:所有模型BACC和F1均很低(最高仅52.64%和12.40%),反映任务极具挑战性。模型普遍对非BE类偏向严重(高特异性/低敏感性),极端类不平衡是核心难点
- 基础模型差距:SAM和MedSAM在腕骨分割上远不如监督模型,通用基础模型在细粒度医学分割上仍有较大提升空间
亮点与洞察¶
- 首个公开的腕骨实例分割数据集,且覆盖分割和BE评分两大临床任务,填补了RA腕部CAD研究的数据空白
- 多中心数据来源(6个机构)增强了数据多样性和模型泛化评估的可靠性
- 基准结果清晰地揭示了当前模型在骨重叠、边界模糊、侵蚀形变等方面的不足,为后续研究指明了具体方向
- Mamba架构模型(SwinUMamba、UMambaEnc)在性能和参数效率上展现出良好平衡
局限与展望¶
- RA案例主要来自日本单一地区,人口学同质性较高,可能限制模型在不同种族/地区的泛化能力
- SvdH BE评分分布严重不均衡,高分病例极度稀缺(3分和5分几乎没有),影响细粒度评分模型的训练和评估
- 仅评估了二分类(有无BE),未探索多等级回归评分
- 未结合临床流程的下游任务(如JSN进展量化、纵向监测)
相关工作与启发¶
- 该数据集可启发将腕骨分割与BE检测结合的多任务学习框架
- 类似数据集构建思路可推广到其他关节(手指、足部)的RA评估
- BE分类任务的极端不平衡可作为医学影像中少样本学习/不平衡学习的良好测试场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个同类公开数据集,填补重要空白
- 实验充分度: ⭐⭐⭐⭐ 基准覆盖广泛,但缺少多等级评分和下游任务验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,统计分析详尽
- 价值: ⭐⭐⭐⭐⭐ 对RA领域CAD研究有很高的实用价值