SHAPE: Structure-aware Hierarchical Unsupervised Domain Adaptation with Plausibility Evaluation for Medical Image Segmentation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/BioMedIA-repo/SHAPE
领域: 医学图像 / 无监督域适应 / 图像分割
关键词: 无监督域适应, 医学图像分割, 伪标签, 超图, 解剖合理性

一句话总结¶

SHAPE 把跨模态医学分割的无监督域适应从「局部像素正确」重塑为「全局解剖合理」：在冻结的 DINOv3 上做类感知的分层特征调制（HFM）生成高保真特征，再用超图合理性评估（HPE）从解剖形状与布局两个层面给伪标签打分、用结构异常剪枝（SAP）剔除幻觉类别，从而只用通过合理性检验的高质量伪标签做自训练，在心脏与腹部跨模态基准上刷新 SOTA。

研究背景与动机¶

领域现状：医学分割模型在跨成像设备/模态部署时性能会大幅下滑，无监督域适应（UDA）通过把有标签源域的知识迁到无标签目标域来避免重新标注。现有 UDA 大致分两类：基于对齐的方法（在图像外观、特征分布或输出预测上对齐源/目标域）和基于伪标签的方法（用源域模型给目标域生成伪标签做自训练）。

现有痛点：本文指出这两类都有根本缺陷。第一，特征对齐是语义无感知的——AdaIN、谱归一化这类单体（monolithic）策略对整张特征图施加统一变换，把不同解剖结构的风格特征「平均化」，无法生成类特定风格信息，导致对齐不精确、分布保真度差。第二，伪标签验证忽视全局解剖约束——现有方法靠像素级置信度（预测熵）或局部一致性筛伪标签，无法阻止「解剖学上不可能」的伪标签（形状畸形、空间排布错误）混入训练，反过来污染模型。

核心矛盾：自训练的质量上限由伪标签质量决定，而像素级指标只能保证「局部像素对」，保证不了「整体器官形状/相对位置合理」。一个心脏分割可能每个像素置信度都很高，整体却长成了解剖学上不存在的形状。

本文目标：把适配目标从局部像素正确性转向全局解剖合理性，需要同时解决「特征对齐要保结构」和「伪标签验证要看全局」两件事。

切入角度：标准图只能表达成对（pairwise）关系，捕捉不了多个解剖结构之间的整体相互作用；而超图（hypergraph）天然能表达高阶关系，可同时建模单结构的类内形状和全解剖的类间空间排布。

核心 idea：用类感知的分层特征调制生成保结构的高保真特征，再把每张预测建模成超图、从形状与布局两层面打「合理性分」当作伪标签的质量门，最后剪掉跨视角不稳定的幻觉类别——三级级联只把「既像素准、又解剖合理」的伪标签喂给自训练。

方法详解¶

整体框架¶

SHAPE 建立在冻结的 DINOv3 ViT-S/16 编码器上，下游接一个可训练的 UNet 风格解码器，整体是「特征调制 → 多级验证 → 自训练」的级联。给定输入图，编码器抽出稠密特征图；HFM 对源/目标特征做双粒度（全局风格 + 局部结构感知）调制，产出四组高保真特征（原始、跨域风格化、局部混合）；这些特征经教师模型（学生的 EMA）集成出多份目标域预测，送入 HPE 把每份预测建成超图、从顶点可靠性 + 类内形状 + 类间布局算出综合合理性分，按动态阈值门控选样；通过的伪标签再过 SAP，用跨视角的类别尺寸稳定性剪掉幻觉类别；最终只有「通过合理性检验 + 剪枝」的高保真伪标签 \(M'\) 才作为目标域监督信号，配合源域有监督损失一起训练学生。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像<br/>源域(有标签)+目标域(无标签)"] --> B["冻结 DINOv3<br/>抽稠密特征图"]
    B --> C["分层特征调制 HFM<br/>全局 AdaIN + 局部纯/非纯分块混合"]
    C --> D["教师模型(EMA)<br/>对调制特征集成多份预测"]
    D --> E["超图合理性评估 HPE<br/>顶点可靠性 × (类内形状+类间布局)"]
    E -->|综合分过动态阈值| F["结构异常剪枝 SAP<br/>剪掉跨视角尺寸不稳定的幻觉类"]
    F --> G["高保真伪标签 M'<br/>+ 源域有监督 → 训练学生"]
    G -.EMA 更新.-> D

关键设计¶

1. 分层特征调制 HFM：用类感知、空间分化的混合替代单体对齐

针对「单体对齐把不同解剖结构的风格平均化」这一痛点，HFM 做双粒度调制。全局层面用 AdaIN 把源特征 \(F_s\) 的通道统计对齐到目标 \(F_t\)，得到风格化图 \(F_{s\to t}=\sigma(F_t)\frac{F_s-\mu(F_s)}{\sigma(F_s)+\epsilon}+\mu(F_t)\)。局部层面先把特征上采样到更细网格（\(N=4HW\) 个 token），对每个 token 的标签子块算「纯度分」\(P(m_i)=\max_k \frac{\sum_{v\in m_i}\mathbb{I}(v=k)}{|m_i|}\)，按阈值 \(\tau_p\) 把 token 分成纯语义核（\(T_{pure}\)）和非纯结构边界（\(T_{impure}\)）；对纯 token 做同类目标 token 的 Mixup \((1-\lambda)f_s^i+\lambda f_t^j\)（\(f_t^j\) 从按接近目标类均值排序的池里选代表性样例），对非纯边界 token 则做基于边界统计的 AdaIN 式对齐。这样在「语义核做插值、边界做统计对齐」的分化策略下，既对齐了分布又保住了类间可分性——t-SNE 可视化显示全局 AdaIN 会把各类目标特征无差别聚成一团（分布坍缩），而 HFM 在对齐质心的同时保留了每类的内在方差和相对组织。

2. 超图合理性评估 HPE：从顶点/形状/布局三层给伪标签打全局合理性分

针对「像素级指标管不了全局解剖合理性」，HPE 把每张预测分割图建成多级结构超图 \(G=(V,E)\)：顶点集 \(V\) 是所有前景像素，超边集是「类超边」\(E_C\)（编码每类的类内形状）加一条「布局超边」\(e_l\)（编码类间空间排布）。三层打分依次为：(1) 顶点分 \(S_{vertex}=\frac{1}{|V|}\sum_p w_p\)，权重 \(w_p\) 由教师集成的平均熵（确定性）和 JSD（一致性）联合给出；(2) 类内形状分 \(S_{intra}\)，用各类掩码的等周比 \(\phi(e_k)=4\pi\cdot\text{Area}/(\text{Perimeter}^2+\epsilon)\) 算 Z-score、再 \(S_{\phi,k}=\exp(-|z_k|)\)，并用 softmax 加权重罚畸形离群类；(3) 类间布局分 \(S_{inter}\)，用类质心间相对方向余弦 \(\psi_{ij}\) 做同样的 Z-score 评估。三者按 \(S_{final}=S_{vertex}\cdot(\alpha S_{intra}+(1-\alpha)S_{inter})\) 融合——结构分作为乘性门，让「像素置信高但解剖结构差」的预测被压低。只有 \(S_{final}\) 超过当前 epoch 内 top-\(\rho\) 百分位动态阈值的样本才进自训练。

3. 结构异常剪枝 SAP：用跨视角尺寸稳定性剔除幻觉类别

即便整张图通过 HPE，仍可能存在个别类的幻觉区域（在不同增强视角下时有时无、尺寸剧烈波动）。SAP 把某类 \(k\) 的「结构签名」定义为它在 \(N_{ens}\) 份教师预测中的像素计数向量 \(c_k\)，用变异系数算结构不稳定分 \(\Upsilon(k)=\frac{\text{std}(c_k)}{\bar c_k+\epsilon}\)：稳健的解剖结构签名方差低，而模型幻觉表现为高波动。不稳定分超过动态阈值 \(\theta_A\)（batch 内显著前景类不稳定分的 \(q\) 分位）的类被判为异常 \(K_{anom}\)，最终把已过 HPE 的共识伪标签图里所有属于 \(K_{anom}\) 的像素置为 ignore index，得到精炼图 \(M'\)。这一步是 HPE「整图门控」之外的「类级精修」，确保喂给学生的标签保真度最高。

损失函数 / 训练策略¶

总损失 \(L_{total}=L_{sup}+\gamma_{unsup}L_{unsup}\)。源域有监督损失对原始与 HFM 调制特征集合 \(\mathcal{F}_s=\{F_s,F_{s\to t},F_{s,cross}\}\) 取平均分割损失 \(L_{sup}=\frac{1}{|\mathcal{F}_s|}\sum_{F'\in\mathcal{F}_s}L_{seg}(D(F'),L_s)\)，以增强域鲁棒性。目标域无监督损失只在通过合理性检验的子集 \(B_{sel}\) 上、以像素确定性 \(w_p\) 加权地用高保真伪标签 \(M'\) 监督学生预测。\(L_{seg}\) 为 Dice + Focal 组合，教师 \(D_{ema}\) 是学生解码器的 EMA（动量 0.9），\(\gamma_{unsup}\) 用 ramp-up 渐增。关键超参：纯度阈值 \(\tau_p=1\)、融合权重 \(\alpha=0.25\)、选择百分位 \(\rho\) 从 0.1 sigmoid 上升、异常阈值 \(\theta_A\) 取第 50 百分位、\(\gamma_{unsup}=1\)。

实验关键数据¶

数据集：心脏用 MMWHS（20 CT + 20 MRI，分割 AA/LAC/LVC/MYO），腹部用 MICCAI 2015 腹部 CT（30 例）+ CHAOS T2SPIR MRI（20 例，分割 LIV/RK/LK/SPL）。指标为 Dice（DSC，越高越好）和平均表面距离（ASD，越低越好）。

主实验¶

心脏数据集平均 DSC（%，越高越好）对比，SHAPE 在两个方向均为最佳：

方法	类型	MRI→CT DSC	CT→MRI DSC
W/o adaptation	下界	45.91	36.91
SIFA	对齐类	74.63	63.78
UPL-SFDA	伪标签类	79.18	74.06
IPLC	伪标签类	80.91	76.07
DDFP	对齐类	84.46	75.37
SHAPE	本文	90.08	78.51
Supervised	上界	93.37	84.41

腹部数据集平均 DSC（%）对比：

方法	Abd MRI→CT DSC	Abd CT→MRI DSC
W/o adaptation	40.08	41.54
SIFA	83.35	84.17
UPL-SFDA	85.07	85.06
DDFP	85.17	86.27
SHAPE	87.48	86.89

在心脏 MRI→CT 上 SHAPE 达 90.08% DSC，比次优 DDFP（84.46%）高 5.62 个百分点，与有监督上界（93.37%）的差距缩到仅 3.29 个百分点。

消融实验（心脏数据集，在含 DINOv3 骨干的强基线上逐步加模块）¶

配置	HFM	HPE	SAP	MRI→CT DSC	CT→MRI DSC
(a) Baseline				82.02	71.58
(b) +HFM	✓			85.67	75.46
(c) +HPE		✓		82.71	72.09
(d) +HFM+HPE	✓	✓		85.80	75.81
(e) +HFM+SAP	✓		✓	86.03	76.23
(f) SHAPE (Full)	✓	✓	✓	90.08	78.51

关键发现¶

HFM 是单模块贡献最大者：单加 HFM 就把 MRI→CT 从 82.02% 提到 85.67%（+3.65 点），印证「从全局对齐转向类感知、保结构调制」的重要性；单加 HPE 也有稳定增益（82.71%），说明验证伪标签解剖合理性本身就有效。
三模块是协同而非简单叠加：(d)/(e) 两两组合只到 85.8/86.0%，而三者全开跃升到 90.08%，远超任意子集之和应有的水平，说明特征质量提升与多级伪标签验证存在协同效应。
特征对齐机制可视化佐证：t-SNE 显示全局 AdaIN 把目标特征坍缩成团、破坏类间可分性，HFM 则在对齐质心的同时保留各类内在方差，从机制上解释了为何 HFM 优于单体对齐。
超参敏感性：融合权重 \(\alpha\)、异常阈值等在合理范围内变化时性能稳定，方法对关键超参不敏感。

亮点与洞察¶

把「合理性」做成可微/可计算的监督信号：用超图的等周比（形状）+ 质心方向余弦（布局）把「解剖学上像不像」量化成分数，再当乘性门去筛伪标签，这是把领域先验注入自训练的一个干净范式，思路可迁移到任何有强结构先验的分割任务。
整图门控 + 类级剪枝双保险：HPE 管整张预测合不合理、SAP 管单个类稳不稳定，两级粒度互补，比单一像素置信度筛选鲁棒得多。
跨视角尺寸方差即幻觉信号：用「同一类在多份扰动预测里像素计数的变异系数」识别幻觉，是个低成本又直观的稳定性度量。

局限与展望¶

依赖冻结 DINOv3 的先验质量：方法建立在 DINOv3 提供的强语义先验上，对先验偏弱或与医学影像差距更大的编码器，HFM 的「保结构」前提是否成立有待验证。
超图打分引入多个阈值/温度超参：纯度阈值、融合权重、选择百分位、异常阈值、温度 \(\tau\) 等需要调，虽报告了鲁棒性，但跨数据集的可迁移性仍需更多验证（⚠️ 部分阈值的最优取值以原文为准）。
仅在心脏/腹部 4 类结构上验证：目标都是少类别、结构规整的器官分割，超图的形状/布局先验在类别更多、形态更不规则（如病灶、血管树）场景下是否依然有效，尚未检验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把超图首次用作伪标签合理性门控、配类感知分层特征调制，范式上从「像素正确」转向「解剖合理」，立意清晰。
实验充分度: ⭐⭐⭐⭐ 心脏/腹部双数据集双方向、对齐类与伪标签类多基线对比 + 三模块消融 + 可视化，但仅 4 类结构、规模有限。
写作质量: ⭐⭐⭐⭐⭐ 动机的两条根本缺陷、三模块级联与公式交代清晰，消融与可视化支撑到位。
价值: ⭐⭐⭐⭐ 跨模态医学分割 UDA 上实打实刷新 SOTA 且开源，但超参较多、对强先验编码器有依赖。