CVPR2026 医学图像持续测试时自适应图聚类语义提示最优传输域偏移视网膜/息肉分割

SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation¶

会议: CVPR2026
arXiv: 2603.11492
代码: Jwei-Z/SPEGC-for-MIS
领域: 医学图像分割
关键词: 持续测试时自适应, 图聚类, 语义提示, 最优传输, 域偏移, 视网膜/息肉分割

一句话总结¶

提出 SPEGC 框架，通过语义提示增强特征 + 可微分图聚类求解器，将原始相似度矩阵精炼为高阶结构表示，用于指导医学图像分割模型在持续变化的目标域上自适应，有效缓解误差累积与灾难性遗忘。

研究背景与动机¶

临床部署的域偏移难题：医学图像因采集设备、操作者、扫描协议不同，导致预训练模型在新目标域上性能严重退化，无法直接用于临床。

CTTA 场景更贴近现实：传统 TTA 假设静态目标域，而真实临床数据是连续到达的分布不断变化的流，持续测试时自适应 (CTTA) 更具实际意义。

现有 CTTA 方法依赖不可靠监督信号：基于熵最小化或像素级/实例级信号的方法在严重域偏移下容易产生误导性梯度，触发"自增强误差累积"的恶性循环。

Prompt 方法表达力受限：冻结骨干网络仅学习输入空间的轻量 prompt，核心参数未更新，性能天花板较低。

局部特征对噪声敏感：域偏移下未标注测试样本的局部特征极易受噪声和风格变化干扰，直接计算的相似度矩阵不可靠。

缺乏高阶结构监督：现有方法未充分利用数据内部的聚类级结构信息来引导自适应，决策边界无法动态调整。

方法详解¶

整体框架¶

SPEGC 想解决的是持续测试时自适应 (CTTA) 里"自增强误差累积"的死循环——熵或像素级信号在严重域偏移下不可靠，越自适应越错。它的思路是不依赖这些脆弱信号，转而从测试数据内部的高阶聚类结构里找监督。整条流程是：ResNet 骨干提局部特征，用 MC Dropout 估不确定性、采样出可信的前景节点；语义提示特征增强 (SPFE) 给这些节点注入全局语境；增强后的特征入队拼成伪 mini-batch、算出全局相似度矩阵；可微分图聚类求解器 (DGCS) 把这个矩阵当作最优传输问题端到端精炼成干净的结构表示；最后用图一致性损失 + 聚类损失把这套结构信号回灌给模型，指导它在不断变化的目标域上自适应。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["测试图像流（持续目标域）"] --> B["ResNet 骨干<br/>提局部节点特征 V"]
    subgraph SPFE["SPFE 语义提示特征增强"]
        direction TB
        C["MC Dropout 多次前向估不确定性<br/>采样低不确定性前景节点"]
        C --> D["注意力池化得全局查询"]
        D --> E["双提示池检索<br/>共性池(反向注意力)+异质性池(Softmax)"]
        E --> F["增强特征 = 原特征+共性提示+异质性提示"]
    end
    B --> C
    F --> G["特征队列拼伪 mini-batch<br/>算全局相似度矩阵 S"]
    subgraph DGCS["DGCS 可微分图聚类求解器"]
        direction TB
        H["节点密度+Sigmoid 门控<br/>构有向边相似度矩阵 S′"]
        H --> I["生成森林预算 k=V−Z<br/>边选择建模为最优传输"]
        I --> J["Sinkhorn 迭代求传输计划<br/>重塑精炼边矩阵 S⋆"]
    end
    G --> H
    J --> K["图一致性损失+聚类损失<br/>端到端更新全部模型参数"]
    K -.->|持续自适应| A

关键设计¶

1. SPFE — 语义提示特征增强：用解耦提示池给易受噪声的局部特征补全局语境

域偏移下未标注样本的局部特征极易被噪声和风格变化带偏，直接算出的相似度矩阵不可信。SPFE 的前置一步是用 MC Dropout 多次前向、按位置特征方差估出不确定性图，只挑不确定性最低的 \(p\%\) 前景节点入图，把噪声节点挡在外面（消融里这一步单独带来约 1.9% 提升）。对选出的节点，SPFE 先用注意力池化把它们聚成全局查询 \(\hat{q}_i\)，再从两个解耦的提示池里检索语境：异质性提示池 \(P_{HE}\) 走标准 Softmax 注意力，检索与查询匹配的域特异信息，抓的是类别区分模式；共性提示池 \(P_{CO}\) 反着来，用 ReLU 截断负匹配分数的反向注意力检索与查询不匹配的跨域共享语义，保住核心判别知识不被域风格冲掉。两路提示作为解耦的上下文偏置叠回原始节点特征：\(V_i^* = V_i + p_{CO}(i) + p_{HE}(i)\)。消融显示单加异质性提示反而掉点（无约束噪声），共性提示配上聚类损失才带来 4.55% 的提升，正说明这种"区分信息 + 共享知识"的解耦是必要的。

2. DGCS — 可微分图聚类求解器：把边稀疏化变成可微的最优传输

有了相似度矩阵还不够，得把它精炼成可靠的聚类结构。DGCS 先用可学习投影 \(W_q, W_k\) 算全局相似度矩阵 \(S\)（故意不加 Softmax，保留高置信信号），再结合节点密度 \(D(v_i)\) 和 Sigmoid 门控构出有向边相似度矩阵 \(S'\)。核心洞察是图论里的一条事实：\(Z\) 个连通分量的生成森林恰好有 \(k = V - Z\) 条边，于是稀疏化预算可以直接定下来。它把"选哪些边"建模成二元最优传输问题，用 Sinkhorn 算法迭代求解熵正则化的传输计划 \(\Gamma^*\)，再把 \(\Gamma^*\) 的第二列重塑成精炼后的边相似度矩阵 \(S^\star\)。整个过程可微，聚类结构因此能端到端参与训练，而不是当成离线后处理。

损失函数¶

\[L = L_G + \lambda L_C\]

图一致性损失 \(L_G\)：若两节点在 \(S^\star\) 中结构相似，就强制它们的语义预测一致（KL 散度 + stop-gradient），把结构信号转成对模型的约束
聚类损失 \(L_C\)：约束共性提示池，让 batch 内所有图像的共性提示在语义空间里彼此靠近（余弦距离），显式锁住跨域共享知识
\(\lambda=0.2\)

实验¶

数据集与设置¶

视网膜眼底分割 (OD/OC)：5 个公开数据集 (RIM-ONE, REFUGE, ORIGA, REFUGE-Test, Drishti-GS)，交叉域评估
息肉分割：4 个公开数据集 (BKAI-IGH, CVC-ClinicDB, ETIS, Kvasir)
骨干：ResNet-50 + ResUNet-50，ImageNet 预训练
在线单样本自适应，无标签，单卡 NVIDIA 3090

主要结果¶

方法	OD/OC 平均 DSC	息肉平均 DSC
No Adapt	72.75	71.49
SAR (ICLR'23)	73.44	69.21
VPTTA (CVPR'24)	73.40	73.40
NC-TTT (CVPR'24)	79.23	75.44
GraTa (AAAI'25)	78.66	76.24
TTDG (CVPR'25)	82.88	76.20
SPEGC (Ours)	84.37	78.27

消融实验¶

配置	平均 DSC
No Adapt (基线)	72.75
+ 图聚类	74.64
+ MC Dropout 不确定性采样	76.52
+ 仅异质性提示 (无约束)	75.39 (↓)
+ 仅共性提示 + \(L_C\)	81.07
+ 共性 + 异质性提示 (完整)	84.37

关键发现¶

结构驱动优于熵最小化：SAR 等熵方法在息肉任务上甚至低于 No Adapt 基线，因"隐蔽目标"导致过度自信的错误预测；SPEGC 依赖数据内部结构避开此陷阱
长期 CTTA 稳定性优异：5 轮连续自适应实验中，SPEGC 达到最高平均 DSC (83.10%)，性能退化仅 1.27%，兼顾抗遗忘和抗误差累积
共性提示是关键：单独加异质性提示反而降低性能 (75.39 < 76.52)，说明无约束提示引入噪声；共性提示 + 聚类损失带来 4.55% 的显著提升
特征池大小的效率-性能权衡：池大小 7 时 DSC 最高 (85.24%) 但 FLOPs 增至 21.7G；选择池大小 3 (84.37%, 5.8G FLOPs) 为最优平衡点

亮点¶

将图聚类引入 CTTA，用高阶结构信息替代不可靠的像素级/熵信号，思路新颖
共性/异质性提示池的解耦设计巧妙：反向注意力捕获跨域共享知识，标准注意力获取域特异信息
将边稀疏化建模为最优传输问题并用 Sinkhorn 求解，实现端到端可微分图聚类
在两个医学分割基准上全面超越 SOTA，长期 CTTA 实验充分验证了对灾难性遗忘和误差累积的鲁棒性

局限性¶

DGCS 的相似度矩阵计算复杂度为 \(O(V^2)\)，特征池增大时 FLOPs 急剧增长（池大小 15 时达 120G），限制了可扩展性
聚类数 \(Z\) 为人工超参数，不同任务需要调参
仅在 ResNet-50/ResUNet-50 上验证，未测试更强骨干 (如 ViT/Swin) 或更大规模数据集
单样本在线自适应场景，未探讨 mini-batch 到达的场景
共性提示池依赖聚类损失约束，该损失假设连续数据共享核心语义，在极端域偏移下可能不成立

评分¶

新颖性: ⭐⭐⭐⭐ — 提示解耦 + 最优传输图聚类的组合在 CTTA 领域是新的
实验充分度: ⭐⭐⭐⭐ — 两个基准、多域交叉、长期 CTTA、消融、超参分析、t-SNE 可视化
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式推导完整，动机阐述充分
价值: ⭐⭐⭐⭐ — 对医学影像部署场景有实际意义，但计算开销是落地障碍