Vector Contrastive Learning for Pixel-wise Pretraining in Medical Vision¶

会议: ICCV 2025
arXiv: 2506.20850
代码: GitHub
领域: 医学图像
关键词: 对比学习, 像素级预训练, 医学视觉基础模型, 位移向量回归, 过度分散问题

一句话总结¶

提出向量对比学习（Vector CL），将标准对比学习从二值优化问题重新表述为向量回归问题，通过建模特征距离来量化分散程度，解决像素级医学视觉预训练中的"过度分散"问题，在 8 个下游任务上显著优于 17 种方法。

研究背景与动机¶

对比学习（CL）是自监督预训练的核心范式，但将其扩展到像素级表示——这对医学视觉至关重要——仍是一个未解决的问题。核心障碍是过度分散（over-dispersion）问题：

标准二值 CL 将预训练表述为二值优化（正对拉近、负对推远），不对分散程度进行建模，导致特征被过度分散。这在像素级任务中尤为严重：像素级特征天然在图像网格上分布，语义连续变化且本质相关。二值 CL 的过度分散会破坏这些相关性，打破类内分布，使模型难以解耦底层语义。

核心洞察：特征距离本质上编码了语义对应关系，可以用图像空间中的位移向量来表示。与其直接最小化 \(|\alpha - d'|\) 来建模嵌入空间中的距离 \(d'\)，不如构建一个函数 \(\mathcal{V}\) 将距离与图像空间中的向量 \(v'\) 关联，将 CL 重新表述为向量回归问题 \(|v - \mathcal{V}(d')|\)，其中 \(v\) 是可获取的真值向量。

方法详解¶

整体框架¶

COVER（COntrast in VEctor Regression）框架实现向量 CL，包含三个关键创新模块：

SeVR（Self-Vector Regression）：建立可扩展的自学习范式
MoV（Mixture of Vectors）：构建从向量回归到距离建模的一致优化流
VPA（Vector Pyramid Aggregation）：金字塔式多尺度对应建模

关键设计¶

SeVR — 自向量回归：给定医学图像 \(x\)，通过随机空间变换 \(\mathcal{T}_{sp}\) 生成两个视图 \(x_a = t(x)\) 和 \(x_b = \psi_{ab}(x)\)，空间变换本身即产生位移向量场（DVF）\(\psi_{ab} = \{v^i\}_{i \in \Omega}\) 作为无需标注的真值。共享权重网络 \(\mathcal{N}_\theta\) 提取多尺度特征 \(F_a, F_b\)，函数 \(\mathcal{V}\) 预测 DVF \(\psi'_{ab}\)，通过向量损失和一致性损失联合优化：
- \(\mathcal{L}_{vec} = \sum_{i \in \{\epsilon_{ab}=1\}} |\psi^i_{ab} - \psi'^i_{ab}|\)
- \(\mathcal{L}_{con}\)：用余弦相似度保持空间变换下的语义不变性
MoV — 向量混合：包含两个子模块：
- VEU（Vector Embedding Unit）：在 \(N \times N\) 感受野内，计算中心特征 \(f^i_a\) 与目标特征集 \(f^{N \times N}_b\) 的缩放点积注意力得到距离图 \(D^{N \times N}\)，设计固定向量模板矩阵 \(\mathbb{V}^{N \times N}\) 编码空间连续关系，通过 \(v'_{ab} = \text{softmax}(f^i_a f^{\top}_{b} / \tau) \mathbb{V}^{N \times N}\) 将距离映射为向量，避免人为划分保持特征相关性
- MVI（Multi-Vector Integration）：将 C 通道特征分为 J 组，每组独立生成一个向量，取平均以适应对应关系的模糊性，增强偏差适应性
VPA — 向量金字塔聚合：将 MoV 堆叠在金字塔架构中，从粗到细链式计算：\(\psi'^0_{ab} = \mathcal{M}(f^0_a, f^0_b)\), \(\psi'^l_{ab} = \mathcal{M}(\psi'^{l-1}_{ab}(f^l_a), f^l_b) \bigodot \psi'^{l-1}_{ab}\)。高层捕获全局对应、低层细化局部对应，在小感受野下实现大整体感受野，计算效率高。

损失函数 / 训练策略¶

总优化目标：\(\mathcal{L}_{COVER} = \mathcal{L}_{con} + \mathcal{L}_{vec}\)
使用 SGD 优化，学习率 \(10^{-4}\)，迭代 \(2 \times 10^5\) 次
理论基础：向量 CL 相比二值 CL 有更紧的泛化界，\(\delta_{VCL} \leq \tau \log(1/\alpha_{min}) \ll \Delta\)

实验关键数据¶

主实验（表格）¶

方法	类型	SCR(S)	PDCXR(C)	KiPA22(S)	FIVES(S)	CANDI(S)	FeTA21(S)	KiPA22-3D(S)	STOIC(C)	平均
Scratch	-	81.8	90.4	74.1	79.4	84.0	56.9	72.4	72.0	76.4
SimCLR	BCL	89.0	94.7	74.4	84.5	89.2	53.4	78.9	60.7	78.1
PixPro	DBCL	91.5	93.0	73.6	84.3	89.9	60.7	80.0	75.1	81.0
GEMINI	VR	92.4	92.9	79.1	85.3	90.0	61.7	85.0	79.5	83.2
COVER	VCL	94.0	95.9	80.0	87.2	89.9	63.6	85.2	80.4	84.5

COVER 在所有 8 个任务上均优于 Scratch，平均提升 8.1%，是唯一在所有任务上都有正增益的方法。

消融实验（表格）¶

组件	SCR DSC%
Base (仅 \(\mathcal{L}_{con}\))	91.8
+ VEU (SeVR)	92.9 (+1.1)
+ VPA	93.4 (+0.5)
+ MVI	94.0 (+0.6)

超参数消融：感受野 \(N=7\times7\) 最优（54.8%），VEU 数量 \(J=[4,4,4,1,1]\) 最优（56.3%）。

关键发现¶

跨尺度可迁移性：小目标（血管、脑组织）和大目标（胸部、肾脏）均有显著提升
跨场景适应性：即使预训练数据与下游任务场景不一致（如胸部 X 光预训练→肾脏 CT），COVER 仍能有效迁移
仅用 5% 训练数据即可接近 GVSL 用 25% 数据的性能
VPA 在整体感受野 121×121 时，计算量仅为直接方法的 1/52
t-SNE 可视化显示 COVER 特征分布连续平滑，有效聚合同语义特征

亮点与洞察¶

范式创新：首次将对比学习从二值问题重新表述为向量回归问题，提供了严格的数学等价性证明
向量模板矩阵 \(\mathbb{V}\) 的设计非常优雅——固定、无需学习、天然编码空间连续性
SeVR 的自空间变换机制摆脱了对配对数据的依赖（不同于 GVSL、GEMINI），可扩展到任意医学图像
理论分析证明向量 CL 比二值 CL 有更紧的 Rademacher 复杂度泛化界

局限与展望¶

当前仅用 U-Net 作为骨干网络，可探索更大规模架构（如 ViT）
预训练数据规模有限（~112k 2D 图像、837 3D 体积），扩大规模有望进一步提升
仿射变换生成 DVF 可能不够丰富，非刚性变换可能带来更好的预训练效果
向量回归与距离建模的等价性是近似而非严格的（依赖权重归一化分布）

评分¶

新颖性: ⭐⭐⭐⭐⭐ （全新 CL 范式，理论扎实）
实验充分度: ⭐⭐⭐⭐⭐ （8 任务 4 模态 17 方法对比 + 详尽消融）
写作质量: ⭐⭐⭐⭐⭐ （数学推导完整，动机清晰）
价值: ⭐⭐⭐⭐⭐ （医学视觉基础模型的重要进展）