VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation¶
会议: NeurIPS 2025
arXiv: 2601.10124
代码: GitHub
领域: 医学图像
关键词: 半监督分割, 向量量化, 特征扰动, 一致性学习, 医学图像分割
一句话总结¶
提出 VQ-Seg,首次将向量量化引入半监督医学图像分割,用量化扰动模块(QPM)替代传统 dropout 实现更可控的特征扰动,并结合双分支架构和基础模型引导对齐来弥补量化信息损失。
研究背景与动机¶
半监督医学图像分割中,一致性学习配合特征扰动是广泛使用的策略。然而,现有方法大量依赖 dropout 进行特征级扰动,存在根本性问题:
低 dropout 率(如 0.3, 0.5):扰动不足,对分割性能几乎无影响,无法提供有意义的正则化
高 dropout 率(如 ≥0.7):性能急剧下降,Dice 和 Jaccard 骤降,HD95 和 ASD 大幅上升,DR=0.9 时输出完全不可用
找到最优 dropout 率极其困难:依赖数据集、任务和网络架构,需要大量手动调参
从理论上看,对于 dropout,后验与先验之间的 KL 散度可近似为:
当 \(p\) 增大时 KL 散度急剧增长,导致过度正则化和学习退化。这激发了在离散向量量化空间中进行更可控扰动的思路。
方法详解¶
整体框架¶
VQ-Seg 包含四个核心组件:(1)VQ 编码器将连续特征量化为离散码本空间;(2)量化扰动模块(QPM)在码本索引空间内进行可控扰动;(3)双分支架构共享后量化空间,联合优化重建和分割;(4)基础模型引导的后量化特征适配器(PFA)弥补语义损失。采用教师-学生框架进行一致性学习。
关键设计¶
- 量化扰动模块(QPM):编码器输出 \(z = f_{\text{enc}}(x)\) 经 VQ 量化为最近码字索引 \(i = \arg\min_j \|z - c_j\|\)。QPM 定义扰动策略——给定原始码字 \(c_i\),以概率 \(\pi(j|i)\) 替换为另一个码字 \(c_j\):
其中 \(\epsilon \in [0,1]\) 控制扰动强度,\(d(c_i, c_j)\) 是码字距离,\(Z_i\) 是归一化因子。核心优势是:与 dropout 不同,QPM 的扰动分布 \(Q(c_j|\epsilon)\) 始终有界,受学习到的码本结构引导,在语义相近的码字间进行替换,更可控且可解释。例如扰动强度 \(\epsilon=0.7\) 时,最近码字 c₂ 有 49% 概率被选中。
- 双分支共享后量化空间:VQ 量化可能丢失细粒度视觉信息。为此设计双分支架构,后量化特征同时输入图像解码器 \(D_i\) 和分割解码器 \(D_s\):
有标签数据:\(\mathcal{L}_l = \mathcal{L}_{rec}(x_l, \hat{x}_l^S) + \mathcal{L}_{seg}(y_l, \hat{y}_l^S)\)
无标签数据使用教师网络生成伪标签 \(\tilde{y}_u\):\(\mathcal{L}_u = \mathcal{L}_{rec}(x_u, \hat{x}_u^S) + \mathcal{L}_{seg}(\tilde{y}_u, \hat{y}_u^S) + \mathcal{L}_{seg}(\tilde{y}_u, \hat{y}_a^S)\)
重建分支作为自监督信号,鼓励 VQ 编码器学习更好的表征。
- 基础模型引导的后量化特征适配器(PFA):使用冻结的 DINOv2 作为外部语义先验。PFA 通过 resize + 1×1 卷积匹配特征分辨率和通道维度,然后通过逐 patch 对比学习对齐量化特征与 FM 特征:
这种局部化的语义监督能弥补量化过程中的细节和语义漂移。
损失函数 / 训练策略¶
总损失:\(\mathcal{L} = \mathcal{L}_{db} + \lambda_a \mathcal{L}_{\text{align}}\),其中 \(\mathcal{L}_{db} = \mathcal{L}_l + \lambda_u \mathcal{L}_u\)。\(\mathcal{L}_{rec}\) 为 L1 损失,\(\mathcal{L}_{seg}\) 为交叉熵损失。教师网络通过 EMA 更新(\(\alpha=0.996\))。码本大小 \(K=16384\),训练 100K 迭代,AdamW 优化器,4 张 RTX 4090 GPU。
实验关键数据¶
主实验(LC 肺癌数据集)¶
| 方法 | 5% 标注 Dice↑ | 5% Jaccard↑ | 5% HD95↓ | 10% Dice↑ | 10% Jaccard↑ | 10% HD95↓ |
|---|---|---|---|---|---|---|
| UNet-F(全监督) | 0.8345 | 0.7386 | 6.9634 | 0.8345 | 0.7386 | 6.9634 |
| UNet-S | 0.4343 | 0.3118 | 26.0498 | 0.6490 | 0.5175 | 21.4063 |
| UA-MT | 0.6029 | 0.4647 | 48.6681 | 0.7222 | 0.5989 | 11.6724 |
| Unimatch | 0.6493 | 0.5071 | 17.8700 | 0.7511 | 0.6333 | 17.0178 |
| VQ-Seg | 0.6643 | 0.5257 | 12.2525 | 0.7852 | 0.6731 | 11.6179 |
在 10% 标注下 Dice 提升 2.97%,Jaccard 提升 3.17%。
消融实验¶
| Base | QPM | DB | PFA | Dice↑ | Jaccard↑ | HD95↓ | ASD↓ |
|---|---|---|---|---|---|---|---|
| ✓ | 0.7443 | 0.6238 | 14.2153 | 5.2301 | |||
| ✓ | ✓ | 0.7701 | 0.6559 | 13.0246 | 4.9378 | ||
| ✓ | ✓ | ✓ | 0.7784 | 0.6620 | 12.4728 | 4.6013 | |
| ✓ | ✓ | ✓ | ✓ | 0.7852 | 0.6731 | 11.6179 | 4.2094 |
QPM 贡献最大(+2.58% Dice),三个模块协同效果最优。
关键发现¶
- 扰动强度 \(\epsilon=0.7\) 为最优,\(\epsilon=0.9\) 时性能明显下降,但远不如 dropout 的急剧恶化
- DINOv2 作为语义先验在多个基础模型(CLIP、BiomedCLIP、MAE、Rad-DINO)中表现最优
- 码本大小 \(K=16384\) 最优:太小(1024)表达力不足,太大(65536)利用率下降到 92%
- 新收集的肺癌数据集(828 例 CT)为中央型肺癌标注,具有临床实用价值
亮点与洞察¶
- VQ 在半监督分割中的首次应用:将离散码本空间作为扰动载体,比 dropout 更结构化、可控
- 从理论到实做的完整论证:从 KL 散度分析 dropout 不稳定性 → 提出 QPM → 实验验证,逻辑链完整
- 双分支设计巧妙应对量化信息损失:重建分支不仅保留视觉信息,还为 VQ 编码器提供自监督信号
- 新数据集贡献:828 例肺癌 CT 是有价值的临床数据集,填补中央型肺癌分割数据空白
局限与展望¶
- 仅在 2D 切片上实验,未验证 3D 情况下 VQ 的表现
- 码本学习的稳定性和效率可能在更复杂任务中成为瓶颈
- QPM 的扰动策略基于码字距离,对码本质量敏感
- 仅使用 DINOv2 作为基础模型先验,未探索多模型集成或医学专用大模型
相关工作与启发¶
与 UA-MT(Monte Carlo Dropout)、BCP、Unimatch 等方法相比,VQ-Seg 的核心差异在于用离散空间的结构化扰动替代连续空间的随机丢弃。与通用 VQ-VAE 文献相比,VQ-Seg 巧妙地将 VQ 空间同时服务于扰动和重建。启发:当连续空间中的正则化策略表现不稳定时,映射到离散空间可能提供更可控的替代方案。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将 VQ 引入半监督分割做扰动,理论分析支撑充分
- 实验充分度: ⭐⭐⭐⭐ 消融细致,但仅两个数据集(LC 和 ACDC),可更多样化
- 写作质量: ⭐⭐⭐⭐ 动机清晰,图示直观,结构完整
- 价值: ⭐⭐⭐⭐ 为半监督分割中的扰动策略提供新思路,新数据集有额外贡献