VP-SAM: Taming Segment Anything Model for Video Polyp Segmentation via Disentanglement and Spatio-Temporal Side Network¶

会议: ECCV 2024
PDF: ECVA 代码: https://github.com/zhixue-fang/VPSAM
领域: 分割
关键词: 视频息肉分割, SAM适配, 语义解耦, 时空建模, 频域分析

一句话总结¶

本文提出 VP-SAM，通过语义解耦适配器（SDA）利用傅里叶频谱的幅度信息帮助 SAM 区分低对比度的息肉与背景，同时设计时空侧网络（STSN）为 SAM 注入视频帧间时序信息，在 SUN-SEG、CVC-612 和 CVC-300 等数据集上达到 SOTA。

研究背景与动机¶

领域现状：视频息肉分割（Video Polyp Segmentation, VPS）是肠镜辅助诊断的关键任务，旨在从结肠镜视频中逐帧分割出息肉区域。近年来，Segment Anything Model（SAM）作为通用分割基础模型展示了强大的泛化能力，成为各种下游分割任务的适配基座。

现有痛点：(1) 息肉与周围黏膜组织的颜色和纹理高度相似，对比度极低，SAM 在自然图像上训练的特征难以有效区分这两者；(2) SAM 是图像级模型，缺乏处理视频序列时序信息的能力——息肉在连续帧间的大小、位置、形状变化剧烈（由于镜头运动和肠道蠕动），单帧处理无法利用时序一致性；(3) 现有的 SAM 适配方法（如 SAM-Adapter、Medical SAM Adapter）主要为静态图片设计，未考虑视频的时空动态。

核心矛盾：SAM 强大的通用表示能力与息肉分割的特殊需求之间存在鸿沟——SAM 擅长分割高对比度目标但对低对比度医学目标力不从心，SAM 处理单帧但 VPS 是时序任务。如何在不破坏 SAM 预训练知识的前提下弥补这两个鸿沟？

本文目标 (1) 如何帮助 SAM 在低对比度场景中解耦前景（息肉）和背景（黏膜）？(2) 如何为 SAM 注入视频时序信息实现帧间跟踪？

切入角度：作者观察到息肉和背景虽然在空间域中外观相似，但在频域中表现出不同的频率特征——息肉区域通常具有与背景不同的纹理频率分布。利用傅里叶变换的幅度谱可以放大这种差异。同时，通过设计一个与 SAM 并行的轻量侧网络来处理时序信息，可以在不修改 SAM 主干的情况下注入时空感知能力。

核心 idea：用频域幅度信息解耦低对比度前背景 + 时空侧网络注入帧间信息，双管齐下让 SAM 适配视频息肉分割任务。

方法详解¶

整体框架¶

VP-SAM 以冻结的 SAM 编码器（ViT-B/H）为主干，在其基础上添加两个可训练的模块：(1) 语义解耦适配器（SDA），插入到 SAM 编码器的每个 Transformer 层中，利用频域信息增强前背景区分能力；(2) 时空侧网络（STSN），与 SAM 编码器并行运行，接受多帧输入提取时序特征，并在多个尺度上与 SAM 特征融合。输入是连续的内窥镜视频帧，输出是每帧的息肉分割掩码。

关键设计¶

语义解耦适配器（Semantic Disentanglement Adapter, SDA）:
- 功能：利用傅里叶频谱的幅度信息帮助 SAM 区分视觉相似的息肉和背景
- 核心思路：对 SAM 编码器中间层的特征图进行 2D FFT 变换，提取幅度谱 \(|F(u,v)| = \sqrt{Re^2 + Im^2}\)。幅度谱编码了不同频率成分的能量分布——息肉区域特有的纹理模式对应特定的频率分量。将幅度谱通过一个轻量的 MLP 映射回特征空间，得到频域增强特征 \(f_{freq}\)，然后与原始空间域特征进行逐元素相加融合：\(f_{out} = f_{spatial} + \gamma \cdot f_{freq}\)，其中 \(\gamma\) 是可学习的缩放参数
- 设计动机：在空间域中，息肉和背景的颜色/亮度高度相似（低对比度），但它们的纹理模式不同——息肉表面通常较光滑而周围黏膜有褶皱纹理。傅里叶幅度谱能显式捕获这种纹理差异，为 SAM 提供了额外的区分线索
时空侧网络（Spatio-Temporal Side Network, STSN）:
- 功能：在不修改 SAM 主干的前提下，为分割模型注入视频帧间的时序信息
- 核心思路：STSN 是一个独立的轻量编码器，接受当前帧及其相邻帧（如前后各 2 帧）作为输入。首先用共享的 CNN 提取每帧的空间特征，然后通过时序注意力模块建模帧间关系：\(A_{t} = \text{softmax}(Q_t K_{1:T}^T / \sqrt{d}) V_{1:T}\)，捕获息肉在连续帧间的运动轨迹和形变模式。STSN 的输出在多个分辨率上通过跳跃连接与 SAM 编码器的中间特征融合
- 设计动机：SAM 是单帧模型，无法感知息肉在视频中的运动状态（出现、消失、形变）。通过并行的侧网络注入时序信息，既保持了 SAM 预训练知识的完整性，又赋予了模型时序感知能力。"侧网络"设计比微调 SAM 主干更安全，避免了灾难性遗忘
多尺度特征融合解码器（Multi-Scale Fusion Decoder）:
- 功能：整合 SAM 特征和 STSN 时序特征，生成精细的分割掩码
- 核心思路：在四个分辨率尺度上，将 SAM 编码器的中间层特征与 STSN 对应尺度的时序特征通过注意力门控机制融合。门控权重由两路特征的相关性决定：\(g = \sigma(W_s f_{SAM} + W_t f_{STSN})\)，\(f_{fused} = g \odot f_{SAM} + (1-g) \odot f_{STSN}\)。融合后的多尺度特征通过渐进式上采样解码为最终分割掩码
- 设计动机：不同尺度捕获不同信息——低分辨率特征提供全局上下文和息肉位置信息，高分辨率特征提供边界细节。门控融合让模型自适应决定在每个位置更信任 SAM 特征还是时序特征

损失函数 / 训练策略¶

使用 BCE 损失 + Dice 损失的加权组合：\(L = L_{BCE} + L_{Dice}\)。训练时冻结 SAM 编码器主干（ViT 权重），仅训练 SDA、STSN 和解码器。使用 AdamW 优化器，学习率 1e-4，余弦退火调度。训练数据使用连续视频帧片段（5帧为一组）。

实验关键数据¶

主实验¶

数据集	指标	VP-SAM	PNS+	SANet	Polyp-PVT	提升
SUN-SEG (Easy)	Dice ↑	88.3	84.7	83.2	85.1	+3.2
SUN-SEG (Hard)	Dice ↑	80.1	74.6	72.8	75.9	+4.2
CVC-612	Dice ↑	92.7	89.3	88.1	90.5	+2.2
CVC-300	Dice ↑	91.5	88.0	87.2	89.1	+2.4
SUN-SEG (Hard)	IoU ↑	72.8	66.3	64.1	68.2	+4.6

消融实验¶

配置	SUN-SEG Easy Dice	SUN-SEG Hard Dice	说明
VP-SAM (完整)	88.3	80.1	完整模型
w/o SDA	85.6	76.5	SDA 在困难场景贡献大
w/o STSN (单帧)	86.1	75.8	时序信息对困难场景至关重要
w/o 频域 (仅空域 adapter)	86.8	77.3	频域信息额外贡献约 2.8
SDA + STSN w/o 门控融合	87.2	78.4	门控融合贡献约 1.7
SAM-ViT-B 基底	88.3	80.1	标准配置
SAM-ViT-H 基底	89.1	81.5	更大模型进一步提升

关键发现¶

在"困难"子集上的提升（+4.2 Dice）远大于"简单"子集（+3.2），说明 SDA 和 STSN 在低对比度和大形变场景中效果显著
STSN 对困难场景的贡献（-4.3 Dice when removed）大于 SDA（-3.6），说明时序信息在处理息肉运动和遮挡时更关键
频域分析（幅度谱）比纯空域 adapter 多贡献约 2.8 Dice，验证了频域信息对低对比度目标区分的有效性

亮点与洞察¶

频域解耦前背景的思路非常巧妙：当空间域中前背景不可分时，转换到频域可能找到新的区分线索。这个思路可以迁移到其他低对比度分割任务，如皮肤病变分割、视网膜血管分割等
侧网络架构在适配基础模型时兼顾了"不破坏预训练知识"和"注入新能力"两个需求，是一种比 LoRA/Adapter 更灵活的适配范式——适合需要注入全新模态信息（如时序）的场景
在简单和困难子集上的差异化分析提供了对方法有效性的深入理解

局限与展望¶

STSN 使用固定的帧数（5帧），对于长序列中的远程时序依赖（如息肉消失后重新出现）可能不够
仅在息肉分割上验证，未在其他医学视频分割任务（如手术器械分割、超声视频分割）上测试泛化性
侧网络增加了参数量和推理时间，虽然论文声称"轻量"，但具体的 FPS 数据未报告
可以引入 SAM 2（支持视频理解）作为基底替代 SAM，或许能进一步提升时序处理能力

评分¶

新颖性: ⭐⭐⭐⭐ 频域解耦 + 时空侧网络的组合设计新颖，频域解耦思路尤其有启发性
实验充分度: ⭐⭐⭐⭐ 多数据集验证，消融详细，easy/hard 分析有深度
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，方法图示易懂
价值: ⭐⭐⭐⭐ 为 SAM 适配医学视频分割提供了有效方案，频域解耦思路可广泛迁移