跳转至

InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective

会议: ICML2025
arXiv: 2505.21920
代码: InfoSAM project page
领域: 图像分割
关键词: SAM微调, 信息瓶颈, 知识蒸馏, 参数高效微调, Rényi互信息, 域不变关系

一句话总结

提出 InfoSAM,从信息论角度为 SAM 的参数高效微调(PEFT)设计了基于 Rényi 互信息的关系压缩与蒸馏框架,通过压缩伪不变信息、保留域不变关系来提升微调效果。

研究背景与动机

  • 问题: SAM 在通用分割上表现优异,但在医学影像、遥感、农业等专业领域表现不佳,需要 PEFT 适配
  • 现有不足: 现有 PEFT 方法(LoRA、Adapter 等)独立调整各模块参数,忽略了预训练模型中编码器-解码器之间的隐式关系;传统蒸馏方法聚焦逐层特征对齐,缺对模块间关系的指导
  • 核心观察: SAM 的海量预训练学到了域不变的结构关系(如几何轮廓),但微调容易破坏这些关系;同时并非所有关系都有益——颜色等伪不变特征会干扰泛化
  • 研究目标: 如何从预训练 SAM 中提取域不变关系?如何将其迁移到微调模型?

方法详解

InfoSAM 由两个互补的信息论目标组成,形成"压缩-蒸馏"框架:

1. 注意力关系模块(Relation Module)

  • 输入:图像编码器嵌入 \(z_i^T \in \mathbb{R}^{B \times H \times W \times D}\) 和 mask decoder 输出 token \(z_m^T \in \mathbb{R}^{B \times N \times D}\)
  • 通过 LayerNorm + 线性投影得到 Q、K,计算注意力分数并加残差: $\(S_\alpha = \frac{QK^\top}{\sqrt{D}} + z_m^T \cdot {z_i^T}^\top\)$
  • 输出经 \(\ell_2\) 归一化得到关系表示 \(r^T = f^T(z_i^T, z_m^T; \theta)\)

2. 关系压缩损失 \(\mathcal{L}_r\)(Intra-SAM)

  • 目标: 最小化 \(\mathbf{I}_\alpha(z_i^T, z_m^T; r^T)\),作为信息瓶颈压缩伪不变信息
  • 基于 Rényi α-熵(α=2),利用 Frobenius 范数避免特征值分解: $\(\mathcal{L}_r = -\log_2 \|G_r^T\|_F^2 + \log_2 \|G_{imr}^T\|_F^2\)$
  • 其中 \(G_{imr}^T = G_i^T \circ G_m^T \circ G_r^T\)(Hadamard 积),\(G\) 为多项式核 Gram 矩阵

3. 跨模型蒸馏损失 \(\mathcal{L}_d\)(Inter-SAM)

  • 目标: 最大化教师关系 \(r^T\) 与学生关系 \(r^S\) 之间的互信息 \(\mathbf{I}_\alpha(r^T; r^S)\) $\(\mathcal{L}_d = \log_2 \|G_r^T\|_F^2 + \log_2 \|G_r^S\|_F^2 - \log_2 \|G_r^{TS}\|_F^2\)$
  • 教师和学生共享同一关系模块参数 \(\theta\)

4. 总损失函数

$\(\mathcal{L} = \mathcal{L}_{ce} + \lambda_1 \mathcal{L}_r + \lambda_2 \mathcal{L}_d\)$ - \(\mathcal{L}_{ce}\) 为标准分割损失(weighted IoU + BCE)

实验关键数据

表1: PEFT 方法对比(SAM ViT-B,5个数据集 × 4域)

方法 CAMO \(S_\alpha\) ISIC Jac↑ Kvasir \(S_\alpha\) Leaf IoU↑ Road IoU↑
SAM (zero-shot) 79.7 61.0 71.4 37.6 7.2
LoRA 87.7 87.8 93.0 71.4 59.0
Adapter 88.2 87.7 93.4 74.4 60.5
SU-SAM 88.3 87.8 93.8 74.7 60.2
Adapter+Ours 88.6 88.0 94.4 75.6 61.4

表2: 蒸馏方法对比(与 Adapter Student 对比)

方法 Kvasir \(S_\alpha\) Leaf IoU↑ Road IoU↑
Student (无蒸馏) 93.4 74.4 60.5
TinySAM 88.5 48.6 25.7
MobileSAM 92.5 71.9 59.2
VID 93.7 75.1 60.7
InfoSAM (Ours) 94.4 75.6 61.4

消融实验(Ablation)

\(\mathcal{L}_r\) \(\mathcal{L}_d\) Kvasir \(S_\alpha\) Leaf IoU Road IoU
93.4 74.4 60.5
93.6 (+0.2) 75.2 (+0.8) 61.0 (+0.5)
94.4 (+1.0) 75.6 (+1.2) 61.4 (+0.9)
  • 两个损失都有正贡献,\(\mathcal{L}_d\) 的主要作用体现在跨域蒸馏上
  • 在 SAM2(Hiera-B+)上同样有效:Kvasir 94.5、Leaf 77.3、Road 61.3

亮点与洞察

  • 首个信息论 SAM 适配框架: 将信息瓶颈理论引入 SAM PEFT,思路新颖且理论扎实
  • 不对齐特征而对齐关系: 不做逐层特征匹配,而是提取并迁移编码器-解码器间的域不变关系,避免了教师在下游域表现差时蒸馏反而降性能的问题
  • 即插即用: 与 LoRA、Adapter 等 PEFT 方法正交,也与 SAM/SAM2 架构无关
  • 伪不变信息过滤: 通过信息瓶颈压缩掉颜色等域特定信息,只保留几何结构等域不变信息
  • Rényi α=2 简化计算: 用 Frobenius 范数替代特征值分解,降低计算开销

局限与展望

  • 提升幅度有限:在部分数据集(如 LoRA+Ours vs LoRA)改进约 0.5-1%,域不变关系的收益可能有天花板
  • 当教师模型在目标域表现极差时(如 Road IoU 仅 7.2%),蒸馏仍能正向迁移,但幅度受限
  • 仅验证了 box/point prompt 场景,未探索 text prompt 或全自动分割
  • Rényi 熵阶 α 固定为 2,未探究不同 α 值对性能的影响
  • 关系模块引入额外参数和计算,论文未详细分析其开销
  • 只在中等规模数据集上验证,缺少超大规模数据集(如 SA-1B 子集)的实验
  • 超参数 \(\lambda_1, \lambda_2\) 的敏感性分析不够充分

相关工作与启发

  • 信息瓶颈 + 蒸馏的组合可推广到其他 foundation model(如 CLIP、DINOv2)的 PEFT
  • 与 VID、IBD 等基于互信息的蒸馏方法不同,InfoSAM 关注的是模块间关系而非单层特征
  • 域不变特征的思路源自域自适应分割(DAS),但首次用信息论量化并迁移

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将信息瓶颈理论用于 SAM PEFT,理论推导完整
  • 实验充分度: ⭐⭐⭐⭐ — 4 个领域 8 个数据集,SAM+SAM2,对比充分
  • 写作质量: ⭐⭐⭐⭐ — 信息论公式清晰,图示直观
  • 价值: ⭐⭐⭐⭐ — 提供了 SAM 微调的新视角,即插即用的蒸馏方案有实用价值