ICML2025 图像分割 SAM微调信息瓶颈知识蒸馏参数高效微调 Rényi互信息域不变关系

InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective¶

会议: ICML2025
arXiv: 2505.21920
代码: InfoSAM project page
领域: 图像分割
关键词: SAM微调, 信息瓶颈, 知识蒸馏, 参数高效微调, Rényi互信息, 域不变关系

一句话总结¶

提出 InfoSAM，从信息论角度为 SAM 的参数高效微调（PEFT）设计了基于 Rényi 互信息的关系压缩与蒸馏框架，通过压缩伪不变信息、保留域不变关系来提升微调效果。

研究背景与动机¶

问题: SAM 在通用分割上表现优异，但在医学影像、遥感、农业等专业领域表现不佳，需要 PEFT 适配
现有不足: 现有 PEFT 方法（LoRA、Adapter 等）独立调整各模块参数，忽略了预训练模型中编码器-解码器之间的隐式关系；传统蒸馏方法聚焦逐层特征对齐，缺对模块间关系的指导
核心观察: SAM 的海量预训练学到了域不变的结构关系（如几何轮廓），但微调容易破坏这些关系；同时并非所有关系都有益——颜色等伪不变特征会干扰泛化
研究目标: 如何从预训练 SAM 中提取域不变关系？如何将其迁移到微调模型？

方法详解¶

InfoSAM 由两个互补的信息论目标组成，形成"压缩-蒸馏"框架：

1. 注意力关系模块（Relation Module）¶

输入：图像编码器嵌入 $z_i^T \in \mathbb{R}^{B \times H \times W \times D}$ 和 mask decoder 输出 token $z_m^T \in \mathbb{R}^{B \times N \times D}$
通过 LayerNorm + 线性投影得到 Q、K，计算注意力分数并加残差： $$S_\alpha = \frac{QK^\top}{\sqrt{D}} + z_m^T \cdot {z_i^T}^\top$$
输出经 $\ell_2$ 归一化得到关系表示 $r^T = f^T(z_i^T, z_m^T; \theta)$

2. 关系压缩损失 $\mathcal{L}_r$（Intra-SAM）¶

目标: 最小化 $\mathbf{I}_\alpha(z_i^T, z_m^T; r^T)$，作为信息瓶颈压缩伪不变信息
基于 Rényi α-熵（α=2），利用 Frobenius 范数避免特征值分解： $$\mathcal{L}_r = -\log_2 \|G_r^T\|_F^2 + \log_2 \|G_{imr}^T\|_F^2$$
其中 $G_{imr}^T = G_i^T \circ G_m^T \circ G_r^T$（Hadamard 积），$G$ 为多项式核 Gram 矩阵

3. 跨模型蒸馏损失 $\mathcal{L}_d$（Inter-SAM）¶

目标: 最大化教师关系 $r^T$ 与学生关系 $r^S$ 之间的互信息 $\mathbf{I}_\alpha(r^T; r^S)$ $$\mathcal{L}_d = \log_2 \|G_r^T\|_F^2 + \log_2 \|G_r^S\|_F^2 - \log_2 \|G_r^{TS}\|_F^2$$
教师和学生共享同一关系模块参数 $\theta$

4. 总损失函数¶

$$\mathcal{L} = \mathcal{L}_{ce} + \lambda_1 \mathcal{L}_r + \lambda_2 \mathcal{L}_d$$ - $\mathcal{L}_{ce}$ 为标准分割损失（weighted IoU + BCE）

实验关键数据¶

表1: PEFT 方法对比（SAM ViT-B，5个数据集 × 4域）¶

方法	CAMO $S_\alpha$↑	ISIC Jac↑	Kvasir $S_\alpha$↑	Leaf IoU↑	Road IoU↑
SAM (zero-shot)	79.7	61.0	71.4	37.6	7.2
LoRA	87.7	87.8	93.0	71.4	59.0
Adapter	88.2	87.7	93.4	74.4	60.5
SU-SAM	88.3	87.8	93.8	74.7	60.2
Adapter+Ours	88.6	88.0	94.4	75.6	61.4

表2: 蒸馏方法对比（与 Adapter Student 对比）¶

方法	Kvasir $S_\alpha$↑	Leaf IoU↑	Road IoU↑
Student (无蒸馏)	93.4	74.4	60.5
TinySAM	88.5	48.6	25.7
MobileSAM	92.5	71.9	59.2
VID	93.7	75.1	60.7
InfoSAM (Ours)	94.4	75.6	61.4

消融实验（Ablation）¶

$\mathcal{L}_r$	$\mathcal{L}_d$	Kvasir $S_\alpha$	Leaf IoU	Road IoU
✗	✗	93.4	74.4	60.5
✓	✗	93.6 (+0.2)	75.2 (+0.8)	61.0 (+0.5)
✓	✓	94.4 (+1.0)	75.6 (+1.2)	61.4 (+0.9)

两个损失都有正贡献，$\mathcal{L}_d$ 的主要作用体现在跨域蒸馏上
在 SAM2（Hiera-B+）上同样有效：Kvasir 94.5、Leaf 77.3、Road 61.3

亮点与洞察¶

首个信息论 SAM 适配框架: 将信息瓶颈理论引入 SAM PEFT，思路新颖且理论扎实
不对齐特征而对齐关系: 不做逐层特征匹配，而是提取并迁移编码器-解码器间的域不变关系，避免了教师在下游域表现差时蒸馏反而降性能的问题
即插即用: 与 LoRA、Adapter 等 PEFT 方法正交，也与 SAM/SAM2 架构无关
伪不变信息过滤: 通过信息瓶颈压缩掉颜色等域特定信息，只保留几何结构等域不变信息
Rényi α=2 简化计算: 用 Frobenius 范数替代特征值分解，降低计算开销

局限与展望¶

提升幅度有限：在部分数据集（如 LoRA+Ours vs LoRA）改进约 0.5-1%，域不变关系的收益可能有天花板
当教师模型在目标域表现极差时（如 Road IoU 仅 7.2%），蒸馏仍能正向迁移，但幅度受限
仅验证了 box/point prompt 场景，未探索 text prompt 或全自动分割
Rényi 熵阶 α 固定为 2，未探究不同 α 值对性能的影响
关系模块引入额外参数和计算，论文未详细分析其开销
只在中等规模数据集上验证，缺少超大规模数据集（如 SA-1B 子集）的实验
超参数 $\lambda_1, \lambda_2$ 的敏感性分析不够充分

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将信息瓶颈理论用于 SAM PEFT，理论推导完整
实验充分度: ⭐⭐⭐⭐ — 4 个领域 8 个数据集，SAM+SAM2，对比充分
写作质量: ⭐⭐⭐⭐ — 信息论公式清晰，图示直观
价值: ⭐⭐⭐⭐ — 提供了 SAM 微调的新视角，即插即用的蒸馏方案有实用价值

InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective¶

一句话总结¶

研究背景与动机¶

方法详解¶

1. 注意力关系模块（Relation Module）¶

2. 关系压缩损失 \(\mathcal{L}_r\)（Intra-SAM）¶

3. 跨模型蒸馏损失 \(\mathcal{L}_d\)（Inter-SAM）¶

4. 总损失函数¶

实验关键数据¶

表1: PEFT 方法对比（SAM ViT-B，5个数据集 × 4域）¶

表2: 蒸馏方法对比（与 Adapter Student 对比）¶

消融实验（Ablation）¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective¶

一句话总结¶

研究背景与动机¶

方法详解¶

1. 注意力关系模块（Relation Module）¶

2. 关系压缩损失 \(\mathcal{L}_r\)（Intra-SAM）¶

3. 跨模型蒸馏损失 \(\mathcal{L}_d\)（Inter-SAM）¶

4. 总损失函数¶

实验关键数据¶

表1: PEFT 方法对比（SAM ViT-B，5个数据集 × 4域）¶

表2: 蒸馏方法对比（与 Adapter Student 对比）¶

消融实验（Ablation）¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶