Annotation-Efficient Coreset Selection for Context-dependent Segmentation¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 语义分割 / 数据剪枝
关键词: 核心集选择, 上下文相关分割, 最优传输, 弱标注, 数据剪枝
一句话总结¶
针对伪装目标、医学病灶等"上下文相关"分割任务标注极贵的问题,本文用基于点标注的最优传输给每张图打"重要性分",再用最大距离熵策略挑出兼顾覆盖与多样的核心集(CostSet),在 40% 剪枝率下相对全量训练仅掉约 1% IoU。
研究背景与动机¶
领域现状:上下文相关(Context-Dependent, CD)任务——伪装目标检测、医学病灶分割、遥感分析、阴影/透明物检测等——的前景边界没有固定语义,必须靠周围环境动态判定。这类任务目前主流靠 Spider、EVF 等强模型在像素级标注的大数据集上训练。
现有痛点:弱监督在 CD 场景效果差,于是方法被迫依赖像素级标签,而 CD 图像(如伪装、医学)单张标注耗时约 10 分钟,成本极高。更糟的是数据集里样本贡献严重不均:前景背景一眼可分的"低垂果实"在训练早期就被快速拟合,对模型识别复杂目标几乎没帮助,却照样占用标注与训练资源。
核心矛盾:标注成本高 × 样本冗余——既要少标,又要把宝贵的标注预算花在真正有用的样本上。而"有用与否"在 CD 任务里恰恰由前景-背景关系决定,无法用现有基于分类 logits 的剪枝准则(Entropy / Forgetting / EL2N / CCS)很好刻画。
切入角度:作者用 Spider 在多个 CD 数据集上观察到一条规律(图 1):前景背景差异大的样本拟合快但泛化增益小,差异微妙的样本拟合慢却能持续提升判别力。于是把"前景-背景分布差异"直接当作样本重要性的度量信号。
核心 idea:用一套"破坏前景—从背景重建前景"的最优传输流程量化前背景差异,差异越大(传输代价越高)说明样本越简单越没价值;再用最大距离熵在保证多样性的前提下挑核心集——全程只需点标注而非像素掩码。
方法详解¶
整体框架¶
方法把"CD 数据集核心集选择"拆成两步:样本评估和核心集选择。输入是图像 \(x_i\) 及其前景点标注 \(p_i\),输出是一个小而精的子集 CostSet。流程是:先用注意力衰减扩散过程(ADP)按点把每张图的前景"打碎"成噪声图;再用一个重建网络在最优传输框架下"从背景把前景重建回来",重建越费劲说明前背景差异越小、样本越难越有价值,由此算出每个样本的传输代价 \(C_i\) 作为重要性分;最后用最大距离熵(MDE)策略,把样本按代价排序、丢掉最易学的、分成 \(k\) 组后在每组内挑空间距离最大的样本,得到兼顾覆盖与多样的核心集。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:图像 + 前景点 pi"] --> B["注意力衰减扩散 ADP<br/>按点定向打碎前景"]
B --> C["基于距离的前景重建<br/>OT 从背景重建前景<br/>得传输代价 Ci"]
C --> D["最大距离熵 MDE 选择<br/>排序→丢易学→分组→选最远"]
D --> E["核心集 CostSet<br/>下游分割训练"]
关键设计¶
1. 注意力衰减扩散过程(ADP):只用一个点就定向破坏前景
要量化前背景差异,第一步得先把前景"扰动掉"看模型能否从背景恢复。难点是只有点标注、没有掩码,怎么精准只扰前景、不毁背景。ADP 借鉴扩散模型的加噪思路,但仅围绕给定点做衰减式加噪:对点 \(p=(m,n)\),先算每个像素到点的 \(\ell_2\) 距离矩阵 \(M_d(x,y)=\lVert(x,y)-(m,n)\rVert_2\),再构造衰减矩阵
其中噪声方差 \(\gamma(t)\) 随时间衰减、影响半径 \(r(t)\) 随时间收缩,\(\alpha\) 控制衰减速率。复杂目标用更密的点覆盖前景。为了"扰够前景又不毁背景",ADP 设了自适应停止:动态阈值 \(\Delta=1\),每步用 Wasserstein 距离 \(D_W\) 衡量当前噪声前景与首步前景的分布差异,按 \(\Delta\leftarrow\Delta-(1-\exp(-D_W))\) 衰减,\(\Delta<0\) 时停;同时设最大步数上限 \(T=9\) 防止背景被过度污染。相比对整图无差别加噪,ADP 把"破坏"精确锁在前景,这正是后面用重建难度反推前背景差异的前提。
2. 基于距离的前景重建:用最优传输把"重建难度"变成重要性分
有了噪声图,按最优传输理论可以"从背景分布把前景重建回来",重建后图与原图差多少就反映前背景差异多大。但标准 Wasserstein 距离计算量随图像尺寸指数膨胀,训练吃不消。本文改用平均投影 1D Wasserstein 距离做近似:把高维分布随机投影到若干一维子空间再平均。具体地,采样 \(Q\) 个满足 \(z_i\sim\mathcal N(0,I),\ \lVert z_i\rVert=1\) 的随机投影向量,把重建分布 \(\mu\) 与真值分布 \(\nu\) 投到一维得 \(\tilde\mu_i=\mu_i\cdot z_i,\ \tilde\nu_i=\nu_i\cdot z_i\),排序后逐点求差:
重建网络(UNet)以此为目标训练后,每个样本的传输代价 \(C_i=W_\tau(x_r^i,x^i)\) 就是它的重要性分,由此得到的核心集即 CostSet。关键直觉是:代价高 ⇒ 前背景差异大 ⇒ 样本简单 ⇒ 贡献低;代价低 ⇒ 前背景纠缠、难学、信息量大。这把"标注成本"问题转成了"无标注前提下用重建难度自动评估样本"的问题。
3. 最大距离熵(MDE)选择:在丢掉低垂果实后保多样性
光按代价分挑样本不够好:如果高贡献样本恰好是一段序列里的多张相似帧,核心集就会丧失多样性。MDE(算法 1)先把样本按传输代价 \(C_i\) 排序,用丢弃比 \(b\) 去掉一批最易学(最该被剔除)的样本以免污染模型,再把剩余样本切成 \(k\) 组以覆盖整个样本空间;每组内做"最大距离熵"选择:维护一个默认距离向量 \(v_d\),反复计算候选样本与 \(v_d\) 的 Wasserstein 距离 \(W_\tau(v_d,R_{i,j})\),每次把距离最大的样本加入候选集 \(R_c\) 并更新 \(v_d=\frac{1}{|R_c|}\sum_m r_m\),直到取够 \(\lceil\hat r\cdot n/k\rceil\) 个。这里 Wasserstein 距离的大小反映样本间空间差异,即所选核心集的信息熵水平——既在每组内拉开多样性,又靠分组保证全局覆盖。⚠️ 丢弃方向(升序丢首段还是丢易学高代价样本)以原文算法 1 为准,作者表述的意图是剔除"最易学"的样本。
损失函数 / 训练策略¶
重建阶段用 UNet + Adam,学习率 \(1\times10^{-4}\) 线性衰减到 \(1\times10^{-6}\),训 100 epoch;ADP 中 \(T=9\),投影维度 \(P=384\),分组数 \(k=5\)。下游验证用 UNet(ResNet50 ImageNet 预训练 backbone)训 64 epoch,损失为交叉熵 + IoU 之和;为公平评估剪枝策略不做数据增强。
实验关键数据¶
在 6 个 CD 任务上验证:SOD、COD、MIS、RSIS、TOD、SD,统一用 UNet 做分割、IoU 为指标,剪枝率从 80% 到 10%。
主实验¶
下表取 40% 剪枝率,对比本文(仅点标注 P)与次优方法、以及全量训练(p=0):
| 任务(全量 IoU) | 本文 Ours (P) | TFDP (F, 次优) | 与全量差距 |
|---|---|---|---|
| SOD (74.8) | 73.4 | 70.9 | −1.4 |
| COD (55.1) | 52.0 | 50.6 | −3.1 |
| MIS (54.8) | 53.8 | 52.3 | −1.0 |
| RSIS (58.9) | 57.7 | 54.2 | −1.2 |
| TOD (84.0) | 82.0 | 78.7 | −2.0 |
| SD (72.5) | 71.8 | 70.3 | −0.7 |
关键趋势:剪枝率越高优势越大,以 SOD 为例,与对手的差距从 10% 剪枝时约 0.5% 扩大到 80% 剪枝时约 4%;且本文只用点标注(F=像素标注、P=点标注),却全面超过需要像素标注的对手。
消融实验¶
ADP 框架下不同选择策略 vs GT 上界(SOD,IoU%):
| 策略 | 80% | 60% | 40% | 20% | 10% |
|---|---|---|---|---|---|
| ADP(C) + TopK | 64.4 | 70.0 | 73.1 | 74.1 | 74.9 |
| ADP(C) + TailK | 63.1 | 68.3 | 72.6 | 73.6 | 74.4 |
| ADP(C) + MDE | 66.2 | 71.3 | 73.4 | 74.0 | 74.8 |
| GT(C_gt) + Random | 66.4 | 71.6 | 73.2 | 74.2 | 74.4 |
| GT(C_gt) + MDE(上界) | 66.9 | 71.9 | 74.1 | 74.3 | 75.0 |
同一传输代价 C 排序下 MDE vs 其他选择策略(SOD,IoU%):
| 策略 | 80% | 60% | 40% | 20% | 10% |
|---|---|---|---|---|---|
| Entropy | 61.7 | 68.0 | 71.1 | 72.4 | 73.5 |
| EL2N | 63.9 | 67.3 | 71.7 | 72.8 | 73.8 |
| CCS | 64.3 | 65.8 | 72.0 | 72.8 | 73.5 |
| TFDP | 62.9 | 68.0 | 71.6 | 73.5 | 74.2 |
| MDE | 66.2 | 71.3 | 73.4 | 74.0 | 74.8 |
标注效率(SOD): 点标注约 2s/张,远低于框(≈6s)和涂鸦(≈7s);前景覆盖 \(F_c\)=75.7%、背景误扰 \(B_c\)=8.3%,背景污染最低。
关键发现¶
- 仅点标注就逼近 GT 上界:ADP+MDE 用点标注得到的 66.2%–74.8% 紧贴 GT+MDE 上界 66.9%–75.0%,证明传输代价能在无掩码下有效评估样本。
- 多样性机制不可省:MDE 比只取尾部的 TailK 在 80% 剪枝时高出 3.1%,说明分组 + 最大距离选择带来的多样性是关键。
- 噪声样本会拖累泛化:GT+MDE 在 10% 剪枝时(75.0%)反超全量训练(74.8%),印证"剔除低垂果实"与课程学习直觉一致。
- 丢弃比按任务调:简单任务(SOD)适合更高丢弃比(0.15),含大量相似图的 MIS 也偏好高丢弃比,COD/RSIS/TOD 等较难任务 0.1 更优。
- 失效场景:透明物(TOD,镜面反射外物)和遥感(RSIS)前背景纠缠极强,ADP 难以覆盖,提升相对最小。
亮点与洞察¶
- 把"标注贵"转译成"重建难度":用最优传输的传输代价当样本重要性分,绕开了 CD 任务弱监督效果差、又必须看前背景关系的死结,是很巧的问题转化。
- ADP 只需点标注还能定向扰前景:衰减矩阵 + 自适应停止把噪声精确锁在前景,2s/张的标注成本对动辄 10 分钟/张的 CD 任务是数量级的节省。
- 平均投影 1D Wasserstein 是可复用 trick:把指数复杂度的 Wasserstein 用随机一维投影 + 排序求差近似,任何需要在图像分布上算 OT 代价的任务都能借用。
- 代价-贡献的反直觉关系:传输代价高=样本简单=贡献低,这条经验规律本身就是一个可迁移到其他数据剪枝场景的洞察。
局限与展望¶
- 作者承认:在前背景高度纠缠/杂乱的场景(TOD、RSIS)ADP 难以很好破坏前景,提升有限。
- 选择流程看似复杂(ADP + 重建网络 + MDE 三段串行),训练重建网络本身也有额外开销,论文未充分讨论这部分时间成本与端到端简化空间。
- ⚠️ 算法 1 中丢弃比 \(b\) 的丢弃方向与"丢最易学样本"的文字表述需对照原文核实;且丢弃比需按任务人工调,缺乏自适应选取机制。
- 仅在 UNet+ResNet50 上验证,是否在更强分割骨干/SAM 类模型上同样有效未知。
相关工作与启发¶
- vs 分类型剪枝(Entropy / Forgetting / EL2N / CCS):它们靠模型 logits 打分,本文为适配 CD 任务把每图分数定义为预测像素的平均 logit;而本文直接从前背景分布差异打分,更贴合 CD 概念的本质,且只需点标注。
- vs TFDP:TFDP 在实例分割剪枝上高效,被本文改造来做 CD 分割并作为最强对手;本文在多数剪枝率上超过它,差距主要来自 TFDP 未充分考虑样本多样性覆盖(表 4 中 60%/80% 高剪枝率下 TFDP 提升最小)。
- vs 主动学习:本文属"弱标注下的核心集选择",但用点标注少标、又一次性选出训练子集,兼具两个范式的价值,搭起了核心集选择与主动学习之间的桥梁。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个针对上下文相关任务的核心集选择,且把 OT 重建难度作为重要性分的思路新颖。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 6 个 CD 任务 + 多剪枝率 + 标注方式/丢弃比/选择策略多组消融,但仅单一分割骨干。
- 写作质量: ⭐⭐⭐⭐ 动机观察(图 1)讲得清楚,方法符号略多但公式完整;丢弃方向表述稍有歧义。
- 价值: ⭐⭐⭐⭐ 对标注极贵的 CD 任务有实打实的降本意义,40% 剪枝仅掉 1% IoU。