SegGBC: Justifiable Coarse-to-Fine Granular-Ball Computing for Enhancing Clustering Image Segmentation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 语义分割（无监督聚类分割 / 粒球计算）
关键词: 粒球计算, 无监督分割, 聚类分割, 直觉模糊集, 多粒度表示

一句话总结¶

SegGBC 第一次把"粒球计算（Granular-Ball Computing）"这套粗到细的多粒度聚类范式搬到图像分割上，用直觉模糊集显式建模图像里的内在不确定性、用一个语义感知的"语义紧致度准则（SCMGB）"指导粒球的分裂与合并，既能独立做无监督分割、又能当即插即用前端把已有聚类分割方法的 SA / mIoU 各拉高 3% 以上。

研究背景与动机¶

领域现状：像素级密集标注代价太高，于是无监督的"聚类分割方法（Clustering-based Segmentation Method, CSM）"很受欢迎——它无需训练、表示显式，直接按特征相似度把图像元素聚成几个区域。CSM 主要有两条路线：像素级（把每个像素当独立样本，按色调/位置聚类，常再加空间约束保持物体内相关性）和簇级（在中间表示上聚类，或直接约束像素簇、或借预训练深度特征隐式编码语义）。

现有痛点：无论像素级还是簇级，这些 CSM 都被钉死在单一、固定的粒度上分析。像素级计算量爆炸、又抓不住高阶语义；簇级则受困于单尺度语义、鲁棒性差、对形态变化带来的高不确定性束手无策。固定粒度导致分割经常欠优——要么过分割、要么把语义不同但视觉相似的区域并到一起。

核心矛盾：图像分割天然需要多尺度地看问题（大区域要粗、边界细节要细），而传统聚类只在一个粒度上迭代更新质心和"点到质心距离"，无法兼顾粗细。粒球计算（GBC）恰好用"全局优先"原则——从覆盖整个数据集的一个大粒球出发，靠质量准则驱动递归"分裂—合并"得到最终簇，天然是多粒度、低开销的。但 GBC 此前只用在传统数据挖掘里，迁到图像上有两个硬骨头没人啃：i) 怎么刻画图像内部的不确定性（噪声、低对比、模糊边界）以免精度崩；ii) 怎么设计一个对齐图像属性、可辩护（justifiable）、语义感知的质量准则——纯几何指标（纯度、半径）根本编码不了语义连贯性。

本文目标 / 切入角度：作者主张，把 GBC 用到分割上，必须同时补上"不确定性表示"和"语义质量准则"两块短板。观察是：图像的不确定性既有几何上的（粒球能处理），也有源于噪声/低对比/模糊边界的认知不确定性——后者正好是直觉模糊集（IFS）的强项（用犹豫度 π 显式建模"说不清属不属于"的部分）。

核心 idea：用 IFS 把每个粒球升级成"直觉模糊粒球"显式量化不确定性，再设计语义紧致度准则 SCMGB（结合粒球的"稳定区域"和整体密度）来裁决粒球该不该分裂，最后用融合几何+模糊语义的相似度来决定合并——构成首个面向分割的 GBC 框架 SegGBC，且可即插即用增强已有 CSM。

方法详解¶

整体框架¶

SegGBC 输入是图像的特征向量集 \(X=\{x_1,\dots,x_n\}\in\mathbb{R}^d\)（可以是原始像素，也可以是上游深度特征），输出是图像的多粒度粒球表示与最终聚类（即分割掩膜）。整条流水线是一个"粗到细"的过程：先用一个大粒球覆盖全图，然后反复地"按质量准则分裂、按相似度合并"，直到所有粒球都达标。

四个核心环节串起来是：(1) 把每个粒球做成直觉模糊粒球，用隶属/非隶属/犹豫三度显式编码球内不确定性，并据此修正球的半径与中心；(2) 在每个球里界定一个稳定区域——区域内的样本本轮铁定不会跳到邻球，既给后续准则提供稳健的"原型核心"，又省掉大量冗余计算；(3) 用语义紧致度准则 SCMGB（结合稳定区域密度与整体密度）判断一个球是否语义足够紧致，不达标就分裂；(4) 用模糊语义相似度判断相邻球是否该合并。分裂把粒度变细、合并把语义相近的区域抱团，二者拉锯到收敛。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：像素 / 上游深度特征<br/>单个大粒球覆盖全图"] --> B["直觉模糊粒球<br/>μ / ν / π 显式建模不确定性"]
    B --> C["稳定区域<br/>本轮不跳球的核心样本"]
    C --> D["语义紧致度准则 SCMGB<br/>稳定密度 vs 整体密度"]
    D -->|"SCMGB < β：语义不够紧致"| E["分裂：GBj → GBj1, GBj2"]
    E --> B
    D -->|"达标：进入合并"| F["模糊语义相似度合并<br/>Sim > ε 则并球"]
    F --> G["输出：多粒度粒球表示<br/>= 分割掩膜 / 即插即用前端 SegGBs"]

关键设计¶

1. 直觉模糊粒球：用犹豫度把图像的内在不确定性写进粒球

传统粒球只有 \(GB(c, r)\)——中心 \(c_j=\frac{1}{|GB_j|}\sum_i x_i\)、半径 \(r=\max_i \|x_i-c_j\|_2\)，纯几何，对噪声、低对比、模糊边界这类图像不确定性完全无感，强行套到图像上精度就崩。SegGBC 把直觉模糊集（IFS）嵌进粒球：对球内样本 \(x_i\) 相对中心 \(c_j\)，用两个不同尺度的高斯衰减算出隶属度和非隶属度

\[\mu_{GB_j}(x_i)=\exp\!\left(-\frac{\|x_i-c_j\|_2}{\sigma_m^2}\right),\quad \nu_{GB_j}(x_i)=1-\exp\!\left(-\frac{\|x_i-c_j\|_2}{\sigma_n^2}\right),\]

再得犹豫度 \(\pi_{GB_j}(x_i)=1-\mu_{GB_j}(x_i)-\nu_{GB_j}(x_i)\)。关键约束是 \(\sigma_m\neq\sigma_n\) 且 \(\sigma_m>\sigma_n\)——一旦 \(\sigma_m=\sigma_n\)，模型就退化成普通模糊集，犹豫度恒为零、不确定性建模就废了。作者用最大粒球半径 \(r_{max}\) 把这两个尺度参数化：\(\sigma_m=\alpha\cdot r_{max}\)、\(\sigma_n=(1-\alpha)\cdot r_{max}\)，取 \(\alpha\in(0.5,1)\) 才能保证非对称、真正建模不确定性。

有了犹豫度，球的半径和中心也被改写得更鲁棒：\(r_{max}=\max_i(\|x_i-c_j\|_2+\pi_{GB_j}(x_i))\)、\(c_j=\frac{1}{|GB_j|}\sum_i(x_i+\theta[\pi_{GB_j}(x_i)])\)，其中 \(\theta[\cdot]\) 把犹豫度这个标量广播成向量。这样几何距离和"说不清"的不确定性被同时纳入分裂—合并决策，相比纯距离的粒球，能把模糊边界、噪声点处理得稳得多。这是它补上 GBC 第一块短板（不确定性表示）的核心。

2. 稳定区域：用一个"铁定不跳球"的核心区同时换来鲁棒性和效率

直接用最大距离当半径对离群点极其敏感，改用平均半径 \(r_{avg}=\frac{1}{|GB_j|}\sum_i(\|x_i-c_j\|_2+\pi_{GB_j}(x_i))\) 虽不敏感，却又带来两个新问题：计算量大、且仍然没有语义感知。SegGBC 的破法是定义一个稳定区域——以中心 \(c_j\) 为心、半径 \(r_{sta}\) 的球形区，区内样本"簇隶属高度稳定"。作者用 Theorem 1 给了可辩护的依据：稳定区内的样本本轮迭代铁定不会被重分配到任一相邻粒球。其半径为

\[r_{sta}=\frac{1}{2}\min_{GB_a\in N\{GB_j\}}\!\left(\|c_j-c_a\|_2+\Delta\pi_{ja}\right),\quad \Delta\pi_{ja}=\pi_{GB_j}(x)+\pi_{GB_a}(x),\]

即取到所有邻球的"距离+犹豫度之和"的最小值再折半。直觉上，当一个样本把几何距离和犹豫度合起来看时，它对本球 \(GB_j\) 的不确定性低于对所有邻球的不确定性，就不会跑。这一招的妙处是一箭双雕：稳定区内的样本是更具代表性的"原型"，能抓住簇的核心密度与语义结构，于是后续准则只在这个可信核心上算就够了——既排除了不确定区域的冗余运算（大幅省时），又让度量更稳。

3. 语义紧致度准则 SCMGB：一个落在 [0,1]、语义感知、可辩护的分裂裁判

GBC 迁到图像最缺的就是"该不该分裂"的语义准则——纯半径/纯纯度准则只看分布、不看语义，会过早收敛或过度分裂。SCMGB 同时考虑半径和密度，用三种粒球密度来刻画：最大半径密度 \(\rho^{max}_{GB_j}=|GB_j|/r_{max}^d\)、平均半径密度 \(\rho^{avg}_{GB_j}\)（落在 \(r_{avg}\) 内的样本数除以 \(r_{avg}^d\)）、以及结合稳定区的稳定密度 \(\rho^{sta}_{GB_j}\)（落在 \(r_{sta}\) 内的样本数除以 \(r_{sta}^d\)）。准则定义为

\[SCMGB=\frac{\min(\rho^{avg}_{GB_j},\rho^{max}_{GB_j})\cdot\min(\rho^{sta}_{GB_j},\rho^{max}_{GB_j})}{\max(\rho^{avg}_{GB_j},\rho^{max}_{GB_j})\cdot\max(\rho^{sta}_{GB_j},\rho^{max}_{GB_j})}.\]

作者用 Theorem 2 证明它恒在 \([0,1]\)：分子分母都是 min/max 配对，必然 \(\le 1\)。语义上，当稳定密度 \(\rho^{sta}\) 越接近整体（平均）密度 \(\rho^{avg}\)，SCMGB 越趋近 1，说明球内分布越稳定、语义越一致；反之偏小说明球里混了语义不同的区域，需要分裂。算法据此设阈值 \(\beta\)（默认 0.8）：只要还存在 \(SCMGB_j<\beta\) 的球就把它一分为二，直到全部达标。它强制"球内一致 + 球间分离"，既减少过分割、又锐化边界，是 SegGBC 补上第二块短板（语义质量准则）的核心。

4. 模糊语义相似度合并：让"视觉像但语义不同"的区域不再被错并

光分裂会把图切得过碎，还需要合并把语义相近的相邻球抱团。传统合并只看几何距离，常把视觉相似但语义不同的区域并到一起。SegGBC 改用融合"模糊语义"的相似度：

\[Sim(GB_i,GB_j)=\frac{1}{2}\left[\frac{\sum \mu_{GB_i}(x)\mu_{GB_j}(x)}{\sqrt{\sum\mu_{GB_i}^2}\sqrt{\sum\mu_{GB_j}^2}}+(1-\Delta\pi_{ij})\right],\]

前一项是两球隶属度的余弦相似（语义对齐），后一项 \((1-\Delta\pi_{ij})\) 奖励犹豫度低、即关系明确的配对。当 \(Sim>\varepsilon\)（默认 0.75）且满足几何邻接条件时才合并。把语义相似度摆在几何距离之前，就有效压住了"过度合并"。分裂（变细）与合并（抱团）一推一拉，最终收敛出语义连贯的分割。

一个例子：粒球从 23 个收敛到语义分区¶

作者在 NI 3 上可视化了整个粗到细过程：初始阶段有 23 个大小不一的异质粒球（SA=53.69%），这是多尺度粒化策略的直接体现；随后在合并准则驱动下，语义相似区域被整合，粒球数骤降到 9 个（SA 升到 77.86%）——这一步对应分割精度的大幅跃升；最终收敛（SA=95.87%），得到语义上有意义的图像分区。这个"23 → 9 → 收敛"的轨迹很直观地说明了 SCMGB 分裂 + 相似度合并是怎么一步步把图割对的。

损失函数 / 训练策略¶

SegGBC 是无需训练、training-free 的聚类方法，没有可学习参数，整套流程由 Algorithm 1 驱动：初始化直觉模糊粒球（式 6–9）→ 算 \(r_{avg}\)、\(r_{sta}\)（式 10–11）→ 算 SCMGB（式 13–16）→ while 仍有 \(SCMGB_j<\beta\) 就分裂 → 最后对满足 \(Sim(GB_i,GB_j)>\varepsilon\) 的相邻球做合并。关键超参为分裂阈值 \(\beta=0.8\)、合并阈值 \(\varepsilon=0.75\)、模糊非对称系数 \(\alpha\in(0.5,1)\)。当它作为即插即用前端 SegGBs 增强别的 CSM 时，则不用自带的相似度合并，而是把多粒度粒球表示喂给下游方法各自的分类/聚类流程。

实验关键数据¶

数据集与协议：单图协议用自然图像 BSD500、DUST 与遥感图像 LoveDA 做像素级 CSM 评测；图像集协议把图缩到 2/3 再裁成 128×128 patch，在 COCO-Stuff 与 COCO-Stuff-3 上做簇级 CSM 评测。指标含 SA（分割精度）、F1、NMI、mIoU、PixelAcc 与时间消耗 mTC/TC。

主实验：自然图像 7 张（7-NI）¶

SegGBC 在所有像素级、簇级、以及其他粒球方法（Ball k-means、MGNR）上全面领先，且耗时最低。

方法	类型	7-mIoU(%)↑	mTC(s)↓	备注
DeepCut [ICCV'23]	簇级(隐式)	52.73	11.60	深度特征聚类
FLRSC [TFS'23]	簇级(超像素)	49.36	7.69	—
Ball k-means [TPAMI'22]	粒球	59.50	2.87	此前最强粒球法
MGNR [TPAMI'24]	粒球	57.32	3.76	—
SegGBC (本文)	粒球+IFS	68.76	2.06	7-mIoU 超次优 9.26 点，耗时最低

在单图指标上，SegGBC 在 NI 6 / NI 7 的 SA 分别领先 8.53 / 8.79 点，NI 1 的 NMI 领先达 31.8 点；遥感图（3-RSI）上 3-mIoU 达 62.10%、超次优 4.41 点，且同样耗时最低。作者也指出多数粒球方法在 RSI 上掉点明显（RSI 范围大、目标分布复杂，挑战粒球稳定性），而 SegGBC 仍稳住。

即插即用增强：SegGBs 当前端¶

把 SegGBs 当数据表示前端接到已有方法上，普遍涨点，且越弱的方法涨得越猛。

基线 + SegGBs	数据/指标	提升
DFKM + SegGBs	NI 2 / SA	+38.22 点
RLFCM + SegGBs	NI 7 / SA	+18.79 点
PiCIE+H + SegGBs	COCO-Stuff-3 / mIoU	52.51→79.93（+27 点以上）
DeepClu + SegGBs	COCO-Stuff-3 / PixelAcc	+17.61 点
IRCIS + SegGBs	COCO-Stuff / PixelAcc	+13.45 点

摘要给出的保守下界是：在标准图像与 COCO-Stuff 上至少 +3.25% SA、+3.92% mIoU。"每个被接入的方法都涨"这一点，是它即插即用通用性的有力证据。

消融实验（NI 7 / RSI 3，SA(%) / TC(s)）¶

配置	IFS/FS	稳定区 SCMGB	NI 7 SA	RSI 3 SA
传统粒球 w/ \(r_{max}\)	—	✗	63.34	53.69
传统粒球 w/ \(r_{avg}\)	—	✗	69.20	60.60
传统粒球 w/ \(r_{sta}\)	—	✓	76.97	62.34
模糊粒球 w/ \(r_{avg}\)	IFS	✗	72.80	67.29
模糊粒球 FS+\(r_{sta}\)	FS	✓	80.86	74.65
SegGBC：IFS+\(r_{sta}\)	IFS	✓	96.83	82.91

关键发现¶

IFS 与 SCMGB 缺一不可且高度协同：单看 IFS，相比传统模糊在 NI 7 / RSI 3 的 SA 至少提升 15.97 / 8.26 点；单看 SCMGB（稳定区准则），把 SA 从 72.80% 拉到约 94.83%（+22.03 点）、RSI 3 上 +15.62 点。两者叠加（完整 SegGBC）才打到 96.83 / 82.91，远超任一单项。
稳定区不仅提精度还省时：对比 \(r_{max}\)/\(r_{avg}\) 配置，带 \(r_{sta}\) 的版本 TC 普遍更低（如 NI 7 从 3.16/3.91 降到 2.09/2.72），印证"排除不确定区冗余运算"带来的效率收益——这在多数方法"精度上去时间也上去"的背景下尤为难得。
粗到细收敛清晰可见：NI 3 上粒球数 23→9→收敛、SA 53.69%→77.86%→95.87%，直观验证分裂+合并机制的有效性。
遥感是软肋也是亮点：多数粒球法在 RSI 上崩盘，SegGBC 仍领先（RSI 3 上 SA 至少 +11.79、NMI +6.66 点），但作者也承认高分辨率 RSI 上开销不小。

亮点与洞察¶

把两类不确定性显式拆开建模：粒球本身处理几何不确定性，IFS 的犹豫度 \(\pi\) 专管图像噪声/低对比/模糊边界这类认知不确定性——两者互补而非重复，这个分工很干净，也是它能稳住模糊边界的根因。
"稳定区域"是性价比极高的一招：一个有定理（Theorem 1）兜底的"本轮不跳球"核心区，同时换来鲁棒原型、语义密度估计、和算力节省三件事，是典型的"一个机制解决多个问题"的好设计，值得迁移到其他需要在线维护簇成员的聚类/分割任务。
SCMGB 的"可辩护性"：作者刻意强调 justifiable——准则不是拍脑袋设的相似度，而是有 \([0,1]\) 闭区间证明、有明确语义解读（稳定密度 vs 整体密度越接近越稳定）的度量，这比很多工程化的启发式准则更扎实。
training-free 还能当即插即用前端：无需训练、无可学习参数，却能把别人训练好的深度聚类方法（PiCIE 等）再拉高一大截，说明"好的多粒度表示"本身就是稀缺资源，这个定位很聪明。

局限与展望¶

作者自承：依赖手工调的超参（\(\alpha,\beta,\varepsilon\)），语义准则是固定、非学习的；对强局部变化敏感；在高分辨率遥感图上开销不小。展望是把 SCMGB 做成可微、可在深度网络里学习的模块，让参数与梯度、纹理一起优化以提升语义保真度、鲁棒性与效率。
评测规模偏小：主表只用 7 张自然图 + 3 张遥感图做单图比较，虽然作者解释"很多 CSM 本就按单图测、全数据集不可行"，但 7 张图上动辄 8 点、31 点的领先，统计意义和泛化性需保留态度；COCO-Stuff 的增强实验则更有说服力。
超参敏感性留给了补充材料：\(\beta=0.8\)、\(\varepsilon=0.75\)、\(\alpha\in(0.5,1)\) 的选取与敏感性分析没在正文展开，而这些阈值直接决定分裂/合并行为，复现时可能踩坑。
依赖上游特征质量：当输入是深度特征时，分割上限实际被特征提取器锁定；纯像素输入时又只能靠颜色/位置，复杂纹理场景下语义能力有限。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把粒球计算系统性迁到图像分割，IFS 不确定性 + SCMGB 语义准则两个补丁都对症，组合新颖。
实验充分度: ⭐⭐⭐ 增强实验与消融扎实、协同效应清晰，但主表只用 7+3 张图做单图比较，规模偏小、超参敏感性藏在补充材料。
写作质量: ⭐⭐⭐⭐ 动机—痛点—方法逻辑顺、两个定理给准则兜底，公式与算法完整，可读性好。
价值: ⭐⭐⭐⭐ training-free 且即插即用、跨方法普遍涨点、耗时最低，对无监督分割与粒球计算社区都有实际价值。