Consistent Supervised-Unsupervised Alignment for Generalized Category Discovery¶
会议: NeurIPS 2025
arXiv: 2507.04725
代码: 无
领域: LLM评测
关键词: Generalized Category Discovery, Neural Collapse, ETF Prototype, 聚类对齐, 伪标签一致性
一句话总结¶
提出 NC-GCD 框架,通过预分配固定的 Equiangular Tight Frame (ETF) 原型为已知类和新类建立统一优化目标,结合语义一致性匹配器 (SCM) 稳定跨迭代伪标签分配,在 6 个 GCD 基准上显著提升新类发现精度。
研究背景与动机¶
领域现状:广义类别发现 (GCD) 旨在同时对已知类别分类并发现新类别。现有方法如 SimGCD、CMS 采用动态学习聚类原型或分类器权重的方式来组织特征空间。
现有痛点:动态优化原型导致两个关键问题——(a) 已知类和新类的优化目标不一致,模型倾向偏向有标签的已知类而忽略新类的决策边界;(b) 特征分布缺乏几何约束,新类完全依赖无监督优化,容易与特征相似的类别重叠(类别混淆)。
核心矛盾:新类和已知类在优化目标上的不等性,使模型无法在统一几何结构下同等地分离所有类别。
本文目标 能否预分配一个最优几何结构,使已知类和新类在特征空间中被等间距分离,并通过统一对齐损失实现一致学习?
切入角度:Neural Collapse 理论表明训练良好的分类网络其类别特征均值收敛到 Simplex ETF 结构——最大化类间分离、最小化类内方差。作者将此理论从"训练后的涌现现象"转为"训练前的先验约束"。
核心 idea:预先固定 ETF 原型作为所有类别的锚点,通过有监督和无监督的统一对齐损失为 GCD 提供一致的优化方向。
方法详解¶
整体框架¶
NC-GCD 包含四个核心组件:(1) 预训练视觉编码器 \(f(\cdot)\)(DINO ViT-B/16),(2) 周期性聚类模块 \(g(\cdot)\),(3) 预分配 ETF 原型集 \(P\),(4) 语义一致性匹配器 \(\phi_{\text{SCM}}(\cdot)\)。输入图像经编码器提取 embedding,周期性聚类将所有样本分组,高置信样本被拉向对应 ETF 原型。
关键设计¶
-
预分配 ETF 原型:
- 功能:训练前生成固定的等角紧框架原型 \(\mathbf{P} = \{p_1, \dots, p_K\}\)
- 核心思路:ETF 通过 \(P = \sqrt{\frac{K}{K-1}} U (I_K - \frac{1}{K} \mathbf{1}_K \mathbf{1}_K^\top)\) 构造,满足 \(p_k^\top p_j = \frac{K}{K-1}\delta_{k,j} - \frac{1}{K-1}\),保证所有类别最大均匀分离
- 设计动机:固定 ETF 提供全局最优几何配置,消除已知/新类优化不一致
-
无监督 ETF 对齐:
- 功能:每 \(T\) 个 epoch 聚类,选每簇 top-\(\alpha\%\) 高置信样本对齐 ETF
- 核心思路:高置信样本通过 Dot-Regression Loss 向原型对齐:\(\mathcal{L}_{\text{ETF}}^u = \frac{1}{|\tilde{D}_k|} \sum_{e_i \in \tilde{D}_k} \|e_i - p_k\|^2\)
- 设计动机:只用高置信样本避免噪声伪标签干扰
-
有监督 ETF 对齐:
- 功能:将有标签样本特征对齐到 SCM 映射后的 ETF 原型
- 核心思路:\(\mathcal{L}_{\text{ETF}}^s = \frac{1}{|\mathcal{D}^l|} \sum \|e_i^l - p_a\|^2\),\(a = \phi_{\text{SCM}}(y_i^l)\)
- 设计动机:需 SCM 保证真实标签到 ETF 的映射正确性
-
语义一致性匹配器 (SCM):
- 功能:保证跨聚类迭代的伪标签一致性
- 核心思路:最优排列 \(\sigma^* = \arg\max_{\sigma \in S_K} \sum_{k} \sum_{i} \mathbb{I}(\hat{y}_i^t = k)\mathbb{I}(\hat{y}_i^{t-1} = \sigma(k))\),用匈牙利算法实现一对一标签映射
- 设计动机:周期性聚类不稳定,SCM 通过强制一对一匹配消除波动
损失函数 / 训练策略¶
统一 ETF 损失:\(\mathcal{L}_{\text{ETF}} = (1-\gamma)\mathcal{L}_{\text{ETF}}^u + \gamma\mathcal{L}_{\text{ETF}}^s\)
表征学习:\(\mathcal{L}_{\text{REP}} = (1-\lambda)\mathcal{L}_{\text{REP}}^u + \lambda\mathcal{L}_{\text{REP}}^s\)
最终:\(\mathcal{L} = \beta\mathcal{L}_{\text{ETF}} + \mathcal{L}_{\text{REP}}\)
实验关键数据¶
主实验(DINOv1, GT K 已知)¶
| 数据集 | NC-GCD (All/Old/New) | SPT (All/Old/New) | CMS (All/Old/New) |
|---|---|---|---|
| CUB-200 | 74.8/76.8/73.8 | 65.8/68.8/65.1 | 68.2/76.5/64.0 |
| Stanford Cars | 59.9/77.8/51.2 | 59.0/79.2/49.3 | 56.9/76.1/47.6 |
| FGVC Aircraft | 60.0/57.6/61.2 | 59.3/61.8/58.1 | 56.0/63.4/52.3 |
| ImageNet-100 | 88.4/94.1/85.5 | 85.4/93.2/81.4 | 84.7/95.6/79.2 |
| CIFAR-100 | 82.7/85.5/77.3 | 81.3/84.3/75.6 | 82.3/85.7/75.5 |
综合平均(GT K 已知)¶
| 方法 | 细粒度 All/New | 全部 All/New |
|---|---|---|
| SPT | 56.9/51.9 | 65.7/60.8 |
| CMS | 54.4/47.6 | 64.1/57.5 |
| NC-GCD | 60.3/56.7 | 68.7/64.9 |
关键发现¶
- 新类精度提升最显著:细粒度数据集新类准确率平均 +4.8%(vs SPT),固定 ETF 有效缓解新类欠分离
- 无 GT K 时仍鲁棒,ETF 框架对 K 估计误差有容忍度
- ImageNet-100 全类 88.4%,比次优 SPT 高 3.0%
亮点与洞察¶
- Neural Collapse 从现象到先验:将 NC 从训练后涌现转为训练前结构约束,可迁移到增量学习和联邦学习
- SCM 匈牙利匹配:用最优分配解决跨迭代伪标签漂移,简洁有效
局限与展望¶
- 需预估类别数 K,K 偏差影响 ETF 几何质量
- 仅 DINO ViT-B/16 验证,未探索 DINOv2 或更大模型
- 高置信阈值 \(\alpha\) 需手动调节
相关工作与启发¶
- vs SimGCD: SimGCD 动态学习原型导致已知/新类目标不一致;NC-GCD 固定 ETF 消除此问题
- vs TRAILER: TRAILER 也用固定分类器但交叉熵 ETF 损失可能引入偏差;NC-GCD 分离监督/无监督对齐
- vs CMS: CMS 聚焦对比均值漂移,NC-GCD 同时优化特征几何
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 Neural Collapse 引入 GCD 是新视角,但 ETF 在其他领域已有应用
- 实验充分度: ⭐⭐⭐⭐ 6 个基准、两种 K 设定、10+ 方法对比
- 写作质量: ⭐⭐⭐⭐ 动机推导清晰,公式符号统一
- 价值: ⭐⭐⭐⭐ 为 GCD 提供结构化几何先验,新类精度提升显著