Enhancing Noise Resilience in Face Clustering via Sparse Differential Transformer¶
会议: AAAI 2026
arXiv: 2512.22612
代码: 无
领域: 其他
关键词: 人脸聚类, Jaccard相似度, 稀疏差分Transformer, 噪声边, 自适应邻居发现
一句话总结¶
提出预测驱动的 Top-K Jaccard 相似度系数提升邻居纯度,配合稀疏差分 Transformer(SDT)消除噪声注意力,在 MS-Celeb-1M 等大规模人脸聚类数据集上达到 SOTA 性能。
研究背景与动机¶
领域现状:基于 GCN 的人脸聚类方法通过图消息传播学习特征,但构建人脸图时基于 kNN 的余弦距离产生大量噪声边(连接不同身份的节点),消息沿噪声边传播会污染特征。Ada-NETS 和 FC-ESER 引入 Jaccard 相似度系数替代余弦距离,但引入过多无关节点导致 Jaccard 系数区分度不足。
现有痛点: - FC-ESER 计算的不同人脸之间 Jaccard 系数非常接近——阈值稍低就混合不同身份,稍高就切碎同一身份 - Ada-NETS 对最优邻居数 \(k\) 的预测不准确,偏离最优值 - Vanilla Transformer 在关系预测中过度关注所有特征关系(包括无关和噪声特征),导致错误聚类
核心矛盾:如何精确确定每个节点的有效邻居范围,同时在 Top-K 边界附近可靠地判断节点关系?
本文目标 提升 Jaccard 相似度计算的可靠性 + 处理 Top-K 边界的不确定性 + 消除 Transformer 的噪声注意力。
切入角度:(1) 用 Transformer 预测每个节点的最优邻居数 Top-K,仅用 Top-K 内邻居计算 Jaccard (2) 用 SDT 处理 Top-K 边界不确定性。
核心 idea:预测驱动的 Top-K Jaccard 提纯邻居 + 稀疏差分注意力消除噪声关系判断。
方法详解¶
整体框架¶
构建人脸图 → Transformer 预测 Top-K 邻居边界 → 用 Top-K 精炼人脸图 → SDT 判断 Top-K 附近节点关系 → Map Equation 聚类。
关键设计¶
-
预测驱动 Top-K Jaccard 相似度:
- 功能:动态预测每个节点的最优邻居数,提升 Jaccard 计算质量
- 核心思路:用 Transformer 替换 Ada-NETS 的 LSTM 预测 Top-K,仅用 Top-K 之前的邻居计算 Jaccard
- 距离变换改进:\(p_{ij} = \frac{1}{1 + e^{\delta d_{ij} + \epsilon}}\)(sigmoid 形式,\(\delta=7.5, \epsilon=-5\)),放大小距离差异
- 设计动机:FC-ESER 的指数距离变换压缩了相似度差异导致不同身份的 Jaccard 系数过于接近
-
稀疏差分 Transformer(SDT):
- 功能:处理 Top-K 边界附近的不确定关系
- 核心思路:基于 Differential Transformer 的差分注意力消噪 + Top-K 稀疏 mask 屏蔽无关节点
- 差分注意力:计算两个独立 softmax 注意力图的差值来消除噪声注意力
- 稀疏 mask:只关注 Top-K 之前的相关节点,屏蔽 Top-K 之后的无关节点
- 还有 MoE-SDT 变体进一步增强能力
- 设计动机:Vanilla Transformer 对所有特征关系分配注意力,包括不相关或噪声特征,导致误判
损失函数 / 训练策略¶
二分类交叉熵损失。先训练 Transformer 预测 Top-K,再用 SDT 精化关系,最后 Map Equation 聚类。
实验关键数据¶
主实验(MS-Celeb-1M,5种规模)¶
| 方法 | 584K \(F_P\)/\(F_B\) | 5.21M \(F_P\)/\(F_B\) |
|---|---|---|
| K-Means | 79.21/81.23 | 66.47/69.42 |
| GCN(V+E) | 87.93/86.09 | 79.30/79.25 |
| Ada-NETS | ~89/~87 | ~81/~80 |
| Ours | SOTA | SOTA |
消融实验¶
- Top-K Jaccard vs 标准 Jaccard:Top-K 显著提升聚类精度
- SDT vs Vanilla Transformer:SDT 在所有规模上更好
- 距离变换改进(sigmoid vs exponential):sigmoid 更好地区分相似/不相似样本
- MoE-SDT 进一步提升但增加计算量
关键发现¶
- 预测 Top-K 的精度直接影响聚类质量——Top-K 太大引入噪声,太小丢失信息
- SDT 的稀疏 mask 利用了 Top-K 的先验信息,比通用去噪更有效
- 在最大规模(5.21M 图像)上优势更明显——噪声问题随规模增大而加剧
亮点与洞察¶
- "预测邻居数+精化关系"的两阶段设计很实用——分层处理不同粒度的问题
- 差分注意力+稀疏 mask 的组合巧妙利用了聚类任务的先验信息
- sigmoid 距离变换简单但有效,放大了区分度
局限与展望¶
- Top-K 预测本身的准确性仍然有限
- SDT 增加了模型复杂度
- 仅在人脸聚类上验证,通用图聚类有待测试
- MoE-SDT 的计算开销需要考虑
相关工作与启发¶
- vs Ada-NETS: Ada-NETS 的 \(k_{off}\) 预测不准确;本文用 Transformer 替换 LSTM 更可靠
- vs FC-ESER: FC-ESER 的 Jaccard 区分度不足;本文的 Top-K + sigmoid 距离变换显著改善
- vs Differential Transformer: DiffTransformer 在 NLP 中提出;本文将其扩展到图聚类并加入稀疏 mask
评分¶
- 新颖性: ⭐⭐⭐⭐ 预测驱动 Top-K + SDT 消噪组合新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 5种规模的大规模实验 + 充分消融
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,图示直观
- 价值: ⭐⭐⭐⭐ 大规模人脸聚类的实用方案
补充分析¶
- 本文提出的方法在其特定子领域代表了一种有意义的技术进步
- 核心创新点在于将领域特有的结构性先验知识编码到模型设计中,而非完全依赖数据驱动的端到端学习
- 与同期发表的其他顶会工作相比,本文在问题定义和方法设计的系统性上展现了较高水平的研究素养
- 在实际部署场景中,还需综合考虑计算效率、实时性要求、数据隐私保护以及系统可扩展性等工程因素
- 方法的核心思想具有一定的可迁移性——类似的设计范式可能在相关但不同的任务和数据模态上发挥作用