Enhancing Noise Resilience in Face Clustering via Sparse Differential Transformer¶

会议: AAAI 2026
arXiv: 2512.22612
代码: 无
领域: 其他
关键词: 人脸聚类, Jaccard相似度, 稀疏差分Transformer, 噪声边, 自适应邻居发现

一句话总结¶

提出预测驱动的 Top-K Jaccard 相似度系数提升邻居纯度，配合稀疏差分 Transformer（SDT）消除噪声注意力，在 MS-Celeb-1M 等大规模人脸聚类数据集上达到 SOTA 性能。

研究背景与动机¶

领域现状：基于 GCN 的人脸聚类方法通过图消息传播学习特征，但构建人脸图时基于 kNN 的余弦距离产生大量噪声边（连接不同身份的节点），消息沿噪声边传播会污染特征。Ada-NETS 和 FC-ESER 引入 Jaccard 相似度系数替代余弦距离，但引入过多无关节点导致 Jaccard 系数区分度不足。

现有痛点： - FC-ESER 计算的不同人脸之间 Jaccard 系数非常接近——阈值稍低就混合不同身份，稍高就切碎同一身份 - Ada-NETS 对最优邻居数 \(k\) 的预测不准确，偏离最优值 - Vanilla Transformer 在关系预测中过度关注所有特征关系（包括无关和噪声特征），导致错误聚类

核心矛盾：如何精确确定每个节点的有效邻居范围，同时在 Top-K 边界附近可靠地判断节点关系？

本文目标 提升 Jaccard 相似度计算的可靠性 + 处理 Top-K 边界的不确定性 + 消除 Transformer 的噪声注意力。

切入角度：(1) 用 Transformer 预测每个节点的最优邻居数 Top-K，仅用 Top-K 内邻居计算 Jaccard (2) 用 SDT 处理 Top-K 边界不确定性。

核心 idea：预测驱动的 Top-K Jaccard 提纯邻居 + 稀疏差分注意力消除噪声关系判断。

方法详解¶

整体框架¶

构建人脸图 → Transformer 预测 Top-K 邻居边界 → 用 Top-K 精炼人脸图 → SDT 判断 Top-K 附近节点关系 → Map Equation 聚类。

关键设计¶

预测驱动 Top-K Jaccard 相似度:
- 功能：动态预测每个节点的最优邻居数，提升 Jaccard 计算质量
- 核心思路：用 Transformer 替换 Ada-NETS 的 LSTM 预测 Top-K，仅用 Top-K 之前的邻居计算 Jaccard
- 距离变换改进：\(p_{ij} = \frac{1}{1 + e^{\delta d_{ij} + \epsilon}}\)（sigmoid 形式，\(\delta=7.5, \epsilon=-5\)），放大小距离差异
- 设计动机：FC-ESER 的指数距离变换压缩了相似度差异导致不同身份的 Jaccard 系数过于接近
稀疏差分 Transformer（SDT）:
- 功能：处理 Top-K 边界附近的不确定关系
- 核心思路：基于 Differential Transformer 的差分注意力消噪 + Top-K 稀疏 mask 屏蔽无关节点
- 差分注意力：计算两个独立 softmax 注意力图的差值来消除噪声注意力
- 稀疏 mask：只关注 Top-K 之前的相关节点，屏蔽 Top-K 之后的无关节点
- 还有 MoE-SDT 变体进一步增强能力
- 设计动机：Vanilla Transformer 对所有特征关系分配注意力，包括不相关或噪声特征，导致误判

损失函数 / 训练策略¶

二分类交叉熵损失。先训练 Transformer 预测 Top-K，再用 SDT 精化关系，最后 Map Equation 聚类。

实验关键数据¶

主实验（MS-Celeb-1M，5种规模）¶

方法	584K \(F_P\)/\(F_B\)	5.21M \(F_P\)/\(F_B\)
K-Means	79.21/81.23	66.47/69.42
GCN(V+E)	87.93/86.09	79.30/79.25
Ada-NETS	~89/~87	~81/~80
Ours	SOTA	SOTA

消融实验¶

Top-K Jaccard vs 标准 Jaccard：Top-K 显著提升聚类精度
SDT vs Vanilla Transformer：SDT 在所有规模上更好
距离变换改进（sigmoid vs exponential）：sigmoid 更好地区分相似/不相似样本
MoE-SDT 进一步提升但增加计算量

关键发现¶

预测 Top-K 的精度直接影响聚类质量——Top-K 太大引入噪声，太小丢失信息
SDT 的稀疏 mask 利用了 Top-K 的先验信息，比通用去噪更有效
在最大规模（5.21M 图像）上优势更明显——噪声问题随规模增大而加剧

亮点与洞察¶

"预测邻居数+精化关系"的两阶段设计很实用——分层处理不同粒度的问题
差分注意力+稀疏 mask 的组合巧妙利用了聚类任务的先验信息
sigmoid 距离变换简单但有效，放大了区分度

局限与展望¶

Top-K 预测本身的准确性仍然有限
SDT 增加了模型复杂度
仅在人脸聚类上验证，通用图聚类有待测试
MoE-SDT 的计算开销需要考虑

评分¶

新颖性: ⭐⭐⭐⭐ 预测驱动 Top-K + SDT 消噪组合新颖
实验充分度: ⭐⭐⭐⭐⭐ 5种规模的大规模实验 + 充分消融
写作质量: ⭐⭐⭐⭐ 问题分析清晰，图示直观
价值: ⭐⭐⭐⭐ 大规模人脸聚类的实用方案

补充分析¶

本文提出的方法在其特定子领域代表了一种有意义的技术进步
核心创新点在于将领域特有的结构性先验知识编码到模型设计中，而非完全依赖数据驱动的端到端学习
与同期发表的其他顶会工作相比，本文在问题定义和方法设计的系统性上展现了较高水平的研究素养
在实际部署场景中，还需综合考虑计算效率、实时性要求、数据隐私保护以及系统可扩展性等工程因素
方法的核心思想具有一定的可迁移性——类似的设计范式可能在相关但不同的任务和数据模态上发挥作用