Neural Collapse in Test-Time Adaptation¶
会议: CVPR 2026
arXiv: 2512.10421
代码: https://github.com/Cevaaa/NCTTA
领域:其他
关键词: 神经坍缩, 测试时自适应, 分布外鲁棒性, 特征-分类器对齐, 混合目标
一句话总结¶
将神经坍缩 (Neural Collapse) 理论从类级别扩展到样本级别,发现了NC3+现象(样本特征嵌入与对应分类器权重对齐),基于此揭示了分布偏移下性能退化的根本原因是样本级特征-分类器错位,并提出NCTTA方法通过几何邻近度与预测置信度的混合目标引导特征重新对齐,在ImageNet-C上比Tent提升14.52%。
研究背景与动机¶
-
领域现状:测试时自适应 (TTA) 已成为应对分布偏移的实用方案,主要方法包括:基于原型的方法(SHOT、T3A)、一致性正则化方法(MEMO、CoTTA)、归一化层方法(NOTE、SAR)和熵最小化方法(Tent、EATA、DeYO)。
-
现有痛点:虽然这些方法通过算法优化在推理时取得了不错效果,但普遍缺乏对分布偏移下模型退化根本原因的理论理解,更多是"知其然不知其所以然"。
-
核心矛盾:Neural Collapse (NC) 理论揭示了训练后DNN的优雅几何结构(类均值↔分类器权重对齐),但其分析依赖类标签和全训练集来计算类均值——这在TTA场景中不可行(只有无标签的小batch测试数据)。
-
本文目标
- 将NC理论扩展到样本级别,使其适用于TTA场景
- 从NC视角解释分布偏移下的性能退化原因
- 提出理论驱动的TTA方法
-
切入角度:既然NC3说"类均值与分类器权重对齐",那么在TPT后期,类内方差趋近零(NC1),意味着每个样本的特征也该与对应分类器权重对齐——这就是NC3+。
-
核心 idea:性能退化 = 样本特征偏离了正确的分类器权重,因此TTA的核心任务是重新对齐,但伪标签不可靠,需用几何邻近度+预测置信度的混合目标替代。
方法详解¶
整体框架¶
这篇论文先用神经坍缩理论解释"分布偏移下模型为什么会退化",再据此设计 TTA 方法。整条逻辑围绕一个量展开——样本特征与分类器权重之间的对齐程度。先把 NC 理论从依赖整批标注的类级别下放到单样本级别(NC3+),得到一把能在无标签测试 batch 上直接测量的"对齐尺子";用这把尺子量 OOD 数据,发现错分的本质是特征漂离了正确的分类器权重;最后让模型在测试时主动把特征拉回去。具体到一个测试 mini-batch:先算每个样本特征到所有分类器权重的 FCA 距离,再把这个几何距离与预测置信度融成一个混合目标,按它挑出最可能正确的 top-k 类当正样本、其余当负样本,用对齐损失拉近正样本、推远负样本。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
B["NC3+:样本级对齐尺子<br/>FCA 距离 = 特征与分类器权重归一化距离"] --> C["诊断退化:OOD 下特征漂离正确权重<br/>FCA 距离增大、漂向错误权重 → 错分"]
C --> D["测试 mini-batch<br/>无标签、在线更新"]
subgraph NCTTA["NCTTA:混合目标重对齐"]
direction TB
D --> E1["几何邻近度<br/>FCA 距离归一化"]
D --> E2["预测置信度<br/>softmax 概率"]
E1 --> F["混合目标<br/>(1−α)·几何邻近 + α·置信度"]
E2 --> F
F --> G["排序取 top-k → 正样本集、其余为负<br/>对齐损失 L_NC 拉近正、推远负"]
end
G --> I["熵过滤 + 动态权重 λ<br/>总损失 L_total → 在线更新模型"]
关键设计¶
1. NC3+:把"对齐"从类级别下放到样本级别
经典 NC3 说的是"类均值与分类器权重对齐",但要算类均值得有标签、得遍历整个训练集,TTA 里只有无标签的小 batch,这条根本用不上。本文的突破口是:当训练后期类内方差趋近零(NC1)时,每个样本的特征几乎等于其类均值,于是"类均值对齐权重"可以收紧成"单个样本特征也对齐对应权重"——这就是 NC3+。落到可计算的量上,定义 FCA 距离 \(d_{ij} = \|\frac{\mathbf{h}_i}{\|\mathbf{h}_i\|_2} - \frac{w_j}{\|w_j\|_2}\|_2\),即样本特征 \(\mathbf{h}_i\) 与第 \(j\) 类分类器权重 \(w_j\) 归一化后的欧氏距离。论文进一步证明在交叉熵损失下,ground-truth 的 FCA 距离 \(d_{iy_i}\) 随训练单调递减趋于零,并在 ImageNet-100 上用多种 backbone 验证了 G-FCA 距离全程下降。关键在于这个量只需要单样本特征和分类器权重,不碰类均值、不碰标签,于是天然适配 TTA 的约束。
2. 用 FCA 距离把"退化"解释成"特征漂移"
有了样本级的对齐尺子,就能定量回答"OOD 数据为什么被错分"。对受损数据按对错分组观察会发现一个清晰的此消彼长:分对的样本,其 ground-truth FCA 距离 \(d_{iy_i}^{\text{correct}}\) 仍然较小,特征还守在正确权重附近;分错的样本,\(d_{iy_i}^{\text{wrong}}\) 显著增大(特征已偏离正确权重),同时它到预测类权重的 P-FCA 距离 \(d_{i\hat{y}_i}^{\text{wrong}}\) 反而变小(特征漂到了错误权重旁边)。corruption 越严重,这两类距离的 gap 拉得越开。这把退化的根因从模糊的"算法不够好"钉到了具体的"样本级特征-分类器错位",也就直接指明了 TTA 该做的事——把漂走的特征重新拉回对齐。
3. NCTTA:用混合目标替不可靠的伪标签指方向
既然要拉回对齐,最直接的想法是用伪标签 \(\hat{y}_i\) 指定对齐目标,但特征本已漂移、伪标签恰恰在严重偏移下最不可靠,照着错的目标拉只会越拉越偏。NCTTA 的做法是不全信伪标签,而是把几何信息掺进来构造混合目标 \(\widetilde{\mathbf{y}}_i = (1-\alpha)\hat{d}_i + \alpha p_i\),其中 \(\hat{d}_i\) 是 FCA 距离经 softmax 归一化得到的几何邻近度,\(p_i\) 是预测概率代表的置信度,\(\alpha\) 调两者比重。按 \(\widetilde{\mathbf{y}}_i\) 排序取 top-k 类组成正样本集 \(\mathcal{T}_i\)、其余为负样本,再用 NC 引导的对齐损失 \(\mathcal{L}_{\text{NC}}\) 拉近正样本、推远负样本;同时给每个样本配一个动态权重 \(\lambda_i\),综合熵指标和 P-FCA 距离决定它在总损失里的话语权。这样设计是因为两个极端都不稳:纯伪标签(\(\alpha=1,k=1\))在重度偏移下错误率高,纯几何邻近度又会被异常特征带偏,混合后两者互补;而用 top-k 而非 top-1,等于在"哪个类才对"上留了容错空间,进一步抵抗伪标签噪声。
损失函数 / 训练策略¶
最终损失为 \(\mathcal{L}_{\text{total}}(x_i) = \lambda_i \cdot \mathbb{I}_{x_i \in S_{\text{ENT}}} \cdot (\mathcal{L}_{\text{ENT}}(x_i) + \mathcal{L}_{\text{NC}}(x_i))\):\(S_{\text{ENT}}\) 是熵过滤后保留的样本集(剔掉高熵的不可信预测),\(\mathcal{L}_{\text{ENT}}\) 是标准熵最小化损失,对齐项 \(\mathcal{L}_{\text{NC}}\) 可实例化为 InfoNCE、L2 或 Triplet 三种形式(实验中 InfoNCE 最优)。
实验关键数据¶
主实验¶
| 方法 | CIFAR-10-C Avg (ResNet50) | ImageNet-C Avg (ViT-B/16) |
|---|---|---|
| no_adapt | 57.39 | 38.88 |
| Tent | 75.19 | 51.87 |
| EATA | 74.04 | 63.91 |
| SAR | 74.67 | 53.97 |
| NOTE | 71.03 | 39.15 |
| MEMO | 68.85 | 45.38 |
| DeYO | 76.65 | 63.49 |
| NCTTA | 78.16 | 66.46 |
NCTTA在ImageNet-C上比Tent提升14.59%,比DeYO提升2.97%。
消融实验¶
| \(\mathcal{L}_{\text{NC}}\) 形式 | ImageNet-C Contrast (Sev-5) |
|---|---|
| InfoNCE-style | 最优 |
| L2-style | 略低 |
| Triplet-style | 最低 |
| \(\alpha\) | \(k=1\) | \(k=3\) | \(k=5\) | 说明 |
|---|---|---|---|---|
| 0.0 (纯几何) | 较低 | 中等 | 中等 | 纯FCA距离不够 |
| 0.5 (混合) | 中等 | 最优 | 中等 | 平衡几何和置信度 |
| 1.0 (纯置信度) | 最低 | 低 | 低 | 纯伪标签不可靠 |
关键发现¶
- NCTTA在几乎所有corruption类型上都是最好或次好的,展示了很强的泛化性。
- InfoNCE-style损失最有效,可能因为其对比学习的梯度更有信息量。
- \(\alpha=0.5, k=3\) 是最佳配置,说明几何和置信度的平衡以及适度的top-k范围最重要。
- 在Waterbirds数据集上最差组准确率从70.87%(no_adapt)/75.65%(DeYO)提升至76.56%,说明对子群偏移也有效。
- PACS跨域实验中也取得了最好的平均结果。
亮点与洞察¶
- NC理论与TTA的桥接非常自然:NC3+是NC3在满足NC1(类内方差→0)情况下的自然推论,但之前无人明确指出并加以利用。这个样本级视角完美适配了TTA只有无标签小batch的场景限制。
- 混合目标设计精巧:用几何邻近度"校正"不可靠的伪标签是很好的思路。在严重偏移下伪标签错误率高,但几何上的近邻关系仍保持一定可靠性,两者互补。
- 理论→方法→实验的完整链条:从NC3+理论发现→性能退化解释→方法设计→实验验证,逻辑链非常清晰完整,是理论驱动方法设计的好范例。
局限与展望¶
- NC3+的理论证明假设交叉熵损失和标准的TPT条件,对其他损失函数(如对比学习预训练的模型)的适用性未讨论。
- 目前NCTTA需要遍历所有K个类的分类器权重计算FCA距离,对类别数很大的任务(如ImageNet-21K)可能有计算开销。
- 连续域适应(continual TTA)场景下模型参数不断更新,分类器权重也在变化,NC3+的假设是否仍成立需要进一步分析。
- 未考虑标签空间偏移(open-set TTA)的情况。
相关工作与启发¶
- vs Tent:Tent仅做熵最小化,没有利用特征-分类器的几何结构。NCTTA在ImageNet-C上超越Tent 14.59%,说明几何引导的对齐比纯熵最小化更有效。
- vs DeYO:DeYO通过更精细的样本筛选提升性能,但仍缺乏对齐机制。NCTTA进一步提升2.97%。
- vs EATA:EATA也做熵过滤,但缺少NC引导的对齐。在CIFAR-10-C上NCTTA超越EATA 4.12%。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ NC3+是新发现,理论到方法的桥接非常优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集多backbone验证,消融详尽
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,可视化直观
- 价值: ⭐⭐⭐⭐ 为TTA领域提供了新的理论视角和实用方法