Rethinking Continual Learning with Progressive Neural Collapse¶
基本信息¶
- 会议: ICLR 2026
- arXiv: 2505.24254
- 代码: GitHub
- 领域: 持续学习 / 模型压缩
- 关键词: Continual Learning, Neural Collapse, ETF, Class-Incremental Learning, Knowledge Distillation
一句话总结¶
提出 ProNC 框架,通过渐进式扩展等角紧框架(ETF)目标替代固定预定义 ETF,在持续学习中实现最大类间分离与最小遗忘的平衡。
研究背景与动机¶
问题背景¶
持续学习(CL)旨在让模型在不断学习新任务的同时不遗忘旧知识,核心挑战是灾难性遗忘(Catastrophic Forgetting)。近年来,研究发现深度网络训练末期会出现 Neural Collapse (NC) 现象——所有类别的特征原型几何上收敛为一个 Simplex ETF(等角紧框架),实现类间最大等距分离。
现有方法的局限¶
已有工作(如 NCT)尝试在 CL 中预定义一个全局固定 ETF 作为训练目标,但存在三大问题:
不切实际:预定义 ETF 需要事先知道所有任务的总类别数,这在实际场景中不可能;
性能受限:当总类别数很大时,ETF 顶点间距变小,阻碍了早期阶段的类别判别能力(如图 1 所示,k 增大时精度下降);
违反 NC 规律:NC 本身是训练过程中自演化的现象,随机初始化 ETF 容易导致几何失配。
核心洞察¶
ETF 目标中的顶点数应始终等于当前已见类别数,才能保持最大类间分离。因此需要一种动态、渐进式的 ETF 扩展机制。
方法详解¶
整体框架¶
ProNC(Progressive Neural Collapse,渐进式神经坍缩)不再像 NCT 那样在训练开始前固定一个覆盖全部类别的 ETF,而是让 ETF 目标随已见类别数同步生长。整条流水线分四步:第一个任务用标准交叉熵训练后,从已学特征里反推出一个最贴合的初始 ETF 作为锚点;之后每当新任务到来,就先把这个 ETF 沿正交方向扩展到更高维、给新类添顶点;扩展后用对齐损失把样本特征拉向各自的 ETF 顶点、用蒸馏损失锁住旧类顶点不漂移,在当前任务数据与回放数据的混合上训练;推理时则直接按余弦相似度找最近的 ETF 顶点判类。这样每个阶段的 ETF 顶点数都恰好等于当前已见类别数,始终保持最大类间分离。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["任务 1 数据"] --> B["任务 1 训练<br/>标准交叉熵 L_ce"]
B --> C["从已学特征反推初始 ETF<br/>E* = 最贴合特征的 ETF(Theorem 1)"]
C --> D{"新任务 t≥2 到来"}
D -->|"新增 Kt−Kt-1 个类"| E["正交基扩展 ETF<br/>Gram-Schmidt 补正交向量"]
E --> F["对齐 + 蒸馏双损失训练 ft<br/>L_ce + λ1·L_align + λ2·L_distill<br/>(当前任务 + 回放数据)"]
F -->|"下一个任务"| D
F --> G["最近顶点分类<br/>argmax 余弦相似度"]
关键设计¶
1. 从已学特征反推初始 ETF:让起点贴合 NC 自演化规律
固定 ETF 的隐患在于随机初始化的目标几何与网络真正学到的特征朝向往往错位,而 NC 本是训练末期自发收敛出来的现象。ProNC 因此等第一个任务训练完,先算出各类特征均值 \(\tilde{M}_{K_1}\),再求最接近它的标准 ETF 作为目标:\(\mathbf{E}^* = \sqrt{\frac{K_1}{K_1-1}} \mathbf{W}\mathbf{V}^\top \left(\mathbf{I}_{K_1} - \frac{1}{K_1}\mathbf{1}_{K_1}\mathbf{1}_{K_1}^\top\right)\),其中 \(\mathbf{W}\mathbf{\Sigma}\mathbf{V}^\top\) 是中心化特征矩阵的 SVD 分解。Theorem 1 借助"最近正交矩阵由 SVD 给出"这一引理,保证这个 \(\mathbf{E}^*\) 是与实际特征对齐度最高的 ETF,从而避免几何失配,也让后续扩展有一个可靠的锚点。
2. 正交基扩展 ETF:新类增维、旧类顶点几乎不动
新任务 \(t\) 带来 \(K_t-K_{t-1}\) 个新类时,关键是既要给新类腾出判别空间,又不能扰动旧类已经收敛好的位置。论文的核心观察是:ETF 矩阵 \(\mathbf{E}\) 完全由其正交基 \(\mathbf{U}\) 决定,只要扩展时保持原正交基不变,旧 ETF 的顶点位移就能被压住。于是 ProNC 把上一阶段的正交基 \(\mathbf{U}_{t-1}\in\mathbb{R}^{d\times K_{t-1}}\) 用 Gram-Schmidt 正交化补出新向量,扩成 \(\mathbf{U}_t\in\mathbb{R}^{d\times K_t}\),新增方向与所有已有基正交;再把 \(\mathbf{U}_t\) 和 \(K_t\) 代回设计 1 的 ETF 构造公式,得到 \(K_t\) 个顶点的新目标 \(\mathbf{E}_t\)。因为原正交基整段保留,旧类对应顶点的漂移被压到最小,新类则在与旧类正交的子空间里展开,天然保持等距分离。
3. 对齐 + 蒸馏双损失:一边拉新类入位、一边稳住旧类
ETF 目标只是"靶子",还得有损失把特征训到靶上。从任务 \(t\ge 2\) 起,训练目标是三项加权和 \(\mathcal{L} = \mathcal{L}_{\text{ce}} + \lambda_1\mathcal{L}_{\text{align}} + \lambda_2\mathcal{L}_{\text{distill}}\)。对齐损失把每个样本归一化特征 \(\boldsymbol{\mu}_{k,i}^t\) 推向它所属类的 ETF 顶点 \(\mathbf{e}_{k,t}\),写作 \(\mathcal{L}_{\text{align}}=\frac{1}{2}(\mathbf{e}_{k,t}^\top\boldsymbol{\mu}_{k,i}^t-1)^2\),本质是要求二者余弦相似度趋近 1,既压缩类内方差又强制各类等距分离;消融显示它是最关键的一项,去掉后精度直接退回 STAR 水平。蒸馏损失则约束同一样本在扩展前后的特征 \(\boldsymbol{\mu}_{k,i}^{(t-1)}\) 与 \(\boldsymbol{\mu}_{k,i}^{(t)}\) 保持一致,\(\mathcal{L}_{\text{distill}}=\frac{1}{2}((\boldsymbol{\mu}_{k,i}^{(t-1)})^\top\boldsymbol{\mu}_{k,i}^{(t)}-1)^2\),专门补偿 ETF 扩展不可避免给旧类顶点带来的微小漂移,直接对应遗忘率的下降。训练在当前任务数据与回放缓冲(replay buffer)的混合上进行。
4. 最近顶点分类:推理与 ETF 几何一致
由于训练把特征整形到了 ETF 顶点上,推理就不再用普通线性分类头,而是按余弦相似度找最近的 ETF 顶点判类:\(\hat{y}=\arg\max_k\boldsymbol{\mu}_j^\top\mathbf{e}_k\)。这正好对应 NC 的第四条性质(预测退化为最近类心规则)。分类准则与特征整形目标完全对齐,也省去了一个需要持续学习、容易被新任务覆盖的线性层。
实验¶
主实验结果¶
| Buffer | 方法 | Seq-CIFAR-10 (Class-IL) | Seq-CIFAR-100 (Class-IL) | Seq-TinyImageNet (Class-IL) |
|---|---|---|---|---|
| 200 | ER | 44.79 | 21.78 | 8.49 |
| 200 | DER++ | 64.88 | 28.13 | 11.34 |
| 200 | STAR | 65.94 | 38.15 | 13.64 |
| 200 | NCT (固定 ETF) | 51.59 | 26.38 | 10.95 |
| 200 | ProNC (本文) | 72.70 | 44.32 | 20.11 |
| 500 | DER++ | 72.25 | 41.67 | 19.69 |
| 500 | STAR | 73.42 | 49.72 | 22.18 |
| 500 | ProNC (本文) | 79.42 | 52.49 | 28.27 |
消融实验¶
| 组件 | Seq-CIFAR-10 (FAA) | Seq-CIFAR-100 (FAA) | Seq-TinyImageNet (FAA) |
|---|---|---|---|
| 完整 ProNC | 72.70 | 44.32 | 20.11 |
| 无对齐损失 | 65.94 | 38.15 | 13.64 |
| 无蒸馏损失 | 69.82 | 41.76 | 17.53 |
| 固定全局 ETF (NCT) | 51.59 | 26.38 | 10.95 |
关键发现¶
- ProNC 在所有数据集上均大幅超过基线,特别是在 TinyImageNet 上将 Class-IL 精度提升了 6+ 个百分点;
- 对齐损失是最关键组件,去除后退化至 STAR 水平;
- 渐进 ETF 远优于固定 ETF,NCT 的固定全局 ETF 在大类别数下性能严重受限;
- 遗忘率显著降低,ProNC 的平均遗忘率远低于 DER++ 和 STAR。
亮点¶
- 完全无需预定义全局 ETF,从第一个任务中自适应提取初始 ETF 并渐进扩展
- 理论保证(Theorem 1)确保初始 ETF 最优对齐
- ETF 扩展策略基于正交基保持,最小化旧类顶点漂移
- 框架简洁灵活,可作为任何回放式 CL 方法的插件式特征正则化
局限性¶
- 特征维度 \(d\) 必须满足 \(d \geq K-1\),当总类别数接近特征维度时 ETF 扩展受限
- 仍依赖数据回放(replay buffer),纯无回放场景下效果未验证
- ETF 构造中的 SVD 计算在类别数极大时可能产生额外开销
- 仅在 ResNet-18 上验证,未涉及更大规模模型或实际部署场景
相关工作¶
- Neural Collapse: Papyan et al. (2020) 发现训练末期特征收敛为 Simplex ETF
- 基于 ETF 的 CL: NCT (Yang et al., 2023b) 预定义固定全局 ETF;MNC3L (Dang et al., 2025) 结合对比学习
- 回放式 CL: DER/DER++ (Buzzega et al., 2020), STAR (Eskandar et al., 2025)
- 知识蒸馏式 CL: iCaRL (Rebuffi et al., 2017), LODE (Liang & Li, 2023)
评分¶
- 新颖性:⭐⭐⭐⭐ — 渐进 ETF 扩展思路新颖且有理论支撑
- 技术深度:⭐⭐⭐⭐ — 从理论到实现完整,Theorem 1 提供了严格数学保证
- 实验充分度:⭐⭐⭐⭐ — 覆盖3个数据集、2种CL场景,消融全面
- 实用价值:⭐⭐⭐⭐ — 即插即用的特征正则化,兼容多种CL框架