Exemplar-Free Class Incremental Learning via Preserving Class-Discriminative Structure¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/lambor9973/cds
领域: 持续学习 / 类增量学习
关键词: 无样例类增量学习, 灾难性遗忘, 类判别结构, 原型校正, 预训练ViT

一句话总结¶

本文指出无样例类增量学习（EFCIL）中灾难性遗忘的本质是"类判别结构"塌缩，提出用 APR 校正旧类原型的均值+协方差（保类内结构）、用 SCC 约束新样本对旧原型的角度关系（保类间结构），在 6 个 benchmark 上超过 SSIAT/SLCA 等方法，细粒度数据集上提升尤为明显。

研究背景与动机¶

领域现状：EFCIL 要求模型按任务序列依次学新类、且不能保存任何旧任务样本（隐私/内存约束），测试时还要在所有见过的类上联合分类。当前主流做法是基于预训练 ViT 做参数高效微调（PET）——prompt（L2P、DualPrompt）、adapter（EASE、ACMap）、LoRA（infLoRA），或像 SLCA 那样用分层学习率控制更新幅度，核心都是"冻骨干、动少量参数"来缓解遗忘。

现有痛点：这些方法都盯着"参数怎么更新"，却忽视了一个更根本的遗忘来源——微调时特征空间本身在漂移。骨干从 \(f_\theta^{(t-1)}\) 演化到 \(f_\theta^{(t)}\)，旧类的特征表示会随之迁移，导致当初存下来的旧类原型在新特征空间里"对不上号"。

核心矛盾：作者把这个漂移拆成两个相互依赖的结构同时塌缩：① 类内结构（intra-class）——单个类的"形状"，由原型中心 \(\mu_k\) 和协方差 \(\Sigma_k\) 共同刻画，反映类的紧致度与完整性；② 类间结构（inter-class）——所有旧类原型之间的全局几何关系，决定类与类的相对位置和可分性。论文用 Cars-196 上的 t-SNE 和原型分布 KL 散度热图证明：微调后对角元（类内）显著增大、非对角元（类间）混乱波动，两个结构同时退化才是灾难性遗忘的真正成因。

本文目标：在旧特征空间向新特征空间迁移的过程中，同时维持类内形状和类间几何，而且全程不碰任何旧样本。

核心 idea：用"保结构"代替"保参数"——既然旧类没法直接观测，就借新类的位移模式去推断并校正旧原型分布（保类内），再用角度不变性间接锁住旧原型之间的几何关系（保类间）。

方法详解¶

整体框架¶

模型是"预训练 ViT 骨干 + 动态分类器"：骨干用 ViT-B/16-IN21K，只在自注意力的 Query/Value 投影里插 LoRA（\(h = xW + \beta(xA)B\)，秩 \(r=64\)）做参数高效微调，骨干权重 \(W\) 冻结；分类器随任务到来不断扩展输出维度 \(W^{(t)} = [W^{(t-1)}, W^{(t)}_{\text{new}}]\)。这套骨干+分类器只是脚手架，真正的贡献在于：每学完一个新任务，先用 APR 把所有旧类原型（中心+协方差）迁移校正到新特征空间，再用 SCC 在训练时约束新样本相对旧原型的角度关系不变，最后从校正后的原型分布重采样合成特征来重训分类器、平衡新旧类。

整个流程是一个清晰的串行 pipeline：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["新任务数据 D_t"] --> B["LoRA 微调 ViT 骨干<br/>冻结 W，只动 A·B"]
    B -->|训练时同步施加| C["SCC：稳定新样本对<br/>旧原型的角度关系"]
    B --> D["APR：用新类位移<br/>校正旧原型 μ、Σ"]
    C --> D
    D --> E["从校正后原型分布<br/>重采样合成特征"]
    E --> F["重训动态分类器<br/>L_CE + λ·L_SCC"]
    F --> G["在 C_1:t 全类上联合分类"]

关键设计¶

1. APR 自适应原型校正：用新类位移推断旧类的整体分布迁移

痛点很直接：旧任务没有样本，没法直接知道旧类原型在新特征空间里漂到哪去了。APR 的关键观察是——所有类的位移都源自同一次模型更新（\(f_\theta^{(t-1)}\!\to\!f_\theta^{(t)}\)），因此语义相近的类位移模式相似，而新类是有样本的、其位移可观测，于是可以拿新类的位移去推断旧类的位移。具体地，每个新类 \(j\) 的可观测位移为 \(\delta_j = \mu_j^{(t)} - \mu_j^{(t-1)}\)，旧类 \(k\) 的位移用按余弦相似度加权的注意力聚合：

\[\Delta_k = \sum_{j=1}^{|C_t|} w_{k,j}\,\delta_j = \sum_{j=1}^{|C_t|} \frac{\exp(\gamma \cdot s_{k,j})}{\sum_{l}\exp(\gamma \cdot s_{k,l})}\,\delta_j\]

其中 \(s_{k,j}\) 是旧原型 \(\mu_k^{(t-1)}\) 与新原型 \(\mu_j^{(t-1)}\) 的余弦相似度，\(\gamma\) 是控制注意力锐度的温度。中心更新为 \(\mu_k^{(t)} = \mu_k^{(t-1)} + \Delta_k\)。

APR 比 SSIAT/SDC 更进一步的地方在于：它不只校正中心，还推断协方差，从而保住类的完整"形状"。作者把特征扰动建模为 \(\delta = \alpha\Delta_k\)（\(\alpha\) 是期望为 1 的随机标量），推得扰动协方差 \(\mathrm{Cov}(\delta) = \mathrm{Var}(\alpha)\Delta_k\Delta_k^{\top}\)，在与原特征独立的假设下，校正后的协方差为：

\[\Sigma_k^{(t)} = \Sigma_k^{(t-1)} + \rho\,\Delta_k\Delta_k^{\top} + \epsilon I\]

\(\rho = \mathrm{Var}(\alpha)\) 控制扰动引入的协方差幅度，\(\epsilon I\) 保数值稳定。这样校正后的分布 \(P_k^{(t)} = (\mu_k^{(t)}, \Sigma_k^{(t)})\) 就同时还原了旧类在新空间里的位置和形状——这就是"保类内结构"的具体含义。

2. SCC 结构一致性约束：用角度不变间接锁住类间几何

APR 管单个类的形状，但类与类之间的相对位置（类间结构）还会乱。理想做法是直接约束旧类中心间距 \(\|\mu_i^{(t)} - \mu_j^{(t)}\|\)，但旧样本不可见、没法直接测。SCC 借了一条几何原理：如果一组参考点到一组空间锚点的角度关系保持稳定，那么锚点之间的内部几何也被保住了。于是把旧类原型 \(\{\mu_k^{(t-1)}\}\) 当作锚点、新任务样本当作参考点，只要锁住"新样本→各旧原型"的角度向量在新旧模型下不变，就间接维持了旧原型之间的几何。

对每个新样本 \(x_i\)，定义其相对全部旧原型的角度向量 \(r_i = [s_{i,1}, \dots, s_{i,K}]^{\top}\)（\(s_{i,k}\) 是 \(f_\theta(x_i)\) 与第 \(k\) 个旧原型的余弦相似度），SCC 损失要求新旧模型下的该向量一致：

\[\mathcal{L}_{\text{SCC}} = \frac{1}{B}\sum_{i=1}^{B}\big\|r_i^{(t)} - r_i^{(t-1)}\big\|_2^2\]

它是个轻量正则项，只在 \(t>1\) 时加入，不需要任何旧数据，就把"微调别把旧类的相对站位搅乱"这件事变成可优化目标。

3. 原型重采样 + 余弦分类器：从校正分布合成特征平衡新旧类

光有校正后的原型分布还不够，分类器若只见新类样本会严重偏向新类。本文从每个类（含 APR 校正后的旧类）的高斯分布里采样合成特征 \(\tilde{z}_k \sim \mathcal{N}(\mu_k^{(t)}, \Sigma_k^{(t)})\) 来重训分类器，让新旧类在分类学习中"出场均衡"。分类器用余弦形式（\(y_c = \tau \cdot \frac{f(x_i)\cdot w_c}{\|f(x_i)\|\,\|w_c\|}\)）配标准交叉熵 \(\mathcal{L}_{\text{CE}}\)。这一步把 APR 校正的成果真正用到了决策边界上——没有它，保住的原型分布就只是"存着好看"，不会转化为分类增益。

损失函数 / 训练策略¶

总目标联合优化分类正确性与结构稳定性：

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{CE}} + \lambda\,\mathcal{L}_{\text{SCC}}\]

\(\lambda\) 平衡"保结构"与"分对类"的 trade-off。训练流程（Algorithm 1）：每个任务先扩分类器、算新类中心 → 训练 batch 上施加 \(\mathcal{L}_{\text{CE}} + \lambda\mathcal{L}_{\text{SCC}}\)（\(t>1\) 才加 SCC）→ 任务结束后更新新类原型 \(P_j^{(t)}\)、对所有旧类执行 APR、再从全部原型重采样重训分类器。优化用 SGD（lr 0.01，余弦退火，初值 0.0005），batch size 48，LoRA 秩 64。

实验关键数据¶

主实验¶

ViT-B/16-IN21K 骨干，Last-Acc（末任务后全类平均精度）/ Inc-Acc（各阶段平均精度），3 个随机种子。

数据集 / 设置	指标	本文	之前最好	提升
ImageNet-A (5 task)	Last-Acc	66.65±0.20	64.21 (SSIAT)	+2.44
ImageNet-A (20 task)	Last-Acc	62.30±0.79	60.30 (SSIAT)	+2.00
Cars-196 (5/10/20 task)	Last-Acc	83.52 / 80.23 / 66.14	基线	+7.79~11.24
ObjectNet (10 task)	Last-Acc	63.39±0.71	59.50 (SLCA)	+3.89
OmniBenchmark (10 task)	Last-Acc	79.19±0.16	77.15 (SSIAT)	+2.04
ImageNet-R (10 task)	Inc-Acc	83.84±0.56	之前最好	最优

细粒度的 Cars-196 提升最大（7.79%–11.24%），说明"保形状"对高度相似的类尤其关键；ImageNet-R 上 Last-Acc 与 SSIAT 持平（79.17 vs 79.28）但 Inc-Acc 取得最优。

消融实验¶

SCC、APR 双组件消融（Last-Acc）：

配置	ImageNet-A	Cars-196	说明
Baseline	60.08	67.90	仅 LoRA + 余弦分类器
+ SCC	63.60 (+3.52)	74.86 (+6.96)	保类间结构
+ APR	61.97 (+1.89)	77.02 (+9.12)	保类内结构
+ 两者 (Full)	64.58	80.23	完整模型

关键发现¶

两组件作用与数据集性质强相关：ImageNet-A（类间差异大）上 SCC 增益（+3.52）大于 APR（+1.89），说明类间可分性是主导；Cars-196（细粒度、类间高度相似）上 APR 增益（+9.12）远大于 SCC（+6.96），说明保住每个类的形状更要命。两者方向互补、缺一不可。
协同效应明显：Cars-196 上 Full 相对 baseline 共 +12.33%，超过两组件单独增益之和，证明类内、类间结构是耦合的、需要联合维持。
APR 对比 SDC 等"只校正中心"的替代策略更优，关键在于它额外推断了协方差、还原了完整分布形状。

亮点与洞察¶

把"灾难性遗忘"重新归因为几何结构塌缩：不再笼统说"知识遗忘"，而是用 t-SNE + 原型 KL 热图把遗忘量化拆解成类内退化（对角增大）+ 类间紊乱（非对角波动）两个可观测信号，问题诊断很扎实。
"借新推旧"很巧：旧类不可见这一硬约束，被"同一次模型更新导致语义相近类位移相似"这条假设绕开，用可观测的新类位移按相似度加权推断旧类位移——这个思路可迁移到任何"旧分布不可见但更新同源"的增量场景。
角度不变性当几何代理：用"参考点到锚点的角度稳定 ⇒ 锚点内部几何不变"来间接约束不可见的旧原型间距，是个轻量又无需旧数据的好替代。
协方差也被显式建模：多数原型迁移方法只搬中心，本文从扰动模型推出 \(\rho\Delta_k\Delta_k^{\top}\) 的协方差校正项，让"类的形状"真正被保住。

局限与展望¶

APR 的核心假设有适用边界："语义相近类位移相似"在类间差异极大或新旧类语义割裂时可能失效，此时用新类位移推旧类会有偏差——这也部分解释了为何 ImageNet-A 上 APR 单独增益较小。
依赖强预训练骨干：全程基于 ViT-B/16-IN21K，方法对从零训练或弱预训练骨干的有效性未验证；特征空间漂移若过于剧烈，原型校正能否跟上存疑。
协方差建模的强假设：扰动 \(\delta = \alpha\Delta_k\)（标量缩放）、\(z^{(t-1)}\) 与 \(\delta\) 独立等假设较强，真实特征形变未必是各向同性的单方向缩放（⚠️ 推导细节以原文为准）。
改进方向：可探索自适应的 \(\gamma/\rho/\lambda\)（随任务难度或类间相似度动态调整），以及在角度约束之外引入更高阶的类间几何（如流形结构）。

评分¶

新颖性: ⭐⭐⭐⭐ 把遗忘归因为类内+类间结构塌缩并分别给出 APR/SCC 两个对症机制，视角清晰且可量化。
实验充分度: ⭐⭐⭐⭐ 6 个 benchmark、多任务划分、双组件消融 + 与 SDC 替代策略对比，数据集性质相关性分析有说服力。
写作质量: ⭐⭐⭐⭐ 动机—诊断—方法逻辑顺畅，t-SNE/KL 热图辅证到位；个别公式推导假设交代略简。
价值: ⭐⭐⭐⭐ 即插即用、无需旧数据，对预训练骨干下的 EFCIL 是实用且可复用的结构保持范式。