Few-Shot Hybrid Incremental Learning: Continually Learning under Data Scarcity and Task Uncertainty¶

会议: CVPR 2026
论文: CVF Open Access
代码: 未公开
领域: 小样本增量学习 / 持续学习
关键词: 小样本增量学习, 稳定性-可塑性, 混合专家, 元学习扩展, 自扩展原型

一句话总结¶

本文提出"小样本混合增量学习（FSHIL）"这一更贴近现实的新范式——数据稀缺且任务类型（新类/新域/二者皆有）随机出现，并用「条件元扩展混合专家（CME-MoE）」在特征层调和稳定与可塑、用「自扩展原型分类器（SEPC）」在分类层建模多分布边界，在 5 个数据集、3 种增量设定上全面超过现有 FSIL 与 HIL 方法。

研究背景与动机¶

领域现状：小样本增量学习（FSIL）让模型只用每类 K-shot（1/5/10 个）样本就持续学新知识，主流分两支——FSCIL（静态域里学新类）和 FSDIL（固定类适配新域），两者都预设了增量维度（只增类，或只增域）。另一边，混合增量学习（HIL，代表作 ICON）允许增量类型不确定，但假设数据充足。

现有痛点：真实世界的智能体面对的是非平稳数据流——下一步到底是来新类、新域、还是二者都来，是随机的；同时新任务往往只有极少标注样本。现有方法各顾一头：FSIL 为了防小样本过拟合而冻结特征提取器，牺牲了跨域可塑性；HIL 为了应对任务不确定而无约束地扩张架构，在小样本下新模块严重过拟合。

核心矛盾：把 FSIL 的"稳定"和 HIL 的"可塑"简单叠加并不可行——FSIL 要冻结表征以抗过拟合，HIL 要自由扩张模块以获得跨域可塑，二者机制直接冲突，构成 FSHIL 特有的稳定性-可塑性悖论（stability-plasticity paradox）。

本文目标：拆成两个子问题——(1) 在特征层，如何有条件地决定"复用旧能力（稳定）"还是"扩张新能力（可塑）"，且扩张时不过拟合；(2) 在分类层，当同一类在不同域里呈现多个分布簇时，如何突破"一类一原型"的静态假设。

切入角度：作者观察到稳定与可塑不必全局二选一，而应按数据分布是否漂移来逐任务、逐层条件触发；并且新专家若从一个"元学习好的通用模板"初始化，就能在少样本下快速适配而不过拟合。

核心 idea：用"分布检测驱动的条件专家复用/元扩展"替代 FSIL 的全冻结与 HIL 的无脑扩张来调和稳定-可塑，并让分类器按需自扩展原型以建模多域分布。

方法详解¶

整体框架¶

方法以冻结的 ViT-B/16 为骨干，把可学习能力都放在两个即插即用模块上：在选定 Transformer 层的 MLP 旁路接 CME-MoE，在分类头处用 SEPC。整条流程是：每来一个增量任务，CME-MoE 先用分布检测模块量化"新数据与已有专家知识的分布偏移"——偏移小就复用相关专家（稳定），偏移大就触发元扩展实例化新专家（可塑）；专家输出汇入特征后，SEPC 监控每类的历史精度，发现某类性能退化（说明出现了未被表示的新域模式）就按需新增一个原型，从而用多原型刻画同一类的多分布边界。最终推理时仍只输出 \(C\) 个类 logit，每个 logit 取该类所有原型相似度的最大值。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入特征 x_l<br/>(冻结 ViT 骨干)"] --> B["条件专家分配<br/>分布检测算 DE，比阈值"]
    B -->|"DE 小：分布对齐"| C["复用专家<br/>门控加权聚合"]
    B -->|"DE 大：分布漂移"| D["Meta-Expand 专家<br/>元学习模板初始化"]
    C --> E["输出特征"]
    D --> E
    E --> F["SEPC 自扩展原型<br/>监控历史精度 vs 阈值 T_c"]
    F -->|"精度足够"| G["复用原型"]
    F -->|"精度退化"| H["自扩展原型<br/>新增类质心原型"]
    G --> I["预测：取各类原型<br/>相似度最大的 logit"]
    H --> I

关键设计¶

1. CME-MoE 条件专家分配：用分布检测决定该复用还是该扩展

针对"FSIL 全冻结没可塑、HIL 全扩张会过拟合"这个矛盾，CME-MoE 不做全局取舍，而是逐层、逐任务地条件判断。专家单元用 adapter 瓶颈结构 \(E_{l,k}(x_l)=\mathrm{ReLU}(x_l\cdot W^{down}_{l,k})\cdot W^{up}_{l,k}\)，其输出与冻结的 \(\mathrm{MLP}(x_l)\) 相加构成层输出 \(o_l=\mathrm{MLP}(x_l)+E_{l,k}(x_l)\)。关键在于每个专家都配一个分布检测模块 \(D_{l,k}(\cdot)\)，它在该专家学习时被训练去重建专家所见特征，损失为 \(L_D=\sum_{l\in S_L}\sum_{k\in S^K_{l,new}}\lVert x_l - D_{l,k}(x_l)\rVert_2\)。

推理新数据时，所有 \(D_{l,k}\) 计算重建误差 \(E^D_{l,k}=\lVert x_l - D_{l,k}(x_l)\rVert_2\)，再对其取 z-score 来量化"新数据 vs 历史专家知识"的分布散度。误差大→分布显著漂移→触发扩展；误差小→新特征与已有专家对齐→复用。复用时由门控网络 \(m=\mathrm{Softmax}(G(x_l))\) 给各专家加权，输出 \(y_l=\sum_i m_i\cdot E_{l,i}(x_l)\)。这样稳定与可塑由数据本身的分布证据来决定，而不是预先写死。

2. Meta-Expanding 机制：用元学习模板初始化新专家，从源头压制小样本过拟合

即使决定扩展，HIL 式"随机初始化新模块"在 K-shot 下也会过拟合。本文让扩展不再从零开始：预训练阶段用 MAML 式元学习联合优化初始专家 \(E_{l,0}\) 与其检测模块 \(D_{l,0}\) 的参数 \(\Theta_{l,0}=\{\Theta^e_{l,0},\Theta^d_{l,0}\}\)，目标是

\[\min_{\Theta_{l,0}}\ \mathbb{E}_{M_i\sim p(M)}\Big[L^{query}_{M_i}\big(\Theta_{l,0}-\alpha\nabla_{\Theta_{l,0}}L^{support}_{M_i}(\Theta_{l,0})\big)\Big]\]

得到一个任务无关的先验模板 \(E_{l,template}\)。当条件机制触发扩展，新专家直接加载该模板权重 \(\Theta^e_{l,K_l+1}\leftarrow\Theta^e_{l,0},\ \Theta^d_{l,K_l+1}\leftarrow\Theta^d_{l,0}\)。因为模板已位于"既能快速适配、又最小化泛化误差"的参数空间，新专家落在良态初始点，避免了少样本扩容时常见的过度特化与参数漂移——这正是它比 HIL 朴素扩张更抗过拟合的根本原因。

3. SEPC 自扩展原型分类器：按需为同一类新增原型，建模多域决策边界

CME-MoE 解决的是特征层，但 FSHIL 的多域异质性会在分类层暴露另一个问题：同一类在隐空间里呈多个分布簇，传统"一类一原型"假设没有足够容量刻画跨域簇的边界。SEPC 把"分类容量"当作可动态分配的资源：为每个类 \(c\) 维护一个基于历史精度的自适应阈值

\[T_c=\max\big(\overline{Acc}(c,n)\cdot(1-\beta),\ \tau_{min}\big)\]

其中 \(\overline{Acc}(c,n)\) 是该类经过 \(n\) 次增量访问的平均历史精度，\(\beta\) 是允许的性能衰减容忍度，\(\tau_{min}\) 是最低可接受性能。一旦某类当前表现跌破 \(T_c\)，说明已有原型抓不住它在新域里的表示，就触发按需扩张：用该类当前训练样本的特征质心生成补偿原型 \(p_{c,j}=\frac{1}{|S_c|}\sum_{(\hat x,c)\in S_c}F(\hat x)\)，加入原型集 \(S_{P_c}\)。推理时原型总数 \(|S_P|\ge C\)，但 logit 仍约束在 \(C\) 类，每类 logit 取其所有原型相似度最大值 \(Logit_c=\max_j \mathrm{sim}(f,p_{c,j})\)，最终预测 \(\hat c=\arg\max_c Logit_c\)。由此用多原型表示一个类，既不破坏已稳定的旧边界，又在退化信号出现处注入容量。

损失函数 / 训练策略¶

总损失 \(L_{total}=L_D+\lambda_1 L_{CE}+\lambda_2 L_{PD}\)：\(L_D\) 是上面的分布检测重建损失；\(L_{CE}\) 是当前任务的交叉熵分类损失 \(L_{CE}=-\frac{1}{|X^t_{train}|}\sum_{(x,y)}\log P(\hat y=y\mid x)\)；\(L_{PD}\) 是原型蒸馏损失，约束新任务样本在当前分类器上的 logit 与旧类知识保持一致以缓解灾难性遗忘。实验中 \(\lambda_1=\lambda_2=1\) 最优，且对二者取值较鲁棒。骨干为 ImageNet-21K 预训练的冻结 ViT-B/16，Adam + CosineAnnealingLR，单卡 RTX 4090。

实验关键数据¶

主实验¶

在 Office-31 / Office-Home / iDigits / CORe50 / DomainNet 五个数据集、FSCIL/FSDIL/FSHIL 三种设定下（每任务 5-shot），对比最新 FSIL 方法（ASP、App、SEC）与唯一的 HIL 方法 ICON。下表为各数据集"三设定平均"的 Average/Last 精度（%）：

数据集	指标	本文	次优(SEC/App)	ICON(HIL)
Office-31	Avg / Last	93.65 / 91.49	92.39 / 89.85	59.51 / 46.67
Office-Home	Avg / Last	81.77 / 80.52	77.58 / 76.35	43.96 / 41.25
iDigits	Avg / Last	72.09 / 62.37	68.46 / 60.12	46.65 / 35.14
CORe50	Avg / Last	82.37 / 80.55	80.00 / 76.56	47.34 / 40.72
DomainNet	Avg / Last	48.67 / 42.06	44.03 / 26.71	25.58 / 20.07

聚焦最难的 FSHIL 列（5-shot）也全面领先，尤其在域偏移巨大的 DomainNet 上 Last 精度 40.97% 远超次优；ICON 因小样本下过拟合在所有设定里都崩盘。

消融实验¶

组件消融（FSHIL，5-shot，Avg/Last %），Baseline 即不加两模块：

CME-MoE	SEPC	Office-31	Office-Home	DomainNet
✗	✗	64.51 / 47.33	35.87 / 44.11	24.08 / 21.29
✓	✗	84.80 / 86.36	70.18 / 71.94	39.98 / 32.23
✗	✓	88.81 / 85.39	77.80 / 78.31	40.65 / 34.41
✓	✓	96.97 / 95.10	81.64 / 80.00	47.20 / 40.97

关键发现¶

两模块各自有效、合用更强：单加 CME-MoE 或 SEPC 都把 Office-31 的 Avg 从 64.51% 拉到 84~88%，二者协同再升到 96.97%，说明特征层与分类层的稳定-可塑调和是互补的。
对极端小样本更鲁棒：1-shot 设定下本文相对 10-shot 的掉点幅度仅 ~9%，而 ASP/App/SEC 普遍掉 19~30%（图 4），元扩展的良态初始化在最稀缺数据下优势最明显。
超参不敏感：\(\lambda_1=\lambda_2=1\) 最优且范围内稳定；SEPC 的 \(\beta\in\{0.1,0.2\}\)、\(\tau_{min}\in[0.4,0.8]\) 大多数取值精度几乎不变，性能波动主要发生在"遇到新决策边界、重新划分易/难类"之时。

亮点与洞察¶

把"稳定 vs 可塑"从全局二选一变成数据驱动的逐任务条件判断：用分布检测模块的重建误差 z-score 当"该不该扩张"的开关，既是新颖切口也很可复用——任何需要"按分布漂移决定复用/扩展"的持续学习场景都能借鉴。
元学习不是用来学任务，而是用来学"扩张时的初始化模板"：这个视角很巧——它把 MAML 的"快速适配先验"嫁接到架构扩张的初始化上，直击 HIL 在小样本下过拟合的病根。
分类容量当可分配资源、按精度退化信号触发：SEPC 用历史精度阈值 \(T_c\) 作为"该类是否出现新域模式"的可靠诊断，把"一类多原型"做成了按需而非一刀切。

局限与展望¶

方法依赖冻结的大规模预训练 ViT-B/16 骨干，若骨干表示对目标域覆盖不足，旁路 adapter 专家能补多少可塑性存疑 ⚠️。
分布检测靠重建误差 + z-score 阈值判定漂移，阈值与 z-score 的具体设定细节文中较略 ⚠️（以原文/附录为准）；在分布渐变而非突变的数据流上，"复用/扩展"二分决策是否够细粒度值得考察。
专家与原型都会持续扩张，论文未充分讨论长序列下的参数/原型数增长与内存成本上界。
代码未公开，复现需自行实现元扩展与 SEPC 的触发逻辑。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 提出 FSHIL 新范式并给出针对性的特征层+分类层双模块解法
实验充分度: ⭐⭐⭐⭐ 5 数据集 × 3 设定 × 1/5/10-shot + 组件与超参消融，但缺少计算/内存开销分析
写作质量: ⭐⭐⭐⭐ 问题动机与稳定-可塑悖论讲得清晰，部分阈值/z-score 细节偏略
价值: ⭐⭐⭐⭐ 贴近真实非平稳数据流，设计模板可迁移到更广的持续学习场景