Interference-Isolated Elastic Weight Consolidation and Knowledge Calibration for Incremental Object Detection¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=VrXdmCjni4
代码: 待确认
领域: 增量目标检测 / 持续学习 / 灾难性遗忘
关键词: Incremental Object Detection, Elastic Weight Consolidation, 任务干扰, 原型校准, 语义漂移

一句话总结¶

针对增量目标检测中"未标注的过去/未来类目标被当成背景"导致的任务知识冲突，本文重新推导 EWC 的贝叶斯后验，从参数重要度里显式扣除干扰知识（IKI-EWC），再用可学习投影层补偿原型语义漂移重训分类头（PKC），在 VOC/COCO 上稳超 SOTA。

研究背景与动机¶

领域现状：增量目标检测（IOD）要求检测器在不断学新类的同时不忘旧类。主流做法分两类——基于知识蒸馏（用旧模型的特征/预测做软标签）和基于参数正则（约束重要参数不被覆盖，EWC 是代表）。
现有痛点：现有方法大多没有显式、定量地建模知识保留过程中的信息冲突，任务边界模糊。IOD 比普通类增量学习多一层麻烦：一张图里可能同时含有过去、当前、未来任务的物体，而那些未标注的过去类/未来类目标会被错误地当作背景学进模型。过去类的目标还能靠旧模型打伪标签缓解，但未来类目标完全无标注、最难处理。
核心矛盾：直接套用 EWC 时，旧模型 $M_{t-1}$ 已经把"未来类目标=背景"这种错误学进了参数里，EWC 又会忠实地把这些干扰知识也当成"重要参数"保护起来，反而加剧了新旧知识的冲突，让遗忘更严重。这本质上违反了 EWC 推导所依赖的条件独立假设。
本文目标：在不额外训练当前任务 teacher（区别于 BPF）的前提下，从参数正则的角度把"干扰知识"从参数重要度中剥离出去，同时缓解分类头的语义漂移。
核心 idea：[隔离干扰] 用旧检测器在新数据上的误判来估计任务冲突区域，重新推导贝叶斯后验，建立"已学知识"与"干扰知识"的数学关系，从而在更新权重时定向扣除冲突；[原型校准] 用可学习投影层补偿旧类原型的语义漂移，再联合当前特征重训分类头。

方法详解¶

整体框架¶

IIKC 框架建立在 Faster R-CNN（ResNet-50 backbone）之上，含两个互补模块：IKI-EWC 处理区域特征提取器 $M^F_t$（backbone+RPN+ROI/FC）的参数正则，PKC 单独治理分类头 $f^{ch}_t$ 的遗忘。整条流水线先用旧模型 $M_{t-1}$ 在当前数据 $D_t$ 上打高置信伪标签模拟"过去任务场景"，据此估出冲突区域集 $\hat{R}^*_{1:t-1}$ 并从参数重要度里扣掉，再以校准后的旧类原型重训分类头。

flowchart TD
    A[当前数据 D_t] --> B[旧模型 M_t-1 打伪标签<br/>模拟过去任务 D̂_1:t-1]
    B --> C[估计干扰区域集 R̂*_1:t-1<br/>背景proposal 却与新类GT高IoU]
    C --> D[算干扰重要度 I2 = -H*]
    E[旧任务重要度 I1 = -H] --> F[融合得净重要度 Ĩ<br/>扣除干扰]
    D --> F
    F --> G[IKI-EWC 正则项约束 M^F_t]
    H[旧类原型 + 投影层 φ 补偿漂移] --> I[PKC: 联合当前特征重训分类头 f^ch_t]
    G --> J[增量后的检测器 M_t]
    I --> J

关键设计¶

1. 重写 IOD 的后验分解：把背景里的"假背景"摘出去。 标准 EWC 在序贯学习下假设条件独立 $p(D_t\mid\theta,D_{1:t-1})=p(D_t\mid\theta)$，于是后验简化成 $p(\theta\mid D_{1:t})\propto p(D_t\mid\theta)\,p(\theta\mid D_{1:t-1})$。但在 IOD 里这个假设被破坏——本文把图像级数据映射到 proposal 级做细粒度分析，定义干扰集 $R^*_{1:t-1}=\{r\in R^-_{1:t-1}:\exists g\in G_t,\ \mathrm{IoU}(r,g)\ge\gamma\}$，即早期被当作背景、但其实和第 $t$ 阶段新类前景重叠的那些 proposal。把它们从过去数据里剔除后，数据重新分解为 $D_{1:t}=(R_{1:t-1}\setminus R^*_{1:t-1})\cup R_t=R'_{1:t-1}\cup R_t$，后验也随之改写成 $p(\theta\mid D_{1:t})\propto p(R_t\mid\theta)\,p(\theta\mid R'_{1:t-1})$，让正则项只建立在非冲突的干净 proposal 上。

2. 跨阶段估计干扰、并解析出干净后验。 难点在于 $R'_{1:t-1}$ 无法在任一单阶段算出：阶段 $1{:}t-1$ 时还没有 $G_t$，到了阶段 $t$ 又拿不到原始 $R_{1:t-1}$。本文用 $D_t$ 加旧模型 $M_{t-1}$ 在阶段 $t$ 近似它——跑 $M_{t-1}$ 得旧类伪标签构造模拟过去集 $\hat{D}_{1:t-1}$，回喂得到背景子集 $\hat{R}^-_{1:t-1}$，再按 IoU 阈值筛出 $\hat{R}^*_{1:t-1}$。把 $R_{1:t-1}$ 看成干净子集与干扰子集的混合，令 $k=|\hat{R}^*_{1:t-1}|/|\hat{R}'_{1:t-1}|$ 度量干扰严重程度，即可解析地解出干净后验 $p(\theta\mid\hat{R}'_{1:t-1})=(1+k)\,p(\theta\mid R_{1:t-1})-k\,p(\theta\mid\hat{R}^*_{1:t-1})$，无需在数据层面真正重建 $R'_{1:t-1}$。

3. 干扰隔离的参数重要度公式。 对两个后验都做 Laplace 近似（高斯，中心在收敛参数 $\theta^*_{t-1}$，方差由各自 Hessian $H,H^*$ 给出），最大化后验得到阶段 $t$ 的损失 $L(\theta)=L^{det}_t(\theta)+\frac{\lambda}{2}\sum_i\tilde{I}_i(\theta_i-\theta^*_{t-1,i})^2$，其中净重要度为 $$\tilde{I}_i=\frac{I_{1,i}\,I_{2,i}}{(1+k)^2 I_{2,i}+k^2 I_{1,i}}$$ $I_{1,i}=-H_i$ 是携带干扰的旧任务重要度（鼓励保留旧知识），$I_{2,i}=-H^*_i$ 是干扰区域上的重要度（衡量该参数受冲突知识影响的强度）。这个公式的妙处在于：对被干扰污染的参数放松约束、对真正承载旧知识的参数加强保护，从而把"未来类当背景"这种错误信息从重要度估计中定向移除。

4. PKC：投影层补偿语义漂移、重训分类头。 参数正则管得住 $M^F_t$，却挡不住分类头 $f^{ch}_t$ 的语义漂移——特征空间一变，旧类原型就失真。PKC 在旧模型训完后从 ROI FC 输出抽取旧类区域特征，按高斯（均值 $\mu_i$、对角协方差 $\sigma^2_i$）建模每类分布得原型 $C$。再学一个线性投影 $\phi(f_{t-1})=Wf_{t-1}+b$ 把旧特征空间映射到新特征空间，损失 $L_{proj}=\sum_{i\in\mathrm{TopK}}\|\phi(f_{t-1,i})-f_{t,i}\|_2^2$ 只用每类 L2 距离最小的 TopK 对特征做对齐。训练好投影后，从原型高斯采样旧类特征 $f^s$ 经 $\phi$ 做漂移补偿，与当前任务特征 $f^t$ 拼接喂入分类头，用交叉熵 $L_{ce}$ 重训，从而在分类头层面进一步抑制遗忘。

实验关键数据¶

主实验：PASCAL VOC 2007（两阶段，[email protected]）¶

表中灰底列为全类平均 AP（1-20）。

方法	来源	19-1	15-5	10-10	5-15
Joint Training（上界）	-	76.4	76.4	76.4	76.4
ABR*	ICCV'23	70.9	71.0	72.0	69.4
GMDP-ABR*	ICLR'25	74.6	73.2	72.7	70.7
BPF	ECCV'24	74.1	72.7	72.9	73.0
GMDP-ILOD	ICLR'25	73.9	71.8	70.8	61.7
Ours	-	75.4	73.7	75.7	75.6

* 表示使用 exemplar 回放。本文为非回放方法，却在 10-10/5-15 上比 BPF 高 2.8%/2.6%，比回放方法 GMDP-ABR 高 3.0%/4.9%。

主实验：MS COCO 2017（COCO-style mAP）¶

方法	40-40 AP / AP50 / AP75	70-10 AP / AP50 / AP75
BPF (ECCV'24)	34.4 / 54.3 / 37.3	36.2 / 56.8 / 38.9
Ours	35.9 / 55.8 / 38.8	37.1 / 57.6 / 40.6

非回放设定下平均 AP 比 BPF 高 1.5%（40-40）/0.9%（70-10），类别越多干扰抑制越关键。

消融实验（VOC，1-20 平均 [email protected]）¶

IKI-EWC	PKC	VOC 10-10	VOC 10-5	VOC 5-5
–	–	73.8	66.4	64.0
✓	–	75.1	70.9	66.6
–	✓	74.3	67.9	63.2
✓	✓	75.7	71.5	66.6

IKI-EWC 是主力（单加即 +1.3%/+4.5%/+4.0%），PKC 在长序列设定下提供额外增益。超参消融显示 $\lambda=20$、$K=32$、$\gamma=0.5$ 较优，$K$ 在 2~512 间相当鲁棒。

关键发现¶

把干扰知识从 EWC 重要度里扣掉，比朴素加 EWC（$L2$++）在 10-10 上大幅缓解了遗忘（朴素 L2++ 在 11-20 新类上掉到 42.5）。
在 15-1 这种"旧类压倒性多"的长序列里，正则法会给旧参数过高重要度、限制可塑性，是本文方法相对偏弱的设定。

亮点与洞察¶

把"假背景"问题数学化：第一次把 IOD 里"未标注过去/未来类被当背景"这一冲突，落到 proposal 级别并写进贝叶斯后验分解，给出可解析的干净后验与净重要度闭式公式，而非启发式加权。
非回放、不训额外 teacher：相比 BPF 要训当前任务 teacher、相比 ABR/GMDP-ABR 要存 exemplar，本文纯参数正则路线在存储与计算上更轻，却能反超回放方法。
分而治之：把"区域特征提取器"和"分类头"的遗忘拆成 IKI-EWC 与 PKC 两个机制，分别用参数重要度与原型漂移补偿来治理，定位清晰。

局限与展望¶

长序列单步增量（15-1）是软肋：旧类主导时正则把可塑性压得过死，新类适应受限，作者自己也点出这一点。
干扰估计依赖旧模型伪标签质量：$\hat{R}^*_{1:t-1}$ 完全靠 $M_{t-1}$ 在 $D_t$ 上的误判推断，旧模型若本身较弱，干扰集估计会有偏差。
未来类目标仍未被正面利用：方法是"把未来类当背景的错误从参数里扣掉"，而非真正利用未来类信息；如何前瞻性建模未标注未来类仍是开放问题。
检测器架构受限：实验基于两阶段 Faster R-CNN，proposal 级推导能否平滑迁移到 DETR 类一阶段/query-based 检测器有待验证。

评分¶

新颖性: ⭐⭐⭐⭐ — 把 IOD 的"假背景冲突"重写进 EWC 后验并给出净重要度闭式解，理论切入点扎实且少见。
实验充分度: ⭐⭐⭐⭐ — VOC 两阶段/多阶段 + COCO 两设定，组件/超参消融齐全；但仅 Faster R-CNN 单架构，缺 DETR 类验证。
写作质量: ⭐⭐⭐⭐ — 推导脉络清晰、图 1/图 2 直观，公式与动机衔接好。
价值: ⭐⭐⭐⭐ — 非回放、不训额外 teacher 却反超回放 SOTA，对资源受限的增量检测落地有实用价值。