StPR：面向无样本回放视频类增量学习的时空保持与路由¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=VAn2YVMuZC
代码: 无
领域: 视频理解 / 类增量学习
关键词: 视频类增量学习, 灾难性遗忘, 无样本回放, 时序分解, 混合专家

一句话总结¶

StPR 把视频特征显式拆成「帧间共享语义」和「时序动态」两路，用 FSSD 通道级蒸馏锁住重要的语义通道来抗遗忘、用基于时序分解的混合专家（TD-MoE）在推理时按时序动态给每个任务专家打权重，在完全不存旧样本的前提下做视频类增量学习，并在 UCF101 / HMDB51 / SSv2 / Kinetics400 上超过此前所有方法（含需要存样本的）。

研究背景与动机¶

领域现状：类增量学习（CIL）让模型按任务序列不断学新类、又不忘旧类。把它搬到视频上就是视频类增量学习（VCIL），用于动作识别——监控、驾驶员监测、机器人等场景都需要持续识别新动作。

现有痛点：现有 VCIL 方法分两类，都各有硬伤。一类是基于样本回放的（TCD、FrameMaker、HCE 等）：存一部分旧视频/帧/压缩特征回放来缓解遗忘，但存样本带来内存和隐私开销，而且这类方法多停在帧级学习、不显式建模时序。另一类是搬运图像 CIL 的方法（LwF、STSP 等）：靠正则或子空间投影避免存样本，但它们把视频拍平、几乎不利用时序结构。

核心矛盾：视频比静态图像多了一层时空结构——既有跨帧稳定的共享语义，又有帧间变化的时序动态。但已有方法要么用统一权重的蒸馏（把所有通道一视同仁）压制更新、牺牲可塑性，要么干脆忽略时序。问题根子在于：缓解遗忘和利用时空信息这两件事没被同时、且分开地处理——稳定性与可塑性之间没找到好的折中点，时序线索也被浪费了。

本文目标：在不存任何旧样本的前提下，既要锁住旧任务的关键语义（抗遗忘），又要让模型按时序动态灵活适配新类，并且推理时不能依赖任务 ID。

切入角度：作者观察到视频特征可以解耦——把每帧特征写成「共享静态分量 + 时序残差」\(V^s_i = \bar{v} + \epsilon_i\)。共享语义负责「记住旧知识」，时序动态负责「区分任务、路由专家」。两者职责不同，就该用不同手段分别处理。

核心 idea：显式拆开时空信息——用「帧共享语义蒸馏」选择性保住重要语义通道来抗遗忘，用「时序分解 + 混合专家」按时序动态做无任务 ID 的专家路由，两者协同形成统一的无样本 VCIL 框架。

方法详解¶

整体框架¶

StPR 建在冻结的 CLIP ViT-B/16 之上：视觉编码器 \(F(\cdot)\) 不动，只训练两类轻量组件——每个任务一套 adapter（嵌在 transformer 残差里的下采样-ReLU-上采样 MLP）做空间适配，以及每个任务一个时空编码器 \(G(\cdot)\)（多头自注意力）做时序聚合。整条流水线把视频拆成两路信息分别处理：

训练时：空间编码器抽出逐帧特征，FSSD 模块按通道重要性对旧模型做选择性蒸馏，把「帧间共享、语义稳定」的通道锁住，其余通道放开去适配新类；
推理时：每个任务的时空编码器是一个「专家」，TD-MoE 从输入视频里分解出纯时序动态 \(V_{tem}\)，拿它和各任务存下的时序锚点比相似度，给专家动态加权——无需任何任务 ID 或旧样本。

整体框架点名的三个贡献组件——FSSD、时序分解、TD-MoE 路由——分别对应下面三个关键设计；空间/时空编码器是脚手架。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入视频<br/>采样 8 帧"] --> B["空间编码器<br/>冻结 CLIP + adapter"]
    B --> C["FSSD<br/>通道重要性选择性蒸馏"]
    B --> D["时空编码器<br/>每任务一个专家 → Vst"]
    D --> E["时序分解<br/>剥离纯时序动态 Vtem"]
    E -->|训练时: FSSD 锁旧语义| F["TD-MoE 路由<br/>按 Vtem 与锚点相似度加权专家"]
    C --> F
    F --> G["融合表示 V = V̄s + Σ rk·Vst<br/>与文本余弦匹配分类"]

关键设计¶

1. FSSD：按「通道语义重要性」做选择性蒸馏，而非一刀切

痛点很直白：经典 CIL 的统一权重蒸馏对所有通道一视同仁地约束更新，但视频里不同通道的语义重要性和时序稳定性差别很大，统一压制只会换来稳定性和可塑性都不好的折中。FSSD 的思路是先给每个通道算一个「帧共享语义重要性」\(I_{c,j}\)，再用它加权蒸馏损失——重要通道被强约束（保住旧知识），不重要的放开（留给新任务）。

重要性由两个量相乘得到。其一是语义敏感度：把第 \(j\) 个通道在类 \(c\) 上跨帧聚合的激活近似为高斯 \(\bar{V}^s_{c,j}\sim N(\mu_{c,j},\sigma^2_{c,j})\)，用 Fisher 信息衡量激活对输出的敏感程度，推导得 \(I(\mu_{c,j})=1/\sigma^2_{c,j}\)——方差越小、跨帧越稳定，越该保住。其二是分类得分：算空间特征和对应文本特征的通道级余弦贡献，近似为 \(E[\gamma_{c,j}]\approx T_{c,j}\mu_{c,j}/\lambda\)。两者合并得到通道重要性：

\[I_{c,j} = \frac{T_{c,j}\cdot\mu_{c,j}}{\sigma^2_{c,j}}.\]

蒸馏损失就用这个 \(I\) 作为逐通道权重，约束 \(b{-}1\) 任务和 \(b\) 任务空间编码器输出的差异：\(L_{FSSD}=\frac{1}{|D_b|d_{vt}}\sum_{c,i,j}I_{b-1,c,j}\cdot\|\bar{V}^s_{b-1,c,i,j}-\bar{V}^s_{b,c,i,j}\|^2_2\)。这样旧任务里语义稳定又贡献大的通道被牢牢钉住，其余通道自由适配，稳定性-可塑性的折中点被精准地推到了「该稳的稳、该动的动」。

2. 时序分解：从时空特征里干净地剥出纯时序动态 \(V_{tem}\)

要按时序路由专家，先得拿到「只含时序、不含静态背景」的信号，否则背景一致的冗余帧会干扰路由。作者基于一个观察——相邻冗余帧背景和主体几乎不变、呈现短时平稳性（在 UCF101/HMDB51 上用 KPSS 检验验证了大量视频确实短时平稳）——把每帧特征拆成共享静态分量加时序残差 \(V^s_i=\bar{v}+\epsilon_i\)，于是空间均值 \(\bar{V}^s=\bar{v}+\bar{\epsilon}\)。

时空特征 \(V_{st}\) 由注意力聚合而成，可近似为 \(V_{st}\approx\sum_i a_i V^s_i=\bar{v}+\sum_i a_i\epsilon_i\)（注意力权重归一化后 \(\sum_i a_i=1\)）。难点是 \(\bar{v}\) 不好估计，作者巧妙地用 \(V_{st}\) 减去 \(\bar{V}^s\) 把它消掉：

\[V_{tem}=\sum_{i=1}^{N_f}\Big(a_i-\frac{1}{N_f}\Big)\cdot\epsilon_i.\]

这个量正好衡量「注意力加权的时序动态」与「均匀时序均值」之间的偏离——静态语义被减没了，留下的是纯时序变化。这一步是 TD-MoE 能按时序做路由、又不被背景干扰的前提。

3. TD-MoE：每任务一个专家，用时序锚点相似度做无任务 ID 路由

深层 transformer 在 VCIL 里遗忘倾向很强，所以作者干脆给每个任务配一个专属时空编码器当「专家」。但推理时没有任务 ID，怎么知道该用哪个专家？答案是用上一步分解出的 \(V_{tem}\)。训练完一个任务后，把该任务每个类的时序表示求均值，存进锚点池 \(\bar{V}^{tem}_c\)（只存类级均值向量，不是样本，仍然无样本回放）。推理时，对输入视频算出 \(V_{tem}\)，每个专家 \(k\) 的路由分数取它和该专家所辖类锚点的最大余弦相似度：

\[r_k=\max_{c\in C_k}\cos\big(V^{tem}_k,\bar{V}^{tem}_c\big).\]

最终视频表示是「adapter 空间特征 + 各专家输出按 \(r_k\) 加权」：\(V=\bar{V}^s+\sum_k r_k\cdot V^{st}_k\)，再和文本嵌入余弦匹配分类。和静态/特征无关的路由（简单平均 Avg-MoE、用冻结 CLIP 特征的 CLIP-MoE、用 adapter 特征的 Adapter-MoE）相比，TD-MoE 显式按时序动态分配权重，让真正相关的专家贡献更大，既提精度又压低遗忘。

损失函数 / 训练策略¶

总损失把三项加在一起：\(L=L^{St}_{Cont}+L^{S}_{Cont}+w\cdot L_{FSSD}\)。其中 \(L^{St}_{Cont}\) 是时空特征 \(V_{st}\) 与文本的对称对比损失、\(L^{S}_{Cont}\) 是 adapter 空间特征 \(\bar{V}^s\) 与文本的对比损失（两者都用视频↔文本双向 InfoNCE 形式做对齐），\(L_{FSSD}\) 是抗遗忘的蒸馏项，权重 \(w=1\times10^4\)。骨干 CLIP ViT-B/16 全程冻结，只训空间/时空编码器；SGD，学习率 0.01，batch 40，首个增量阶段 60 epoch、后续每阶段 30 epoch，每视频 TSN 采样 8 帧；时空编码器 3 层注意力、每层 2 个 head；单卡 RTX 3090。

实验关键数据¶

主实验¶

在 TCD 基准（UCF101/HMDB51/SSv2）和 vCLIMB 基准（Kinetics400）上评测，指标为平均准确率 Acc、最终准确率与后向遗忘 BWF。StPR 在不存任何样本的情况下全面超越所有基线（含需存样本的方法）。

数据集 / 设置	指标	StPR	之前最好	提升
UCF101 10×5s	Acc	94.67	86.05 (CoSTEO)	+8.62
UCF101 2×25s	Acc	88.52	86.95 (CoSTEO)	+1.57
HMDB51 5×5s	Acc	68.12	61.70 (CoSTEO)	+6.42
HMDB51 1×25s	Acc	67.01	61.84 (CoSTEO)	+5.17
SSv2 5×18s	Acc	37.30	36.60 (CoSTEO)	+0.70
Kinetics400-10s	Acc	57.83	56.09 (CSTA)	+1.74

值得注意：StPR 是无样本（✗）方法，却打过了一众需要存样本（✓）的方法；只在 SSv2 10×9s（40.79 vs CoSTEO 41.44）略低。Kinetics400 上 StPR 的 BWF 偏高（10s 为 14.01），作者解释为存样本的方法靠回放天然遗忘更低，但 StPR 最终精度仍更高。

消融实验¶

三组件：adapter 调优（\(A_b\)）、FSSD、TD-MoE。

配置	UCF101 10×5s Acc	HMDB51 25×1s Acc	说明
baseline（冻结 CLIP）	72.72	47.48	无适配，最弱
+ \(A_b\)	78.68	57.10	仅 adapter 适配
+ \(A_b\) + FSSD	82.06	60.83	加抗遗忘蒸馏
+ TD-MoE	93.47	68.88	仅时序专家路由
+ \(A_b\) + TD-MoE	94.14	73.02	但 BWF 飙到 21.72
Full（\(A_b\)+FSSD+TD-MoE）	94.67	75.07	最稳，BWF 降回 7.02

关键发现¶

TD-MoE 是涨点主力：单独加 TD-MoE 就把 UCF101 10×5s 从 72.72 拉到 93.47，说明时序动态路由对视频增量识别贡献最大。
FSSD 是稳定器：\(A_b\)+TD-MoE 虽然 Acc 高，但 BWF 高达 21.72（遗忘严重）；补上 FSSD 后 BWF 降到 7.02，精度还略升——FSSD 与 TD-MoE 互补，一个保稳定、一个提可塑。
任务越长收益越大：逐任务分析显示，任务数越多（如 10 任务长程场景）StPR 相对 baseline 的领先越明显。
路由方式很关键：和 Avg-MoE / CLIP-MoE / Adapter-MoE 等静态或特征无关路由比，基于时序分解的 TD-MoE 在精度和稳定性上都更好，验证了显式建模时序变化的必要性。

亮点与洞察¶

「记忆」和「区分」用不同信号分工：共享静态语义负责抗遗忘（FSSD 锁通道），时序动态负责任务路由（TD-MoE）。把视频天然的两路信息各司其职，比统一处理优雅得多。
\(V_{st}-\bar{V}^s\) 消掉静态分量的小技巧：共享静态项 \(\bar{v}\) 难估，但用时空特征减空间均值就能干净地把它约掉，留下纯时序偏离量——一个很轻量却关键的解耦操作。
通道重要性 = Fisher 敏感度 × 分类贡献：把「跨帧稳定」（方差倒数）和「对分类有用」（与文本余弦）两个正交标准乘起来定义蒸馏权重，物理含义清晰，可迁移到任何需要选择性正则的增量场景。
无任务 ID 推理靠锚点池：只存类级时序均值向量（不是样本），就实现了任务 ID-free 的专家路由，绕开了 prompt pool 类方法对任务边界的依赖。

局限与展望¶

每任务一个专家，扩展性存疑：任务数大幅增加时专家数线性增长，存储和推理开销会上升，论文未充分讨论上百任务时的可扩展性。
Kinetics400 遗忘偏高：BWF 明显高于存样本方法（如 SMILE BWF 仅 6.25），说明纯无样本在大规模、长程场景下抗遗忘仍弱于回放，只是被高最终精度掩盖。
短时平稳假设的边界：时序分解依赖「冗余帧短时平稳」的观察，对快速、剧烈运动或强时序依赖（如 SSv2 这类需精细时序推理的数据）增益较小——StPR 在 SSv2 上正是唯一被反超的设置。
依赖 CLIP 文本对齐：整套分类基于视频-文本余弦匹配，强绑定 CLIP 的视觉-文本空间，换非 CLIP 骨干时通道重要性和分类得分的定义需重新设计。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「时空解耦 + 时序路由专家」的组合在无样本 VCIL 里是新颖且自洽的设计
实验充分度: ⭐⭐⭐⭐ 四数据集、两基准、组件消融 + 路由策略对比都有，但缺专家数随任务增长的开销分析
写作质量: ⭐⭐⭐⭐ 公式推导（Fisher、时序分解）清晰，框架图把训练/推理两阶段讲明白
价值: ⭐⭐⭐⭐⭐ 无样本即超过存样本 SOTA，对隐私敏感的持续视频识别场景有直接价值