QKD: Quantum-Gated Task-interaction Knowledge Distillation for Class-Incremental Learning¶

会议: CVPR 2026
arXiv: 2604.11112
代码: https://github.com/Frank-lilinjie/CVPR26-QKD
领域: 物理学
关键词: 类增量学习, 量子计算, 知识蒸馏, 预训练模型, 适配器

一句话总结¶

QKD 将量子门控引入类增量学习，通过参数化量子电路在高维 Hilbert 空间中建模样本-任务相关性，引导跨任务知识蒸馏和推理时适配器融合，在 5 个基准上达到 SOTA。

研究背景与动机¶

领域现状：基于预训练模型（PTM）的类增量学习（CIL）冻结骨干网络，为每个任务学习轻量适配器。Prompt-based 方法靠相似性检索提示，Adapter-based 方法为各任务分配独立适配器。

现有痛点：Prompt-based 方法的局部相似性检索在任务子空间重叠时产生噪声匹配；Adapter-based 方法将适配器视为独立子空间，忽略了跨任务相关性，推理时的启发式路由/融合无法处理纠缠的子空间。

核心矛盾：路由和融合缺乏显式的学习型任务交互机制——如何量化当前样本与各历史任务的相关性，并将其用于训练时的知识转移和推理时的适配器选择？

本文目标：设计统一的可学习机制，动态量化样本-任务相关性，同时服务于训练时知识蒸馏和推理时自适应路由。

核心 idea：将样本特征和任务嵌入映射到量子 Hilbert 空间，利用量子叠加和干涉天然编码复杂的多路任务依赖关系。

方法详解¶

整体框架¶

QKD 要解决的是：基于预训练模型的类增量学习里，旧任务的适配器子空间往往彼此重叠纠缠，可现有方法要么靠余弦相似度做局部检索（重叠时就误匹配），要么把各适配器当成互相独立的盒子（推理时只能启发式投票）——都没有一个可学习的、能量化"当前样本和每个历史任务到底有多相关"的机制。QKD 的整篇思路就是用一套量子门控算出这组相关性分数，然后让训练和推理共用同一组分数。

具体怎么转：骨干 ViT 冻结，每来一个任务训一个轻量适配器；对每个已学适配器用截断 SVD 压出一个紧凑的任务嵌入。当一张图进来，先抽出它的样本特征（用冻结 ViT 加首任务适配器），量子门控模块把"样本特征 + 各任务嵌入"送进一个参数化量子电路，测量后得到一组归一化的相关性分数 \(\{s_t\}\)。训练阶段，这组分数当权重，把旧适配器的输出分布有选择地（KL 散度）蒸馏进正在学的新适配器；推理阶段，同一组分数又拿来加权融合各适配器的分类 logits。一组量子门控，串起了知识转移和自适应路由两件事。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IMG["输入图像"] --> FEAT["冻结 ViT + 首任务适配器<br/>抽样本特征"]
    POOL["历史适配器参数<br/>截断 SVD 得任务嵌入"] --> ENC
    FEAT --> ENC
    subgraph QGTM["1. 量子门控任务调制（QGTM）"]
        direction TB
        ENC["角度编码 + 可学习旋转 + CNOT 纠缠链"] --> FID["保真度测量（量子态重叠）"]
        FID --> SM["温度 softmax + 稀疏正则<br/>得相关性分数"]
    end
    SM -->|训练| TIKD["2. 任务交互知识蒸馏（TIKD）<br/>相关性加权 KL 蒸馏 旧→新适配器"]
    SM -->|推理| FUSE["3. 训练-推理一致路由<br/>相关性加权融合各适配器 logits"]
    TIKD --> NEW["更新当前适配器"]
    FUSE --> PRED["最终预测"]

关键设计¶

1. 量子门控任务调制（QGTM）：把样本-任务相关性算成量子态保真度

前面的痛点是任务子空间高度重叠时，余弦相似度只看局部夹角、MLP 又难拟合这种多路纠缠的几何关系。QGTM 改用量子电路来编码这层关系：对第 \(t\) 个适配器，先把其各层适配器参数堆成矩阵、做截断 SVD 取主子空间并用全 1 向量聚合成一个任务嵌入态 \(|\phi_t\rangle\)；样本特征归一化后做角度编码，逐比特施加 \(R_y\) 旋转把经典数值灌进量子态，再叠一层可学习旋转门 \(R_y(\theta)\)，并用一条 CNOT 链把各比特纠缠起来（堆叠 \(l_q\) 层），使得任意两维特征的关联都能在叠加态里被表达。得到样本态 \(|\psi\rangle\) 后，直接测量它与每个任务态的保真度（量子态重叠） \(p_t=|\langle\psi|\phi_t\rangle|^2\) 作为几何相关性，并加一项稀疏正则 \(\mathcal{L}_s=\|\alpha\|_1\) 逼门控只盯最相关的少数任务，最后经温度 softmax 归一化得到 \(s_t=\mathrm{softmax}_t\big(p_t/\tau\big)\)。之所以有效，是因为量子 Hilbert 空间维度随比特数指数增长、叠加与干涉天然能编码"多个任务同时部分相关"这种纠缠结构，而这正是经典余弦/MLP 表达不出来的几何。

⚠️ QGTM 的具体门序定义以原文为准。

2. 任务交互知识蒸馏（TIKD）：让相关的旧任务多教、不相关的闭嘴

有了相关性分数，怎么用在训练上？朴素的做法是把所有旧适配器一视同仁地蒸馏过来，但不相关任务反而是干扰。TIKD 的做法是：当前样本 \(x\) 分别过每个旧适配器得到输出 logits \(z^{(i)}\)、过新适配器得到 \(z^{(\text{new})}\)，以量子门控的 \(s_t\) 为权重，对每个旧适配器做一项 KL 散度蒸馏并加权求和 \(\mathcal{L}_{\text{QKD}}=\sum_i s_i\,\mathrm{KL}\big(\sigma(z^{(i)})\,\|\,\sigma(z^{(\text{new})})\big)\)，逼新适配器去对齐高相关旧任务的预测分布。这样高相关的旧任务权重大、贡献更多可迁移的知识，低相关的被压到接近零、自动让路——选择性地把"该继承的"继承下来，而不是把整段历史平均糊上去。

3. 训练-推理一致的路由：同一组门控分数复用到推理融合

很多 adapter-based 方法的隐患是训练时学的是一套对齐，推理时却换成另一套启发式路由（多数投票、固定权重），两边不一致就掉点。QKD 干脆让推理复用训练那套量子门控：测试样本进来，同一个 QGTM 算出它与所有任务的 \(s_t\)，直接拿来加权融合各适配器输出的分类 logits 得到最终预测。因为路由机制和训练时蒸馏所依赖的是完全同一个相关性度量，训练优化的目标和推理实际执行的逻辑天然对齐，消掉了那道不一致的缝。

一个完整示例¶

假设已学过任务 1（鸟）、任务 2（车）、任务 3（飞机），现在来一张"客机"图片：QGTM 抽出它的样本特征，分别和三个任务嵌入过量子电路，测量后得到相关性分数比如 \(s=[0.1,\ 0.15,\ 0.75]\)——和"飞机"任务最相关、和"鸟"次之、和"车"几乎无关。训练这张图所属新任务时，TIKD 就以 \(0.75\) 的权重主要对齐飞机适配器的预测分布(KL)、\(0.1/0.15\) 微量参考鸟/车、几乎屏蔽无关知识。推理时遇到同一张图，同一组 \([0.1,0.15,0.75]\) 直接拿来融合三个适配器的 logits，飞机适配器的判断主导最终预测。整条链里相关性分数只算一次、用两处，画面是一致的。

⚠️ 示例中的具体分数为说明性数值，非原文实测。

损失函数 / 训练策略¶

总损失 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{CE}}+\lambda_{\text{kd}}\mathcal{L}_{\text{QKD}}+\lambda_{\text{s}}\mathcal{L}_{\text{s}}\)：分类交叉熵 + 相关性加权的 KL 蒸馏损失 + 稀疏正则 \(\|\alpha\|_1\)。只更新当前适配器与量子门控网络，旧适配器冻结；量子电路参数与适配器参数联合端到端训练。

实验关键数据¶

主实验¶

数据集	QKD 最终准确率	之前SOTA	提升
CIFAR-100	SOTA	EASE	+提升
CUB-200	SOTA	MOE-Adapters	+提升
ImageNet-R	SOTA	-	-

消融实验¶

配置	准确率	说明
量子门控	最优	完整模型
替换为余弦相似度	下降	表达力不足
替换为 MLP	下降	复杂依赖捕获差
w/o TIKD	下降	跨任务知识转移缺失

关键发现¶

量子门控始终优于余弦相似度和 MLP 替代，证明量子 Hilbert 空间的几何表达力确实更强
TIKD 在任务数增多时效果更明显，说明随着子空间重叠加剧，选择性知识转移越来越重要
训练-推理一致的路由是关键，不一致会导致性能下降

亮点与洞察¶

量子计算的实用化尝试：不是为了"用量子而量子"，而是因为量子 Hilbert 空间的几何特性确实适合建模多路任务依赖
训练-推理一致性：同一套相关性分数同时用于蒸馏和路由，设计优雅

局限与展望¶

量子电路目前在经典计算机上模拟，实际量子硬件上的效率尚不清楚
任务嵌入的 SVD 计算随任务增多而增长
未来可探索更深的量子电路或与真正量子硬件结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将量子计算引入 CIL，理论动机充分
实验充分度: ⭐⭐⭐⭐ 5 个数据集，消融证明量子门控优于经典替代
写作质量: ⭐⭐⭐⭐ 量子背景介绍清楚
价值: ⭐⭐⭐⭐ 为 CIL 提供了新工具