Learning from Oblivion: Predicting Knowledge-Overflowed Weights via Retrodiction of Forgetting¶
会议: CVPR 2026
arXiv: 2508.05059
代码: jjh6297/KNOW
领域: 模型训练 / 权重预测 / 知识迁移
关键词: weight prediction, structured forgetting, meta-learning, hyper-model, knowledge transfer, scaling law, pre-trained weights
一句话总结¶
提出KNOW prediction:通过在逐步缩小的数据子集上sequential fine-tuning诱导结构化遗忘过程,收集权重转变轨迹,然后用meta-learned hyper-model(KNOWN)反转forgetting方向,预测"仿佛在更大数据集上训练"的虚拟知识增强权重。跨多数据集(CIFAR/ImageNet/PACS等)和多架构(ResNet/PVTv2/DeepLabV3+)持续超越naive fine-tuning及多种weight prediction基线,在图像分类、语义分割、图像描述、域泛化等下游任务上均有显著提升。
研究背景与动机¶
预训练权重是现代深度学习的基石,尤其在数据稀缺的few-shot场景中,好的预训练权重能显著提升下游任务表现。核心问题是:如何在不增加训练数据量的情况下,获得更好的预训练权重?
作者的思路基于三个关键洞察:
Scaling Law:更多训练数据通常产生更好的预训练权重(更好的泛化能力)。但大规模数据采集成本高昂,实践中往往受限
Fine-tuning导致遗忘:在子集数据上fine-tuning会覆盖模型对子集外数据的知识——这是catastrophic forgetting的经典表现,通常被视为缺陷
Fine-tuning过程可逆:已有unlearning研究表明fine-tuning在权重空间的变化具有一定可逆性;loss landscape的平滑性(mode connectivity)使得权重预测在理论上可行
核心创意:既然fine-tuning在缩小数据上→遗忘知识→权重退化是一个有结构的过程,那么反转这个过程→恢复知识→权重增强也是可行的。这将"遗忘"从缺陷转化为工具。
方法详解¶
整体框架¶
这篇工作想回答一个很实际的问题:能不能不增加训练数据,就拿到「仿佛在更大数据集上训出来」的更好预训练权重?它的破题点是把 catastrophic forgetting 反过来用——既然在逐步缩小的数据上反复 fine-tuning 会让权重沿一条有结构的轨迹「退化遗忘」,那么观察这条退化轨迹、再把方向反转,就能外推出「知识溢出」的增强权重。形式化地说:给定在 \(D_0\) 上预训练的 \(\Theta_0\),先人为制造一段遗忘轨迹 \([\Theta_0, \Theta_1, \ldots, \Theta_{S-1}]\),再假设存在一个对应「更大数据集 \(D_{-1} \supset D_0\)」的理想权重 \(\Theta_{-1}\)(fine-tuning 它在 \(D_0\) 上恰好得到 \(\Theta_0\)),用一个学过「遗忘长什么样」的 hyper-model 反向预测出 \(\hat{\Theta}_{-1}\),这就是 KNOW(Knowledge-Overflowed Weights)prediction。整条流水线串成「造遗忘轨迹 → 反向预测增强权重 → 递归外推 → 迁移下游」四步:
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["预训练权重 Θ₀(在 D₀ 上)"] --> FORGET
subgraph FORGET["结构化遗忘诱导"]
direction TB
B["在嵌套子集 D₁⊂D₀, D₂⊂D₁ …<br/>上逐步 fine-tune"] --> C["遗忘轨迹<br/>[Θ₀, Θ₁, …, Θ_S−1]"]
end
FORGET --> D["KNOWN 超模型<br/>输入权重历史 Wₜ + 差分 dWₜ<br/>预测残差并叠加回当前权重"]
D --> E["增强权重 Θ̂₋₁<br/>(≈×2 虚拟数据量)"]
E -->|"迭代多步预测:接回历史递归外推"| D
E --> F["迁移到下游任务<br/>分类 / 分割 / 描述 / 域泛化"]
关键设计¶
1. 结构化遗忘诱导:人为造一段「退化轨迹」给模型看
要反转遗忘,得先有一条干净、有结构的遗忘轨迹。做法是从完整数据集 \(D_0\) 出发,按采样率 \(r \in [0,1]\) 逐步构造嵌套子集 \(D_S \subset D_{S-1} \subset \cdots \subset D_1 \subset D_0\)(\(D_1 = r\cdot D_0\),\(D_2 = r\cdot D_1\)……),在每个更小的子集上 fine-tuning 上一步的权重,得到序列 \(\Theta_0 \xrightarrow{D_1} \Theta_1 \xrightarrow{D_2} \Theta_2 \cdots\)。每一步遗忘的知识量都和数据缩减量挂钩,所以这段轨迹是「有结构」的而非随机漂移。loss landscape 的 PCA 可视化显示这些权重串成一条平滑曲线、周围是连续的高精度区域,这正是「可以沿轨迹外推」的前提。
2. KNOWN 超模型:学会「遗忘的逆运算」
KNOWN(Knowledge-Overflowed Weights Nowcaster)是一个仅 9,425 参数的轻量 meta-trained hyper-model,基于 WNN 的 two-stream MLP。它吃两路输入——权重历史 \(W_t = [\theta_0, \theta_1, \ldots, \theta_{S-1}]\) 和它们的差分 \(dW_t = [\theta_1 - \theta_0, \ldots, \theta_{S-1} - \theta_{S-2}]\)(取 \(S=5\))——输出一个权重残差,叠加回当前权重得到增强权重:
因为 Conv / FC / Bias 三类参数的演化模式不同,KNOWN 按参数类型分别训练三个专用模型 \([\text{KNOWN}_{\text{Conv}}, \text{KNOWN}_{\text{FC}}, \text{KNOWN}_{\text{Bias}}]\)。它非线性地建模整条轨迹,这也是它比 TaskVector 那种线性外推更稳的原因。
3. 迭代多步预测:把外推再往前推
如果第一步预测出的 \(\hat{\Theta}_{-1}\) 足够可靠,就能把它接回历史 \([\hat{\Theta}_{-1}, \Theta_0, \Theta_1, \ldots, \Theta_{S-2}]\) 去预测 \(\hat{\Theta}_{-2}\),如此递归。当 \(r=0.5\) 时,\(\hat{\Theta}_{-1}\)、\(\hat{\Theta}_{-2}\)、\(\hat{\Theta}_{-3}\) 分别对应 ×2、×4、×8 的虚拟数据量增强。能一直递归而性能不崩,本身就反过来证明了预测权重的质量够高。
一个完整示例¶
以 ResNet18 从 CIFAR100 迁移到 CIFAR10 为例(\(r=0.5\),\(S=5\)):先在逐步减半的子集上 fine-tune 出 \([\Theta_0, \ldots, \Theta_4]\) 这条遗忘轨迹,naive 迁移的 baseline 精度是 92.40。把轨迹喂给 KNOWN 预测 \(\hat{\Theta}_{-1}\)(≈×2 数据),精度升到 93.00;再递归预测到 ×4 得 93.27、×8 得 93.55。值得注意的是,仅用 50% 数据走这套流程(92.58)就已经超过了用 100% 数据的 baseline(92.40)——多出来的性能完全来自对遗忘轨迹的反向外推,而非额外数据。
损失函数 / 训练策略¶
KNOWN 的 meta-training 目标是 \(\ell_1\) 残差最小化 \(\|(\theta^t + \text{KNOWN}(W_t, dW_t)) - \theta^{t-1}\|_1\),训练数据是多种小模型(CNN/ResNet/DenseNet/ShuffleNet/MobileNetV2,均 <3M 参数)在 CIFAR10/MNIST/FashionMNIST 上的权重轨迹(约 50GB)。一旦训完就无需针对新实验重训,直接泛化到所有下游设置。推理成本极低——预测 ResNet18 全部参数仅需约 3 秒(每参数 \(2.67 \times 10^{-7}\) 秒);制造遗忘轨迹的额外训练开销为原始训练的 \(\frac{1-r^{S-1}}{1-r}\) 倍。
实验关键数据¶
图像分类(ResNet18, CIFAR100→CIFAR10)¶
| 方法 | 预测步数 | 100%数据 | 50%数据 | 25%数据 |
|---|---|---|---|---|
| Naïve Transfer | 1 | 92.40 | 92.08 | — |
| KNOWN | ×2 | 93.00±0.11 | 92.58±0.14 | 92.29±0.04 |
| KNOWN | ×4 | 93.27±0.09 | 92.62±0.25 | 92.88±0.11 |
| KNOWN | ×8 | 93.55±0.05 | 93.11±0.19 | 92.92±0.15 |
KNOWN在50%数据(92.58)上就超越了100%数据的baseline(92.40),且迭代预测(×8)进一步提升至93.55。其他方法(LogFit/TaskVector/TSV等)有时反而降低性能。
跨架构跨数据集(PVTv2, ImageNet预训练→5个下游数据集)¶
在CIFAR100/TinyImageNet/Stanford Cars/CUB/Oxford Flowers上,KNOWN均获得一致提升。以×3预测为例:CIFAR100 82.46(↑)、TinyImageNet 77.53(↑)、CUB 71.18(↑)。
域泛化(PACS, Leave-One-Domain-Out)¶
| 方法 | art | sketch | cartoon | photo | 平均 |
|---|---|---|---|---|---|
| Naïve Transfer | — | — | — | — | 63.48 |
| KNOWN (×3) | 72.12 | 44.11 | 62.73 | 93.87 | 68.21 |
| KNOWN (×9) | 72.07 | 44.02 | 64.28 | 92.98 | 68.33 |
平均精度从63.48提升至68.33,提升约5个百分点。
语义分割(DeepLabV3+, Pascal VOC→Cityscapes)¶
| 方法 | mIoU |
|---|---|
| Naïve Transfer | baseline |
| KNOWN (×3) | 69.00±1.04 (↑) |
| KNOWN (×9) | 71.22±0.82 (↑) |
TaskVector在×9时反而低于baseline,而KNOWN稳定提升。
图像描述(PVTv2 + Transformer decoder, Flickr8K)¶
KNOWN将masked accuracy从baseline提升约2.2%(39.38 vs ~37.2),证明在跨模态任务中也有效。
消融实验(\(S\)的影响)¶
| S | ×2精度 | ×4精度 | ×8精度 |
|---|---|---|---|
| 2 (≈TaskVector) | 92.69 | 92.70 | 92.65 |
| 3 | 93.01 | 93.04 | 92.72 |
| 4 | 92.97 | 93.10 | 92.89 |
| 5 | 93.00 | 93.27 | 93.55 |
更长的forgetting序列(\(S=5\))提供更丰富的轨迹信息,特别是在多步迭代预测时优势更大。
亮点与洞察¶
- 将遗忘从缺陷转化为工具:catastrophic forgetting长期被视为深度学习的顽疾,本文首次将其有意诱导并反转,作为知识增强的手段。这一视角转换极具创意
- KNOWN极度轻量:仅9,425参数的hyper-model,一次meta-training后无需再训练即可跨架构(CNN/ViT)、跨数据集、跨任务(分类/分割/描述/域泛化)使用——泛化能力惊人
- 权重预测推理几乎零成本:预测ResNet18全部参数仅需3秒,相比数小时的训练时间完全可忽略
- 不依赖额外数据:不像数据增强或知识蒸馏需要额外资源,KNOW仅利用现有数据的forgetting结构即可"虚拟扩展"训练数据的效果
- loss landscape可视化提供了直觉验证:PCA投影下forgetting轨迹的平滑性和预测权重的准确定位,为方法的可行性提供了直观证据
局限与展望¶
- 大规模模型验证缺失:实验最大模型为PVTv2(~25M参数),未验证在ViT-Large/LLM等百万级以上参数模型上的效果。随模型规模增大,权重空间的结构是否仍然平滑有待验证
- meta-training数据集限制:KNOWN仅在<3M参数的小模型上meta-train,虽然实验表明可泛化到PVTv2,但跨越更大的规模差距时泛化性能是否保持未知
- 采样率\(r\)的选择:论文中\(r=0.5\)和\(r=0.33\)表现都不错,但缺乏系统的\(r\)选择指南。过小的\(r\)导致每步遗忘过多,过大的\(r\)则轨迹变化不显著
- 仅验证了视觉任务:虽然涵盖分类/分割/描述/域泛化,但全部为视觉领域。NLP/语音等模态的权重演化模式可能不同
- 与现代训练范式的兼容性:未讨论与LoRA/Adapter等参数高效微调方法的结合,也未涉及预训练阶段本身的应用(仅用于预训练后的增强)
相关工作与启发¶
- WNN (ICML 2023):同一作者组的前作,周期性权重预测加速训练→本文将WNN扩展到跨数据集规模的KNOW prediction
- Task Arithmetic (ICLR 2023):通过任务向量线性运算编辑模型→本文证实线性外推(TaskVector)在forgetting轨迹上效果不稳定,KNOWN的非线性建模更可靠
- Model Soups / Weight Averaging:多个fine-tuned模型的权重平均→与KNOW的区别在于KNOW从序列轨迹外推而非从多个终态混合
- Scaling Law研究:本文可视为"在不增加数据量的情况下间接利用Scaling Law"的实现路径
- 启发:KNOW框架可能扩展到其他"有结构的退化过程":如模型剪枝的反转(从稀疏→预测密集)、量化的反转(从低精度→预测高精度权重)
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 创新性 | 4.5 | 反转forgetting的思路极具创意,从"缺陷→工具"的视角转换是真正的paradigm shift |
| 实用性 | 4.0 | KNOWN轻量、泛化好、推理成本几乎为零,工程落地门槛低 |
| 实验充分度 | 4.0 | 多架构多数据集多任务验证完整,消融清晰,但缺少大规模模型和NLP实验 |
| 写作质量 | 4.0 | 问题定义清晰,数学形式化合理,landscape可视化直观,部分表格数值因模板渲染问题不够清晰 |