CVPR 2026 LLM安全 weight prediction structured forgetting meta-learning hyper-model knowledge transfer scaling law pre-trained weights

Learning from Oblivion: Predicting Knowledge-Overflowed Weights via Retrodiction of Forgetting¶

会议: CVPR 2026
arXiv: 2508.05059
代码: jjh6297/KNOW
领域: 模型训练 / 权重预测 / 知识迁移
关键词: weight prediction, structured forgetting, meta-learning, hyper-model, knowledge transfer, scaling law, pre-trained weights

一句话总结¶

提出KNOW prediction：通过在逐步缩小的数据子集上sequential fine-tuning诱导结构化遗忘过程，收集权重转变轨迹，然后用meta-learned hyper-model（KNOWN）反转forgetting方向，预测"仿佛在更大数据集上训练"的虚拟知识增强权重。跨多数据集(CIFAR/ImageNet/PACS等)和多架构(ResNet/PVTv2/DeepLabV3+)持续超越naive fine-tuning及多种weight prediction基线，在图像分类、语义分割、图像描述、域泛化等下游任务上均有显著提升。

研究背景与动机¶

预训练权重是现代深度学习的基石，尤其在数据稀缺的few-shot场景中，好的预训练权重能显著提升下游任务表现。核心问题是：如何在不增加训练数据量的情况下，获得更好的预训练权重？

作者的思路基于三个关键洞察：

Scaling Law：更多训练数据通常产生更好的预训练权重(更好的泛化能力)。但大规模数据采集成本高昂，实践中往往受限

Fine-tuning导致遗忘：在子集数据上fine-tuning会覆盖模型对子集外数据的知识——这是catastrophic forgetting的经典表现，通常被视为缺陷

Fine-tuning过程可逆：已有unlearning研究表明fine-tuning在权重空间的变化具有一定可逆性；loss landscape的平滑性(mode connectivity)使得权重预测在理论上可行

核心创意：既然fine-tuning在缩小数据上→遗忘知识→权重退化是一个有结构的过程，那么反转这个过程→恢复知识→权重增强也是可行的。这将"遗忘"从缺陷转化为工具。

方法详解¶

整体框架¶

这篇工作想回答一个很实际的问题：能不能不增加训练数据，就拿到「仿佛在更大数据集上训出来」的更好预训练权重？它的破题点是把 catastrophic forgetting 反过来用——既然在逐步缩小的数据上反复 fine-tuning 会让权重沿一条有结构的轨迹「退化遗忘」，那么观察这条退化轨迹、再把方向反转，就能外推出「知识溢出」的增强权重。形式化地说：给定在 \(D_0\) 上预训练的 \(\Theta_0\)，先人为制造一段遗忘轨迹 \([\Theta_0, \Theta_1, \ldots, \Theta_{S-1}]\)，再假设存在一个对应「更大数据集 \(D_{-1} \supset D_0\)」的理想权重 \(\Theta_{-1}\)（fine-tuning 它在 \(D_0\) 上恰好得到 \(\Theta_0\)），用一个学过「遗忘长什么样」的 hyper-model 反向预测出 \(\hat{\Theta}_{-1}\)，这就是 KNOW（Knowledge-Overflowed Weights）prediction。整条流水线串成「造遗忘轨迹 → 反向预测增强权重 → 递归外推 → 迁移下游」四步：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["预训练权重 Θ₀（在 D₀ 上）"] --> FORGET
    subgraph FORGET["结构化遗忘诱导"]
        direction TB
        B["在嵌套子集 D₁⊂D₀, D₂⊂D₁ …<br/>上逐步 fine-tune"] --> C["遗忘轨迹<br/>[Θ₀, Θ₁, …, Θ_S−1]"]
    end
    FORGET --> D["KNOWN 超模型<br/>输入权重历史 Wₜ + 差分 dWₜ<br/>预测残差并叠加回当前权重"]
    D --> E["增强权重 Θ̂₋₁<br/>（≈×2 虚拟数据量）"]
    E -->|"迭代多步预测：接回历史递归外推"| D
    E --> F["迁移到下游任务<br/>分类 / 分割 / 描述 / 域泛化"]

关键设计¶

1. 结构化遗忘诱导：人为造一段「退化轨迹」给模型看

要反转遗忘，得先有一条干净、有结构的遗忘轨迹。做法是从完整数据集 \(D_0\) 出发，按采样率 \(r \in [0,1]\) 逐步构造嵌套子集 \(D_S \subset D_{S-1} \subset \cdots \subset D_1 \subset D_0\)（\(D_1 = r\cdot D_0\)，\(D_2 = r\cdot D_1\)……），在每个更小的子集上 fine-tuning 上一步的权重，得到序列 \(\Theta_0 \xrightarrow{D_1} \Theta_1 \xrightarrow{D_2} \Theta_2 \cdots\)。每一步遗忘的知识量都和数据缩减量挂钩，所以这段轨迹是「有结构」的而非随机漂移。loss landscape 的 PCA 可视化显示这些权重串成一条平滑曲线、周围是连续的高精度区域，这正是「可以沿轨迹外推」的前提。

2. KNOWN 超模型：学会「遗忘的逆运算」

KNOWN（Knowledge-Overflowed Weights Nowcaster）是一个仅 9,425 参数的轻量 meta-trained hyper-model，基于 WNN 的 two-stream MLP。它吃两路输入——权重历史 \(W_t = [\theta_0, \theta_1, \ldots, \theta_{S-1}]\) 和它们的差分 \(dW_t = [\theta_1 - \theta_0, \ldots, \theta_{S-1} - \theta_{S-2}]\)（取 \(S=5\)）——输出一个权重残差，叠加回当前权重得到增强权重：

\[\hat{\theta}^{t-1} = \theta^t + \text{KNOWN}(W_t, dW_t)\]

因为 Conv / FC / Bias 三类参数的演化模式不同，KNOWN 按参数类型分别训练三个专用模型 \([\text{KNOWN}_{\text{Conv}}, \text{KNOWN}_{\text{FC}}, \text{KNOWN}_{\text{Bias}}]\)。它非线性地建模整条轨迹，这也是它比 TaskVector 那种线性外推更稳的原因。

3. 迭代多步预测：把外推再往前推

如果第一步预测出的 \(\hat{\Theta}_{-1}\) 足够可靠，就能把它接回历史 \([\hat{\Theta}_{-1}, \Theta_0, \Theta_1, \ldots, \Theta_{S-2}]\) 去预测 \(\hat{\Theta}_{-2}\)，如此递归。当 \(r=0.5\) 时，\(\hat{\Theta}_{-1}\)、\(\hat{\Theta}_{-2}\)、\(\hat{\Theta}_{-3}\) 分别对应 ×2、×4、×8 的虚拟数据量增强。能一直递归而性能不崩，本身就反过来证明了预测权重的质量够高。

一个完整示例¶

以 ResNet18 从 CIFAR100 迁移到 CIFAR10 为例（\(r=0.5\)，\(S=5\)）：先在逐步减半的子集上 fine-tune 出 \([\Theta_0, \ldots, \Theta_4]\) 这条遗忘轨迹，naive 迁移的 baseline 精度是 92.40。把轨迹喂给 KNOWN 预测 \(\hat{\Theta}_{-1}\)（≈×2 数据），精度升到 93.00；再递归预测到 ×4 得 93.27、×8 得 93.55。值得注意的是，仅用 50% 数据走这套流程（92.58）就已经超过了用 100% 数据的 baseline（92.40）——多出来的性能完全来自对遗忘轨迹的反向外推，而非额外数据。

损失函数 / 训练策略¶

KNOWN 的 meta-training 目标是 \(\ell_1\) 残差最小化 \(\|(\theta^t + \text{KNOWN}(W_t, dW_t)) - \theta^{t-1}\|_1\)，训练数据是多种小模型（CNN/ResNet/DenseNet/ShuffleNet/MobileNetV2，均 <3M 参数）在 CIFAR10/MNIST/FashionMNIST 上的权重轨迹（约 50GB）。一旦训完就无需针对新实验重训，直接泛化到所有下游设置。推理成本极低——预测 ResNet18 全部参数仅需约 3 秒（每参数 \(2.67 \times 10^{-7}\) 秒）；制造遗忘轨迹的额外训练开销为原始训练的 \(\frac{1-r^{S-1}}{1-r}\) 倍。

实验关键数据¶

图像分类（ResNet18, CIFAR100→CIFAR10）¶

方法	预测步数	100%数据	50%数据	25%数据
Naïve Transfer	1	92.40	92.08	—
KNOWN	×2	93.00±0.11	92.58±0.14	92.29±0.04
KNOWN	×4	93.27±0.09	92.62±0.25	92.88±0.11
KNOWN	×8	93.55±0.05	93.11±0.19	92.92±0.15

KNOWN在50%数据(92.58)上就超越了100%数据的baseline(92.40)，且迭代预测(×8)进一步提升至93.55。其他方法（LogFit/TaskVector/TSV等）有时反而降低性能。

跨架构跨数据集（PVTv2, ImageNet预训练→5个下游数据集）¶

在CIFAR100/TinyImageNet/Stanford Cars/CUB/Oxford Flowers上，KNOWN均获得一致提升。以×3预测为例：CIFAR100 82.46(↑)、TinyImageNet 77.53(↑)、CUB 71.18(↑)。

域泛化（PACS, Leave-One-Domain-Out）¶

方法	art	sketch	cartoon	photo	平均
Naïve Transfer	—	—	—	—	63.48
KNOWN (×3)	72.12	44.11	62.73	93.87	68.21
KNOWN (×9)	72.07	44.02	64.28	92.98	68.33

平均精度从63.48提升至68.33，提升约5个百分点。

语义分割（DeepLabV3+, Pascal VOC→Cityscapes）¶

方法	mIoU
Naïve Transfer	baseline
KNOWN (×3)	69.00±1.04 (↑)
KNOWN (×9)	71.22±0.82 (↑)

TaskVector在×9时反而低于baseline，而KNOWN稳定提升。

图像描述（PVTv2 + Transformer decoder, Flickr8K）¶

KNOWN将masked accuracy从baseline提升约2.2%（39.38 vs ~37.2），证明在跨模态任务中也有效。

消融实验（\(S\)的影响）¶

S	×2精度	×4精度	×8精度
2 (≈TaskVector)	92.69	92.70	92.65
3	93.01	93.04	92.72
4	92.97	93.10	92.89
5	93.00	93.27	93.55

更长的forgetting序列(\(S=5\))提供更丰富的轨迹信息，特别是在多步迭代预测时优势更大。

亮点与洞察¶

将遗忘从缺陷转化为工具：catastrophic forgetting长期被视为深度学习的顽疾，本文首次将其有意诱导并反转，作为知识增强的手段。这一视角转换极具创意
KNOWN极度轻量：仅9,425参数的hyper-model，一次meta-training后无需再训练即可跨架构(CNN/ViT)、跨数据集、跨任务(分类/分割/描述/域泛化)使用——泛化能力惊人
权重预测推理几乎零成本：预测ResNet18全部参数仅需3秒，相比数小时的训练时间完全可忽略
不依赖额外数据：不像数据增强或知识蒸馏需要额外资源，KNOW仅利用现有数据的forgetting结构即可"虚拟扩展"训练数据的效果
loss landscape可视化提供了直觉验证：PCA投影下forgetting轨迹的平滑性和预测权重的准确定位，为方法的可行性提供了直观证据

局限与展望¶

大规模模型验证缺失：实验最大模型为PVTv2（~25M参数），未验证在ViT-Large/LLM等百万级以上参数模型上的效果。随模型规模增大，权重空间的结构是否仍然平滑有待验证
meta-training数据集限制：KNOWN仅在<3M参数的小模型上meta-train，虽然实验表明可泛化到PVTv2，但跨越更大的规模差距时泛化性能是否保持未知
采样率\(r\)的选择：论文中\(r=0.5\)和\(r=0.33\)表现都不错，但缺乏系统的\(r\)选择指南。过小的\(r\)导致每步遗忘过多，过大的\(r\)则轨迹变化不显著
仅验证了视觉任务：虽然涵盖分类/分割/描述/域泛化，但全部为视觉领域。NLP/语音等模态的权重演化模式可能不同
与现代训练范式的兼容性：未讨论与LoRA/Adapter等参数高效微调方法的结合，也未涉及预训练阶段本身的应用（仅用于预训练后的增强）

评分¶

维度	分数 (1-5)	说明
创新性	4.5	反转forgetting的思路极具创意，从"缺陷→工具"的视角转换是真正的paradigm shift
实用性	4.0	KNOWN轻量、泛化好、推理成本几乎为零，工程落地门槛低
实验充分度	4.0	多架构多数据集多任务验证完整，消融清晰，但缺少大规模模型和NLP实验
写作质量	4.0	问题定义清晰，数学形式化合理，landscape可视化直观，部分表格数值因模板渲染问题不够清晰