跳转至

Towards Understanding Continual Factual Knowledge Acquisition of Language Models: From Theory to Algorithm

会议: ICML 2026
arXiv: 2605.10640
代码: https://github.com/WhyDwelledOnAi/continual_Factual_Knowledge_Acquision (有)
领域: 持续预训练 / 语言模型理论 / 灾难性遗忘
关键词: 持续预训练、灾难性遗忘、Transformer 训练动力学、数据回放、注意力归因

一句话总结

作者在简化单层线性注意力 Transformer 上推出闭式训练动力学,证明正则化方法只能改变收敛速度而无法挪动收敛点(因此在 cFKA 场景几乎注定失效),数据回放则能直接改变收敛点并加大震荡幅度从而稳住旧知识,进而提出按 token 注意力贡献裁切片段、引导预训练模型生成回放语料的 STOC,在合成 + KnowEdit + IndustryCorpus 法律语料上一致比 LAMOL 更能压制遗忘。

研究背景与动机

领域现状:LLM 在开放域预训练 (PT) 中已经积累了海量事实知识,但工业落地常常需要持续预训练 (CPT) 注入领域知识(如法律语料)或新事实。CPT 与传统持续学习一样会遭遇 catastrophic forgetting:旧知识在新数据的冲刷下被覆盖。

现有痛点:现有 CPT 缓解方案主要分两类——基于正则化 (EWC 等) 与基于数据回放 (replay / LAMOL)。在 LLM 上实验普遍发现正则化效果有限、回放即使比例很小也能显著缓解遗忘,但社区缺少一套统一的理论解释为什么——所以做工程时只能靠玄学调比例。

核心矛盾:连续 Factual Knowledge Acquisition (cFKA) 本质是"在共享 next-token-prediction 目标下,把同一 token 的输出分布往新事实那侧拉,又不能让旧事实那侧的概率塌掉",但学习率、token 频率、注意力分配的相对大小到底如何决定遗忘与否,缺乏一个 transformer-specific 的动力学描述。

本文目标:(a)给 cFKA 写一个可解析的训练动力学框架,刻画 \(\mathbf{Y}\)(类 FFN 知识存储)和 \(\mathbf{Z}\)(注意力)参数的演化;(b)用这套理论解释正则化为何失败、replay 为何起效;(c)从分析中导出一个 transformer 原生的、基于 token-level attention 的生成式 replay 方法 STOC,并在合成 + 真实场景上验证。

切入角度:参考 Allen-Zhu & Li 的"Physics of Language Models"系列,把事实表示成 (subject, relation, object) 三元组并喂给单层线性注意力 Transformer,再假设 \(\eta_Y \gg \eta_Z\)\(\mathbf{Z}\) 视为缓变,从而把多体非线性优化简化成可控的 Taylor 展开。

核心 idea:与其修补已有 CPT 算法,不如先从 transformer 训练动力学出发证明正则化是"动不了收敛点"的方法,而 replay 是"既能挪点又能放大震荡保旧"的方法;再用 token 注意力归因来挑选回放原料 → 让生成式 replay 真的产出包含旧知识的样本。

方法详解

整体框架

分析体系:把模型重参数化为 \(\mathbf{Y} := \mathbf{E}\mathbf{W}_O\mathbf{W}_V^\top \mathbf{E}^\top\)(类 FFN 的知识存储)和 \(\mathbf{Z} := \mathbf{E}\mathbf{W}_K\mathbf{W}_Q^\top \mathbf{E}^\top / \sqrt{d}\)(注意力),交叉熵优化下用 SGD 推 \(\mathbf{Y}\) 的演化定理与 \(\mathbf{Z}\) 的守恒量;接着把正则化和 replay 写入梯度方程,对比两者对收敛点、收敛速度、震荡幅度的影响;最后基于"注意力分数高的 token 携带更多事实信息"这个推论,设计 STOC:对每条 CPT 样本做一次前向得到 token-level 注意力分数 → 跨层求均 → 滑窗截取注意力最高的固定长度 snippet → 把它作为 prompt 喂给预训练 LM 生成 replay → MinHash 去重过滤 → 与新数据按比例 \(\alpha\) 混合喂给 CPT 流程。

关键设计

  1. 单层 Transformer 的 cFKA 训练动力学定理:

    • 功能:把 \(\mathbf{Y}\)\(\mathbf{Z}\) 的演化写成可解析的 Taylor 形式,给出收敛点、收敛速度、震荡幅度的明确表达式。
    • 核心思路:在 \(\eta_Y \gg \eta_Z\) 假设下,\(\mathbf{Y}\) 对损失凸,其参考最优解为 \(\mathbf{U}=\sum_{o,s}\frac{1}{a_s}[\ln \Pr(s\mid o) + \frac{1}{L}\ln \Pr(o)]\,\mathbf{x}_o\mathbf{x}_s^\top\)(即 Bayes 最优预测)。误差 \(\mathbf{e}_s(T) = \mathbf{y}_s(T)-\mathbf{u}_s\) 满足 \(\mathbf{e}_s(T) \approx [\prod_{t=1}^T (\mathbf{I}-\eta_Y z_s \delta_s(t)\tilde{\mathbf{H}}(t))]\mathbf{e}_s(0) + \sum_t \eta_Y z_s \delta_s(t) [\prod (\cdot)]\bm{\xi}(t)\),第一项指数衰减决定收敛速度(由 \(\tilde{\mathbf{H}}\) 的最大特征值控制),第二项是固定幅度震荡(由 \(\tilde{\mathbf{H}}\) 的最小正特征值控制)。同时 \(\mathbf{Z}\) 满足守恒律 \(\frac{d}{dt}[(\frac{z_s}{\eta_Z})^2 - \sum_o(\frac{y_{o,s}}{\eta_Y})^2] = 0\),导出 token \(s\) 的注意力由其 Diversity Index \(\mathrm{DI}(\overline{\mathbf{x}}_s) \propto -\sqrt{\eta_Z/\eta_Y}\sqrt[4]{\sum_o[\ln\Pr(s\mid o)+L^{-1}\ln\Pr(o)]^2}+C\) 决定——分布越窄、信息越独占的 token 注意力越高。
    • 设计动机:之前的 transformer 优化理论要么聚焦 ICL,要么忽略多 token 知识结构;本文专门面向"事实如何被各 token 分摊存储"这个问题,把训练动力学拆到 token 级,才能进一步在 CPT 改动里只动需要动的那个量。
  2. 正则化 / 数据回放的机制对比:

    • 功能:把两类 CPT 方法分别代入上述动力学,得出"正则化只能改速度、replay 能改收敛点 + 放大震荡"的可证明结论。
    • 核心思路:对 EWC 风格目标 \(\mathcal{L}=\mathcal{L}_{\text{new}}+\frac{k}{2}\sum_i w_i (\theta_i-\theta_i^*)^2\)\(\mathbf{e}_s(T)\) 多出一项 \(-\sum_t k\eta_Y[\prod(\cdot)]\,\tilde{\mathbf{u}}\),但它被 \(\lambda^+_{\min}(\mathrm{diag}(\mathbf{w}_s))=\min_o w_{o,s}\) 卡住——在事实知识只由 token-中的少数维度承担时,这个最小特征值小到几乎为零,于是收敛点几乎不变,只是速度变慢。对 replay,频率分布变成 \(\Pr(\mathbf{x}_s)=\frac{1-\alpha}{|\mathcal{O}_s^{\mathrm{old}}|}\sum_{o\in\mathcal{O}_s^{\mathrm{old}}}\mathbf{x}_o + \frac{\alpha}{|\mathcal{O}_s^{\mathrm{new}}|}\sum_{o\in\mathcal{O}_s^{\mathrm{new}}}\mathbf{x}_o\),第一项直接把旧知识写回收敛点;同时震荡项 \(\lambda^+_{\min}(\tilde{\mathbf{H}})\) 在新旧混合后被放大,给旧知识"提醒"作用。
    • 设计动机:实证早就知道"正则化没什么用、replay 哪怕 10% 也好用",但缺一个解释。这条理论把两类方法各自影响动力学的哪一项写得清清楚楚,从而预言:要彻底解决遗忘必须挪收敛点 → 必须走 replay 路线。
  3. STOC: Selecting Tokens via attentiOn Contribution:

    • 功能:在不存原始 PT 数据的前提下,从 CPT 样本里自动挑出"信息量最高、最可能触发旧知识"的 snippet,让预训练 LM 自己生成 replay。
    • 核心思路:(i)对每条 CPT 样本做一次 forward,取所有 layer × head 的注意力分数求均值得到 token-level 重要性 \(a_t\);(ii)以滑动窗口找连续段内 \(\sum_t a_t\) 最高的固定长度 snippet(典型 16–32 token);(iii)把该 snippet 当 prompt 喂给"预训练原模型"生成续写——根据动力学,注意力高的 token 是 Diversity Index 低、最能锁定一组旧事实的 token,于是续写出的内容大概率覆盖旧知识;(iv)MinHash 去重保证 replay 多样性;(v)以比例 \(\alpha\in\{0.5, 0.67, 0.8, 0.9\}\) 与 CPT 语料混合训练。
    • 设计动机:LAMOL 等用特殊 token 作 prompt 启动生成,没有利用 transformer 的注意力结构,生成内容容易远离原模型实际"会的"知识;STOC 用注意力把"模型实际在意的 token"直接当种子,等价于让模型沿着自己最熟悉的方向回忆,replay 质量明显更高。

损失函数 / 训练策略

基础 CPT 用 cross-entropy \(\mathcal{L} = -\mathrm{logit}(x_{T+2}\mid \mathbf{X}) + \log\sum_o \exp(\mathrm{logit}(x_o\mid \mathbf{X}))\)。在合成 Biography 实验里假设 \(\eta_Y \gg \eta_Z\) 做 SGD;在真实 LLM 实验中用 Pythia-160M / Qwen2.5-0.5B-1.7B,分别尝试全参数、rank-128 LoRA、冻结前 6 层三种更新策略。EWC 用 Fisher Information 估计参数重要性;STOC 与 LAMOL 都把新旧数据按 \(\alpha\) 混合后送 next-token loss。

实验关键数据

主实验

Pythia-160M 在 Biography 合成数据上的对比,"Original" 表示对旧(PT 阶段)知识的保留,"Continual" 表示新(CPT 阶段)的吸收,\(\alpha\) 为 CPT 数据混合比;越高越好。

配置 (\(\alpha\)) Replay Update Original sFTA Original EM Continual sFTA
0.5 Random Full 17.68 3.14 90.37
0.5 LAMOL Full 19.90 5.95 92.58
0.5 STOC Full 51.54 29.84 90.47
0.67 Random Freeze 21.02 6.43 91.67
0.67 LAMOL Freeze 21.69 9.47 92.62
0.67 STOC Freeze 53.80 32.83 92.04
0.9 LAMOL Freeze 18.88 7.58 92.06
0.9 STOC Freeze 40.54 21.62 91.96

消融实验

KnowEdit (ZSRE / Wiki_Bio / Wiki_Recent) 上 Qwen2.5-0.5B 的平均 soft token accuracy(越高越好):

方法 ZSRE Orig ZSRE Cont Wiki_Bio Orig Wiki_Bio Cont Wiki_Recent Orig Wiki_Recent Cont
Naive 34.58 63.28 32.33 35.50 19.28 28.42
LAMOL (\(\alpha{=}0.5\)) 37.54 58.37 31.29 34.49 20.48 27.19
STOC (\(\alpha{=}0.5\)) 37.12 62.26 35.57 35.46 21.40 28.75
STOC (\(\alpha{=}0.8\)) 37.47 62.59 35.28 33.16 20.12 27.34

法律领域 IndustryCorpus2 1B token 真实 CPT 评测(MMLU / MMLU-Redux-2.0 / SuperGPQA)上,STOC 在 0.6B 和 1.7B 模型上都比 LAMOL 高 1–4 个百分点,在 SuperGPQA 上 Continual 子集从 LAMOL 的 13.35% 提升到 15.85%。

关键发现

  • 即使 replay 比例只占 10%,模型也能保留显著旧知识——这与理论里"replay 直接改频率分布、挪收敛点"完全吻合。
  • 两种 replay 选取策略中,"每个个体保留一条传记"比"一半个体保留两条"效果更好,说明 replay 数据应广覆盖而非局部加深。
  • STOC 用注意力裁切的 snippet 当 prompt 优于随机 snippet(消融),证实 attention-based 选择是真因果而非启发式偶然。
  • 在合成 1-Aug 设定上(每人只生成 1 篇传记),LM 训练集 EM 87% 但测试集仅 8.85%,说明数据增强对泛化的关键作用——同时验证了 Diversity Index 理论:增强让 relation token 的 \(\overline{\mathbf{x}}_s\) 更均匀 → 注意力降低 → 模型更依赖 subject token → 跨模板泛化更好。
  • LoRA 在低 \(\alpha\) 时反而最糟,全参数和冻结前 6 层差异不大,提示对 cFKA 来说参数量限制比"动哪几层"更敏感。

亮点与洞察

  • "正则化在 LLM 上不灵"这一长期工程经验首次被一个干净的特征值论证解释:\(\lambda^+_{\min}(\mathrm{diag}(\mathbf{w}_s))\) 接近零意味着 regularization 项压根挪不动 \(\mathbf{y}_s\) 的收敛位置。这种"用动力学解释失败方法"的视角对其他持续学习场景同样适用。
  • Diversity Index 把 token 在事实表达中的角色量化到 \(\sqrt[4]{\sum_o[\ln\Pr(s\mid o)+L^{-1}\ln\Pr(o)]^2}\) 这种封闭形式上,并且与多层 LM 实测注意力强相关(Pearson \(<-0.8\)),值得迁移到 attention probing / interpretability 研究。
  • STOC 是个"零额外训练成本"的工程组件——只在原 forward 上多采集一次 attention,就能给现有 CPT pipeline 加上一个高质量 replay 来源;和 freezing / LoRA 都正交,可组合。

局限与展望

  • 理论建立在单层线性注意力 + structured-input 假设上,softmax / 多头 / 多层 / 多 stage 训练只是经验上得到呼应,没有形式化扩展。
  • 事实只用 (subject, relation, object) 三元组建模,对常识、链式推理、长上下文等知识形式覆盖有限。
  • STOC 选片段时只在 sequence 维度滑窗、跨层取均值,没探索 layer-specific 或 head-specific 的选择策略——可能存在更精的 attention 归因方法。
  • 真实场景实验最大模型只到 Qwen2.5-1.7B,对 10B+ 规模能否扩展、replay 比例与 model size 的标度律仍是开放问题。

相关工作与启发

  • vs LAMOL (Sun 2020):同样是生成式 replay,但 LAMOL 用 special token 作 prompt 让 LM 自由生成;STOC 用注意力归因找出真正"知识密度高"的 snippet,生成内容更贴近旧分布。
  • vs EWC (Kirkpatrick 2017):经典正则化方法;本文从特征值角度证明在 cFKA 下它注定只能"减速遗忘"而不能"抑制遗忘"。
  • vs Allen-Zhu & Li "Physics of LM" 系列:本文沿用同一类合成 Biography 任务和 hFTA/sFTA/EM 指标体系,但首次把训练动力学推到 CPT 阶段并据此设计新算法。

评分

  • 新颖性: ⭐⭐⭐⭐ 既给出针对 cFKA 的封闭形式动力学,又据此设计了 attention-based replay,理论 → 算法的链条很完整。
  • 实验充分度: ⭐⭐⭐⭐ 合成 + KnowEdit + IndustryCorpus 真实法律语料 + Pythia/Qwen 多规模 + 三种参数更新策略,覆盖到位但最大规模偏小。
  • 写作质量: ⭐⭐⭐⭐ 理论部分推导清晰,图 1 的"PT validate → CPT analyze → algorithm propose"路线图让长篇论文易读。
  • 价值: ⭐⭐⭐⭐ 对工业 CPT 团队是直接可用的工具(STOC 可即插即用),同时给出"为什么 EWC 没用"的可引用论证,理论 / 工程双价值。