Towards Understanding Continual Factual Knowledge Acquisition of Language Models: From Theory to Algorithm¶
会议: ICML 2026
arXiv: 2605.10640
代码: https://github.com/WhyDwelledOnAi/continual_Factual_Knowledge_Acquision (有)
领域: 持续预训练 / 语言模型理论 / 灾难性遗忘
关键词: 持续预训练、灾难性遗忘、Transformer 训练动力学、数据回放、注意力归因
一句话总结¶
作者在简化单层线性注意力 Transformer 上推出闭式训练动力学,证明正则化方法只能改变收敛速度而无法挪动收敛点(因此在 cFKA 场景几乎注定失效),数据回放则能直接改变收敛点并加大震荡幅度从而稳住旧知识,进而提出按 token 注意力贡献裁切片段、引导预训练模型生成回放语料的 STOC,在合成 + KnowEdit + IndustryCorpus 法律语料上一致比 LAMOL 更能压制遗忘。
研究背景与动机¶
领域现状:LLM 在开放域预训练 (PT) 中已经积累了海量事实知识,但工业落地常常需要持续预训练 (CPT) 注入领域知识(如法律语料)或新事实。CPT 与传统持续学习一样会遭遇 catastrophic forgetting:旧知识在新数据的冲刷下被覆盖。
现有痛点:现有 CPT 缓解方案主要分两类——基于正则化 (EWC 等) 与基于数据回放 (replay / LAMOL)。在 LLM 上实验普遍发现正则化效果有限、回放即使比例很小也能显著缓解遗忘,但社区缺少一套统一的理论解释为什么——所以做工程时只能靠玄学调比例。
核心矛盾:连续 Factual Knowledge Acquisition (cFKA) 本质是"在共享 next-token-prediction 目标下,把同一 token 的输出分布往新事实那侧拉,又不能让旧事实那侧的概率塌掉",但学习率、token 频率、注意力分配的相对大小到底如何决定遗忘与否,缺乏一个 transformer-specific 的动力学描述。
本文目标:(a)给 cFKA 写一个可解析的训练动力学框架,刻画 \(\mathbf{Y}\)(类 FFN 知识存储)和 \(\mathbf{Z}\)(注意力)参数的演化;(b)用这套理论解释正则化为何失败、replay 为何起效;(c)从分析中导出一个 transformer 原生的、基于 token-level attention 的生成式 replay 方法 STOC,并在合成 + 真实场景上验证。
切入角度:参考 Allen-Zhu & Li 的"Physics of Language Models"系列,把事实表示成 (subject, relation, object) 三元组并喂给单层线性注意力 Transformer,再假设 \(\eta_Y \gg \eta_Z\) 把 \(\mathbf{Z}\) 视为缓变,从而把多体非线性优化简化成可控的 Taylor 展开。
核心 idea:与其修补已有 CPT 算法,不如先从 transformer 训练动力学出发证明正则化是"动不了收敛点"的方法,而 replay 是"既能挪点又能放大震荡保旧"的方法;再用 token 注意力归因来挑选回放原料 → 让生成式 replay 真的产出包含旧知识的样本。
方法详解¶
整体框架¶
分析体系:把模型重参数化为 \(\mathbf{Y} := \mathbf{E}\mathbf{W}_O\mathbf{W}_V^\top \mathbf{E}^\top\)(类 FFN 的知识存储)和 \(\mathbf{Z} := \mathbf{E}\mathbf{W}_K\mathbf{W}_Q^\top \mathbf{E}^\top / \sqrt{d}\)(注意力),交叉熵优化下用 SGD 推 \(\mathbf{Y}\) 的演化定理与 \(\mathbf{Z}\) 的守恒量;接着把正则化和 replay 写入梯度方程,对比两者对收敛点、收敛速度、震荡幅度的影响;最后基于"注意力分数高的 token 携带更多事实信息"这个推论,设计 STOC:对每条 CPT 样本做一次前向得到 token-level 注意力分数 → 跨层求均 → 滑窗截取注意力最高的固定长度 snippet → 把它作为 prompt 喂给预训练 LM 生成 replay → MinHash 去重过滤 → 与新数据按比例 \(\alpha\) 混合喂给 CPT 流程。
关键设计¶
-
单层 Transformer 的 cFKA 训练动力学定理:
- 功能:把 \(\mathbf{Y}\) 和 \(\mathbf{Z}\) 的演化写成可解析的 Taylor 形式,给出收敛点、收敛速度、震荡幅度的明确表达式。
- 核心思路:在 \(\eta_Y \gg \eta_Z\) 假设下,\(\mathbf{Y}\) 对损失凸,其参考最优解为 \(\mathbf{U}=\sum_{o,s}\frac{1}{a_s}[\ln \Pr(s\mid o) + \frac{1}{L}\ln \Pr(o)]\,\mathbf{x}_o\mathbf{x}_s^\top\)(即 Bayes 最优预测)。误差 \(\mathbf{e}_s(T) = \mathbf{y}_s(T)-\mathbf{u}_s\) 满足 \(\mathbf{e}_s(T) \approx [\prod_{t=1}^T (\mathbf{I}-\eta_Y z_s \delta_s(t)\tilde{\mathbf{H}}(t))]\mathbf{e}_s(0) + \sum_t \eta_Y z_s \delta_s(t) [\prod (\cdot)]\bm{\xi}(t)\),第一项指数衰减决定收敛速度(由 \(\tilde{\mathbf{H}}\) 的最大特征值控制),第二项是固定幅度震荡(由 \(\tilde{\mathbf{H}}\) 的最小正特征值控制)。同时 \(\mathbf{Z}\) 满足守恒律 \(\frac{d}{dt}[(\frac{z_s}{\eta_Z})^2 - \sum_o(\frac{y_{o,s}}{\eta_Y})^2] = 0\),导出 token \(s\) 的注意力由其 Diversity Index \(\mathrm{DI}(\overline{\mathbf{x}}_s) \propto -\sqrt{\eta_Z/\eta_Y}\sqrt[4]{\sum_o[\ln\Pr(s\mid o)+L^{-1}\ln\Pr(o)]^2}+C\) 决定——分布越窄、信息越独占的 token 注意力越高。
- 设计动机:之前的 transformer 优化理论要么聚焦 ICL,要么忽略多 token 知识结构;本文专门面向"事实如何被各 token 分摊存储"这个问题,把训练动力学拆到 token 级,才能进一步在 CPT 改动里只动需要动的那个量。
-
正则化 / 数据回放的机制对比:
- 功能:把两类 CPT 方法分别代入上述动力学,得出"正则化只能改速度、replay 能改收敛点 + 放大震荡"的可证明结论。
- 核心思路:对 EWC 风格目标 \(\mathcal{L}=\mathcal{L}_{\text{new}}+\frac{k}{2}\sum_i w_i (\theta_i-\theta_i^*)^2\),\(\mathbf{e}_s(T)\) 多出一项 \(-\sum_t k\eta_Y[\prod(\cdot)]\,\tilde{\mathbf{u}}\),但它被 \(\lambda^+_{\min}(\mathrm{diag}(\mathbf{w}_s))=\min_o w_{o,s}\) 卡住——在事实知识只由 token-中的少数维度承担时,这个最小特征值小到几乎为零,于是收敛点几乎不变,只是速度变慢。对 replay,频率分布变成 \(\Pr(\mathbf{x}_s)=\frac{1-\alpha}{|\mathcal{O}_s^{\mathrm{old}}|}\sum_{o\in\mathcal{O}_s^{\mathrm{old}}}\mathbf{x}_o + \frac{\alpha}{|\mathcal{O}_s^{\mathrm{new}}|}\sum_{o\in\mathcal{O}_s^{\mathrm{new}}}\mathbf{x}_o\),第一项直接把旧知识写回收敛点;同时震荡项 \(\lambda^+_{\min}(\tilde{\mathbf{H}})\) 在新旧混合后被放大,给旧知识"提醒"作用。
- 设计动机:实证早就知道"正则化没什么用、replay 哪怕 10% 也好用",但缺一个解释。这条理论把两类方法各自影响动力学的哪一项写得清清楚楚,从而预言:要彻底解决遗忘必须挪收敛点 → 必须走 replay 路线。
-
STOC: Selecting Tokens via attentiOn Contribution:
- 功能:在不存原始 PT 数据的前提下,从 CPT 样本里自动挑出"信息量最高、最可能触发旧知识"的 snippet,让预训练 LM 自己生成 replay。
- 核心思路:(i)对每条 CPT 样本做一次 forward,取所有 layer × head 的注意力分数求均值得到 token-level 重要性 \(a_t\);(ii)以滑动窗口找连续段内 \(\sum_t a_t\) 最高的固定长度 snippet(典型 16–32 token);(iii)把该 snippet 当 prompt 喂给"预训练原模型"生成续写——根据动力学,注意力高的 token 是 Diversity Index 低、最能锁定一组旧事实的 token,于是续写出的内容大概率覆盖旧知识;(iv)MinHash 去重保证 replay 多样性;(v)以比例 \(\alpha\in\{0.5, 0.67, 0.8, 0.9\}\) 与 CPT 语料混合训练。
- 设计动机:LAMOL 等用特殊 token 作 prompt 启动生成,没有利用 transformer 的注意力结构,生成内容容易远离原模型实际"会的"知识;STOC 用注意力把"模型实际在意的 token"直接当种子,等价于让模型沿着自己最熟悉的方向回忆,replay 质量明显更高。
损失函数 / 训练策略¶
基础 CPT 用 cross-entropy \(\mathcal{L} = -\mathrm{logit}(x_{T+2}\mid \mathbf{X}) + \log\sum_o \exp(\mathrm{logit}(x_o\mid \mathbf{X}))\)。在合成 Biography 实验里假设 \(\eta_Y \gg \eta_Z\) 做 SGD;在真实 LLM 实验中用 Pythia-160M / Qwen2.5-0.5B-1.7B,分别尝试全参数、rank-128 LoRA、冻结前 6 层三种更新策略。EWC 用 Fisher Information 估计参数重要性;STOC 与 LAMOL 都把新旧数据按 \(\alpha\) 混合后送 next-token loss。
实验关键数据¶
主实验¶
Pythia-160M 在 Biography 合成数据上的对比,"Original" 表示对旧(PT 阶段)知识的保留,"Continual" 表示新(CPT 阶段)的吸收,\(\alpha\) 为 CPT 数据混合比;越高越好。
| 配置 (\(\alpha\)) | Replay | Update | Original sFTA | Original EM | Continual sFTA |
|---|---|---|---|---|---|
| 0.5 | Random | Full | 17.68 | 3.14 | 90.37 |
| 0.5 | LAMOL | Full | 19.90 | 5.95 | 92.58 |
| 0.5 | STOC | Full | 51.54 | 29.84 | 90.47 |
| 0.67 | Random | Freeze | 21.02 | 6.43 | 91.67 |
| 0.67 | LAMOL | Freeze | 21.69 | 9.47 | 92.62 |
| 0.67 | STOC | Freeze | 53.80 | 32.83 | 92.04 |
| 0.9 | LAMOL | Freeze | 18.88 | 7.58 | 92.06 |
| 0.9 | STOC | Freeze | 40.54 | 21.62 | 91.96 |
消融实验¶
KnowEdit (ZSRE / Wiki_Bio / Wiki_Recent) 上 Qwen2.5-0.5B 的平均 soft token accuracy(越高越好):
| 方法 | ZSRE Orig | ZSRE Cont | Wiki_Bio Orig | Wiki_Bio Cont | Wiki_Recent Orig | Wiki_Recent Cont |
|---|---|---|---|---|---|---|
| Naive | 34.58 | 63.28 | 32.33 | 35.50 | 19.28 | 28.42 |
| LAMOL (\(\alpha{=}0.5\)) | 37.54 | 58.37 | 31.29 | 34.49 | 20.48 | 27.19 |
| STOC (\(\alpha{=}0.5\)) | 37.12 | 62.26 | 35.57 | 35.46 | 21.40 | 28.75 |
| STOC (\(\alpha{=}0.8\)) | 37.47 | 62.59 | 35.28 | 33.16 | 20.12 | 27.34 |
法律领域 IndustryCorpus2 1B token 真实 CPT 评测(MMLU / MMLU-Redux-2.0 / SuperGPQA)上,STOC 在 0.6B 和 1.7B 模型上都比 LAMOL 高 1–4 个百分点,在 SuperGPQA 上 Continual 子集从 LAMOL 的 13.35% 提升到 15.85%。
关键发现¶
- 即使 replay 比例只占 10%,模型也能保留显著旧知识——这与理论里"replay 直接改频率分布、挪收敛点"完全吻合。
- 两种 replay 选取策略中,"每个个体保留一条传记"比"一半个体保留两条"效果更好,说明 replay 数据应广覆盖而非局部加深。
- STOC 用注意力裁切的 snippet 当 prompt 优于随机 snippet(消融),证实 attention-based 选择是真因果而非启发式偶然。
- 在合成 1-Aug 设定上(每人只生成 1 篇传记),LM 训练集 EM 87% 但测试集仅 8.85%,说明数据增强对泛化的关键作用——同时验证了 Diversity Index 理论:增强让 relation token 的 \(\overline{\mathbf{x}}_s\) 更均匀 → 注意力降低 → 模型更依赖 subject token → 跨模板泛化更好。
- LoRA 在低 \(\alpha\) 时反而最糟,全参数和冻结前 6 层差异不大,提示对 cFKA 来说参数量限制比"动哪几层"更敏感。
亮点与洞察¶
- "正则化在 LLM 上不灵"这一长期工程经验首次被一个干净的特征值论证解释:\(\lambda^+_{\min}(\mathrm{diag}(\mathbf{w}_s))\) 接近零意味着 regularization 项压根挪不动 \(\mathbf{y}_s\) 的收敛位置。这种"用动力学解释失败方法"的视角对其他持续学习场景同样适用。
- Diversity Index 把 token 在事实表达中的角色量化到 \(\sqrt[4]{\sum_o[\ln\Pr(s\mid o)+L^{-1}\ln\Pr(o)]^2}\) 这种封闭形式上,并且与多层 LM 实测注意力强相关(Pearson \(<-0.8\)),值得迁移到 attention probing / interpretability 研究。
- STOC 是个"零额外训练成本"的工程组件——只在原 forward 上多采集一次 attention,就能给现有 CPT pipeline 加上一个高质量 replay 来源;和 freezing / LoRA 都正交,可组合。
局限与展望¶
- 理论建立在单层线性注意力 + structured-input 假设上,softmax / 多头 / 多层 / 多 stage 训练只是经验上得到呼应,没有形式化扩展。
- 事实只用 (subject, relation, object) 三元组建模,对常识、链式推理、长上下文等知识形式覆盖有限。
- STOC 选片段时只在 sequence 维度滑窗、跨层取均值,没探索 layer-specific 或 head-specific 的选择策略——可能存在更精的 attention 归因方法。
- 真实场景实验最大模型只到 Qwen2.5-1.7B,对 10B+ 规模能否扩展、replay 比例与 model size 的标度律仍是开放问题。
相关工作与启发¶
- vs LAMOL (Sun 2020):同样是生成式 replay,但 LAMOL 用 special token 作 prompt 让 LM 自由生成;STOC 用注意力归因找出真正"知识密度高"的 snippet,生成内容更贴近旧分布。
- vs EWC (Kirkpatrick 2017):经典正则化方法;本文从特征值角度证明在 cFKA 下它注定只能"减速遗忘"而不能"抑制遗忘"。
- vs Allen-Zhu & Li "Physics of LM" 系列:本文沿用同一类合成 Biography 任务和 hFTA/sFTA/EM 指标体系,但首次把训练动力学推到 CPT 阶段并据此设计新算法。
评分¶
- 新颖性: ⭐⭐⭐⭐ 既给出针对 cFKA 的封闭形式动力学,又据此设计了 attention-based replay,理论 → 算法的链条很完整。
- 实验充分度: ⭐⭐⭐⭐ 合成 + KnowEdit + IndustryCorpus 真实法律语料 + Pythia/Qwen 多规模 + 三种参数更新策略,覆盖到位但最大规模偏小。
- 写作质量: ⭐⭐⭐⭐ 理论部分推导清晰,图 1 的"PT validate → CPT analyze → algorithm propose"路线图让长篇论文易读。
- 价值: ⭐⭐⭐⭐ 对工业 CPT 团队是直接可用的工具(STOC 可即插即用),同时给出"为什么 EWC 没用"的可引用论证,理论 / 工程双价值。