Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion¶
会议: AAAI 2026
arXiv: 2511.11667
代码: github.com/llmgfffffff/Beyond-Superficial-Forgetting-KUnBR
领域: AI安全
关键词: machine unlearning, Knowledge Density, Block Re-insertion, LLM safety, RTT Attack
一句话总结¶
提出 KUnBR 框架,通过梯度引导的知识密度估计定位有害知识富集层,并采用块重插入策略绕过 cover layer 的梯度遮蔽效应,实现对 LLM 有害知识的深度遗忘而非表面抑制。
研究背景与动机¶
- 机器遗忘的核心需求:LLM 在预训练过程中可能吸收隐私敏感、有害或受版权保护的内容,需要在不从头重训的前提下选择性移除这些知识,以满足 GDPR 等"被遗忘权"法规要求。
- 现有方法的表面遗忘问题:梯度上升(GA)、梯度差分(GD)、RMU 等方法虽能在输出层面抑制有害内容,但实际上只修改了少量"cover layer"的参数,有害知识仍驻留在模型深层参数中。
- RTT 攻击暴露脆弱性:Retraining on T(RTT)攻击表明,对遗忘集的一小部分数据进行微调即可恢复大量被"遗忘"的知识,说明现有方法并未真正从参数中消除目标知识。
- Cover Layer 的梯度遮蔽:遗忘训练时梯度主要集中在少数输出端层,形成 cover layer 屏蔽效应,导致深层知识富集块无法得到有效更新。
- 精准定位的缺失:此前缺乏量化各层有害知识密度的系统性方法,无法精确识别哪些层最需要被深度遗忘。
- 通用能力保持的挑战:RIA、NPO 等方法在追求更低遗忘精度的同时往往严重损害模型的推理、事实回答等通用能力,缺乏遗忘-保留的平衡。
方法详解¶
总体框架¶
KUnBR 分三阶段:(1) 全参数预遗忘(warm-up),用标准梯度差分对整个模型做初步遗忘训练;(2) 知识密度估计 + 块选择,定位有害知识富集块;(3) 块重插入 + 二次遗忘,将选出的块嫁接回原始模型进行深度遗忘。
关键设计 1:知识密度估计(Knowledge Density Estimation)¶
- 功能:为模型每一层计算一个知识密度分数 \(K_l\),量化该层包含的待遗忘知识量。
- 核心思路:在遗忘集上做前向-反向传播,取每层参数梯度的 L1 范数期望作为知识密度指标。梯度绝对值越大,说明该层对遗忘集信息越敏感,含有更多待消除的知识。归一化后得到 \(K_l^{norm} = K_l / \sum_{i=1}^H K_i\)。
- 设计动机:基于"MLP 层是 LLM 的神经记忆单元"这一洞察,梯度大意味着参数与目标知识的关联度高。该步骤仅计算不更新参数,为后续精准定位提供依据。
关键设计 2:块选择策略(Block Selection Strategy)¶
- 功能:将模型 \(H\) 层划分为 \(M\) 个块,每块 \(N = \lfloor H/M \rfloor\) 层,累加各层知识密度得到块级密度 \(K_{block,m}\),选取 Top-K 高密度块。
- 核心思路:采用两条规则——(a) Top-K 选择:选知识密度最高的 K 个块;(b) 排除头部层:忽略含最后两层的块,因为末尾层的高梯度是输出生成的产物而非知识存储。
- 设计动机:逐层操作粒度太细、效率低,块级分组兼顾定位精度与实操效率,同时排除干扰层避免误判。
关键设计 3:块重插入策略(Re-insertion Strategy)¶
- 功能:从已经过预遗忘的 \(\text{LLM}_{unlearning}\) 中提取选中的高密度块,将其"嫁接"到未经遗忘的原始 \(\text{LLM}_{original}\) 的对应位置,冻结原始模型其余层,仅对插入块施加梯度差分遗忘训练。
- 核心思路:原始模型中不存在 cover layer(因为未做过遗忘训练),所以被插入的块能直接暴露给遗忘梯度,不再被其他已修改层的遮蔽效应干扰,实现更深度的知识消除。训练完成后,这些块回归 \(\text{LLM}_{unlearning}\),残留知识量远低于标准方法。
- 设计动机:直接在已遗忘模型上继续训练会受 cover layer 梯度阻断的影响,重插入策略通过绕过该阻断,让遗忘梯度直达目标块。
损失函数与训练¶
预遗忘与重插入阶段均使用 Gradient Difference 损失:对遗忘集做梯度上升(增大损失)以消除知识,同时对保留集做梯度下降(减小损失)以维持通用能力。预遗忘阶段为全参数训练,重插入阶段仅训练选中块、其余层冻结。
实验关键数据¶
表 1:RTT 攻击下遗忘性能(LLaMA3-8B-Instruct,↓ 越低越好)¶
| 方法 | Random Birthdays Forget. | RTT. | Rec. | WMDP Forget. | RTT. | Rec. | Years Forget. | RTT. | Rec. |
|---|---|---|---|---|---|---|---|---|---|
| GA | 23.5 | 87.2 | 63.7 | 29.2 | 66.8 | 37.6 | 25.9 | 50.6 | 24.7 |
| GD | 64.9 | 80.2 | 15.3 | 30.5 | 62.4 | 31.9 | 25.9 | 68.3 | 42.4 |
| RMU | 36.3 | 88.5 | 52.2 | 29.9 | 64.9 | 35.0 | 24.2 | 68.3 | 44.1 |
| NPO | 71.3 | 78.3 | 7.0 | 35.6 | 58.4 | 22.8 | 26.5 | 67.7 | 41.2 |
| KUnBR | 36.9 | 43.9 | 7.0 | 29.2 | 38.8 | 9.6 | 25.9 | 36.0 | 10.1 |
KUnBR 在所有数据集上 RTT 攻击后的恢复率(Rec.)均为最低或并列最低,表明有害知识被更彻底地移除。
表 2:通用能力保持(LLaMA3-8B,RKWU 指标,↑ 越高越好)¶
| 方法 | Rea. | Fac. | Tru. | Flu. |
|---|---|---|---|---|
| GA | 40.2 | 56.3 | 36.8 | 706.2 |
| RIA | 39.5 | 56.1 | 36.8 | 705.9 |
| NPO | 39.8 | 54.3 | 36.8 | 703.7 |
| KUnBR | 41.2 | 56.1 | 36.6 | 706.7 |
KUnBR 在推理能力和流畅度上取得最优,事实性和真实性也与最佳方法持平,证明块级局部遗忘有效保护了通用能力。
消融实验(表 3,Years 数据集)¶
| 变体 | Forget.↓ | RTT.↓ |
|---|---|---|
| KUnBR(完整) | 25.9 | 36.0 |
| 去掉重插入(退化为 GD) | 25.9 | 68.3 |
| 去掉预遗忘 | 25.9 | 36.7 |
去掉重插入后 RTT 准确率从 36.0% 飙升至 68.3%,证明重插入策略是抵抗 RTT 攻击的关键。
亮点¶
- 问题洞察深刻:首次系统分析 cover layer 对遗忘训练的梯度遮蔽效应,揭示现有方法"表面遗忘"的本质原因。
- 知识密度估计简洁有效:利用梯度 L1 范数量化各层知识密度,无需额外探针或复杂分析工具。
- 重插入策略设计巧妙:通过将目标块嫁接回原始模型绕过 cover layer,思路新颖且实现简单。
- RTT 攻击鲁棒性显著提升:在多个数据集上恢复率远低于所有基线方法。
- 通用能力损失极小:块级局部遗忘 + 冻结其余层,有效避免了全局能力退化。
局限性¶
- 仅在 7B-8B 规模模型上验证,未测试更大模型(如 70B)的可扩展性。
- 知识密度估计需要在整个遗忘集上做全模型反向传播,对大规模遗忘集的计算开销较高。
- 块数 \(M\) 和 Top-K 的选择需要预实验调优,虽然作者声称跨架构稳定,但最优配置可能因任务不同而异。
- 仅评估了多选题形式的遗忘,未考虑开放式生成场景下的遗忘效果。
- 排除最后两层的规则基于经验观察,缺乏严格的理论证明。
相关工作¶
- GA / GD / NPO:基于梯度的遗忘方法,通过梯度上升或偏好优化抑制输出,但知识仍留存于参数中。
- RMU:修改中间层表示实现遗忘,但单纯的表示扰动易被 RTT 攻击恢复。
- RIA:引导模型学习错误答案,遗忘效果有限且损害通用能力。
- RTT 攻击:参数级攻击方法,揭示了遗忘方法的脆弱性,是本文的核心对比攻击手段。
- 层级知识分析:Geva et al. 发现 MLP 是 LLM 的键值记忆单元,Hong et al. 发现遗忘训练主要修改少量层,为本文的知识密度估计提供了理论基础。
评分¶
- 新颖性: ⭐⭐⭐⭐ — cover layer 分析和重插入策略是新颖的视角和解决方案
- 实验充分度: ⭐⭐⭐⭐ — 4 个数据集、2 个骨干模型、完整消融和块选择分析
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述到位,图示直观
- 价值: ⭐⭐⭐⭐ — 解决了机器遗忘中的根本性问题,对 LLM 安全部署有实际意义