Rethinking Benign Relearning: Syntax as the Hidden Driver of Unlearning Failures¶

会议: ICLR 2026
arXiv: 2602.03379
代码: 无
领域: LLM评测
关键词: 机器遗忘, 良性重学习, 句法相似性, 遗忘鲁棒性, 句法多样化

一句话总结¶

揭示 LLM 机器遗忘中"良性重学习"现象的真正驱动因素是句法相似性而非主题相关性，并提出句法多样化策略（paraphrase forget set），有效抑制重学习、加速遗忘并缓解遗忘效果与模型效用之间的 trade-off。

机器遗忘（Machine Unlearning）旨在从训练好的 LLM 中移除特定内容（如隐私数据、版权材料），使模型表现得像从未见过这些数据。主流方法包括梯度上升（GA）、负偏好优化（NPO）和 SCRUB 等。

然而，良性重学习（Benign Relearning）现象严重威胁遗忘效果：在遗忘后，仅用与被遗忘内容"看似无关"的良性数据微调模型，就能恢复已遗忘的信息。例如，遗忘 Harry Potter 某段后，用 GPT 生成的角色描述微调就能复现原文。

此前 BLUR 基准将此归因于主题相关性（topical relevance）：微调数据越接近遗忘内容的主题，恢复越强。但作者发现 BLUR 的结论受两个实验设计缺陷影响：(1) 不同相关度数据集大小不一致，导致梯度更新步数不同；(2) 仅在固定 epoch 结束时评估，可能错过恢复峰值。

在标准化实验步数并逐步评估后，作者发现主题相关性的优势基本消失——即使是 "Lorem ipsum" 这样完全无关的填充文本也能达到类似的恢复效果。这推动对真正驱动因素的深挖。

核心发现：句法相似性（syntactic similarity）——即表面结构的重叠——才是良性重学习的主因。遗忘主要压制的是"答案模板"而非"关键词"本身，句法相似的数据恢复了被压制的模板结构，关键词随之浮现。

本文分为三部分：(1) 重新审视 BLUR 中主题相关性的结论；(2) 受控实验证明句法相似性是主因；(3) 提出句法多样化作为防御策略。

句法相似性度量: 采用归一化 Levenshtein 距离衡量两段文本的表面结构重叠：\(\text{Sim}(s_1, s_2) = 1 - \frac{d_{\text{Lev}}(s_1, s_2)}{\max(|s_1|, |s_2|)}\)，在句子级计算后取数据集间所有句对的平均值。
受控实验设计（TOFU 数据集）: 在 TOFU 数据集的 forget05 场景中（遗忘 10 位虚构作者），构建两种对照重学习集：
- \(D_{\text{relearn}}^{\text{topic}}\)（主题相关）：关于目标作者的非姓名问题（如出生地），句法相似度 0.2349
- \(D_{\text{relearn}}^{\text{syntactic}}\)（句法相似）：与目标集相同的姓名问题格式但关于不同作者，句法相似度 0.4513
- 关键控制：句法相似集与目标集无主题交集
Loss Ratio 分析: 定义 Loss Ratio = \(\mathcal{L}_{\text{template}} / \mathcal{L}_{\text{keyword}}\)，将答案 token 分为模板 token（通用措辞）和关键词 token（被遗忘的具体信息如人名）。发现遗忘过程中 Loss Ratio 持续升高，说明遗忘不成比例地压制模板而非关键词——这就是句法重学习能恢复的结构性通道。
句法多样化（Syntactic Diversification）: 用 GPT-4o 将 forget set 中的查询改写为多种不同句法形式（保持语义不变），打破原始 forget set 的单一模板结构。改写后 \(D_{\text{relearn}}^{\text{syntactic}}\) 与 \(D_{\text{forget}}'\) 的句法相似度从 0.4513 降至 0.2241。

句法多样化不改变遗忘算法本身（仍用 GA/NPO/SCRUB），仅替换 forget set 为多样化版本 \(D_{\text{forget}}'\)。由此迫使模型直接压制关键词而非仅压制模板，从根本上消除句法重学习的通道。

遗忘方法	重学习集	Step 10 恢复率	Step 30 恢复率	Step 50 恢复率
GA	\(D_{\text{relearn}}^{\text{topic}}\)	~0%	~0%	~0%
GA	\(D_{\text{relearn}}^{\text{syntactic}}\)	~40%	~60%	~70%
NPO	\(D_{\text{relearn}}^{\text{topic}}\)	~0%	~0%	~0%
NPO	\(D_{\text{relearn}}^{\text{syntactic}}\)	~30%	~50%	~55%
SCRUB	\(D_{\text{relearn}}^{\text{topic}}\)	~10%	~15%	~10%
SCRUB	\(D_{\text{relearn}}^{\text{syntactic}}\)	~80%	~90%	~95%

在所有遗忘方法下，句法相似集的恢复率均远超主题相关集。SCRUB 遗忘快但最脆弱。

遗忘集	Real Authors (Avg↑)	World Facts (Avg↑)	Retain Set (Avg↑)
\(D_{\text{forget}}\) (原始)	0.4014	0.6056	0.1607
\(D_{\text{forget}}'\) (多样化)	0.4852	0.6104	0.3128

句法多样化后：(1) 对句法重学习的恢复率降至 0%（即使遗忘步数仅 50），(2) 模型效用（Real Authors、Retain Set）显著提升，(3) Loss Ratio 收敛到 1，说明模板和关键词被均衡压制。

表征与梯度分析：\(D_{\text{relearn}}^{\text{syntactic}}\) 在遗忘模型中与目标集的 hidden state 余弦相似度和梯度余弦相似度均远高于 \(D_{\text{relearn}}^{\text{topic}}\)
BLUR 中 \(D_{\text{hi}} / D_{\text{mid}} / D_{\text{low}}\) 的重学习效果差异实际上与其句法相似度排序一致，而非主题相关度
LoRA 微调在重学习中比全参数微调更快恢复，PEFT 可能放大遗忘脆弱性
安全训练（DPO）比遗忘算法更容易被句法重学习攻破