Multilingual Unlearning in LLMs: 转移、动力学与可逆性¶

会议: ICML 2026
arXiv: 2606.03291
代码: https://github.com/MLCY1/multilingual-unlearning-in-llms
领域: LLM 安全 / 隐私 / 多语言 LLM
关键词: LLM 遗忘, 跨语言转移, 表征空间, 转向向量, 可逆遗忘

一句话总结¶

本文把 TOFU 遗忘基准扩到 5 种语言系统研究「跨语言遗忘转移」，发现遗忘强度随语言族/书写系统亲缘关系而变，且只动用了后段语言特化解码层、几乎不改前中段共享语义空间，因此能用一个推理时的转向向量恢复 Qwen 上 50%、Gemma 上 90% 的被遗忘知识——说明现有 LLM 遗忘本质是「表面抑制」而非真擦除。

研究背景与动机¶

领域现状：LLM 训练吸收的大量数据可能包含敏感事实，加上 GDPR「被遗忘权」的合规要求，催生了不重训而抹除特定知识的「LLM unlearning」研究。主流方法（GA、NPO、DPO 风格）都是在微调过的模型上加修改目标，鼓励模型在 forget 集上不再吐露目标内容。

现有痛点：(1) 现有评测几乎只在英文上做，多语言场景下「遗忘究竟转移到了什么程度」无人系统刻画——而真实部署里同一条敏感事实经常以多语形式重复出现；(2) 即使在单语言下，已有工作零星显示「遗忘像抑制信号」，但缺少机制定位（在哪些层？是否语言无关？）和无须重学的可逆性证据。

核心矛盾：如果多语言遗忘只动了「语言特化解码层」，那共享语义空间里的知识就还在，攻击者用另一种语言提问、或在推理时反向 steering 就能把它拽回来；如果它真正改变了「跨语言概念空间」，那遗忘的安全保证就强得多。两种情形对部署风险评估完全不同，但既往工作没区分。

本文目标：(i) 系统刻画跨语言遗忘转移随语言族/书写系统/预训练覆盖率的规律；(ii) 用机制可解释性定位遗忘动作发生在哪些层；(iii) 用一个简单的推理时转向向量验证遗忘是否可逆，并测它跨语言的传递性。

切入角度：把 TOFU（200 个虚构作者各 20 个 QA）翻译到 5 种语言（EN/CH/DE/RU/TU），三轴正交受控——共享语族 vs 共享书写 vs 都不共享；分别在某语言微调、再在某语言遗忘、再在某语言询问，得到 \(5\times 5\times 5\) 的转移矩阵；并用 NLI 而非 lexical overlap 评估语义等价。

核心 idea：把 fine-tuned 和 unlearned 模型在同一题上的隐表征之差当作「遗忘方向」（steering vector），加权地反向 inject 回 forward pass。如果这个方向是「语言无关的抑制方向」，那它在任何语言下都能恢复知识——这正是论文要验证的假说。

方法详解¶

整体框架¶

实验流程分四步：(1) 用同一份 TOFU 双语数据在某 \(\mathcal{L}_{FT}\) 上 LoRA 微调，得到 \(f_{\text{ft}}\)；(2) 用 DPO 风格 unlearning 目标 \(J_{UN}\) 在 \(\mathcal{L}_{\text{unl}}\) 上抹除 1% forget 作者，得到 \(f_{\text{un}}\)；(3) 在 \(\mathcal{L}_Q\) 上用 NLI 评估 forget/retain 准确性，得到转移矩阵；(4) 抽取每层隐表征做余弦相似度分析 + 构造转向向量做可逆性实验。

所有实验在 Qwen2.5-7B 和 Gemma2-9B 上跑，遗忘目标为 \(\arg\min_\theta \frac{1}{|\mathcal{L}_{\text{unl}}|} \sum_{\ell} (\mathbb{E}_{D_\ell^{\text{forget}}} J_{\text{forget}} + \lambda \mathbb{E}_{D_\ell^{\text{retain}}} J_{\text{retain}})\)，其中 \(J_{\text{forget}}\) 用 DPO 偏好「IDK 拒答」胜过「真实答案」。

关键设计¶

三轴受控的多语言遗忘转移矩阵:
- 功能：把「语言关系如何影响遗忘转移」这个开放问题拆成三个可观测维度。
- 核心思路：选 5 种语言覆盖「同族 + 同书写」（EN/DE）、「同族 + 异书写」（EN/RU）、「异族 + 同书写」（EN/TU）、「都不共享」（EN/CH）四种组合；对每种 \((\mathcal{L}_{FT}, \mathcal{L}_{\text{unl}}, \mathcal{L}_Q)\) 三元组报告 NLI 分数随 unlearning 的变化（更负代表更强遗忘），并用 5 次随机 forget 集抽样估方差。
- 设计动机：以往工作只测英语单点，无法分清「书写系统效应」「语族效应」「预训练覆盖率效应」哪个起作用；这个 \(5\times 5\times 5\) 矩阵让所有三类效应独立可观察，是后续机制分析的实验基石。
跨语言提示作为「输出端」诊断:
- 功能：判断模型究竟是「不知道答案」还是「知道但解码不出来」。
- 核心思路：查询用语言 \(q\) 但要求模型用微调语言 \(\ell\) 回答，记录性能增益 \(\Delta_{\ell \leftarrow q}\)。若 \(\Delta > 0\) 大，说明知识在共享空间里完好，只是解码受语言绑定；论文进一步算出 \(\Delta_{\ell \leftarrow q}\) 与遗忘转移矩阵中对应单元的相关系数（Pearson \(r=0.50\)，Spearman \(\rho=0.60\)，均显著），把「共享语义空间」和「转移强度」直接挂钩。
- 设计动机：解码绑定假说只能间接观测；用「换语言作答」直接打开瓶颈，证明遗忘的损害是经过共享空间传到下游解码层。
遗忘方向 = 表征差，推理时 steering 验证可逆性:
- 功能：把「遗忘是抑制」从假设升级为机制级证据，并定量恢复被遗忘的知识。
- 核心思路：对同一 forget 问题在 \(f_{\text{ft}}\) 和 \(f_{\text{un}}\) 上取层 \(l\) 的最终 token 隐状态差 \(d^{(l)} = h_{\text{ft}}^{(l)} - h_{\text{un}}^{(l)}\)，沿这个方向在 \(f_{\text{un}}\) 的 forward pass 里 inject 一个加权扰动；若沿单一方向 + 跨语言都能恢复，则遗忘是「语言无关的表面抑制」。逐层余弦相似度分析显示，\(f_{\text{un}}\) 在前中段几乎与 \(f_{\text{ft}}\) 重合，分歧集中在最后若干解码层。
- 设计动机：以往「可逆性」证据要么靠 brief relearning（仍然要数据），要么靠答案前缀诱导（需先知道答案）；本工作给出的 single direction inference-time steering 既无须 forget 数据、也无须答案，并能跨语言迁移，这是对「LLM 遗忘是否真的擦除」最强力的反例。

评估指标¶

用多语 NLI 模型（xlm-roberta-large-xnli）判断生成答案 \(\hat y\) 与 ground truth \(y\) 是否互蕴，避开 lexical overlap 在多语下的虚高/虚低；native speaker 在 50 样本上校验了 NLI 的可靠性。

实验关键数据¶

主实验：跨语言遗忘转移（Qwen2.5-7B）¶

FT \ Unlearn	EN 查询	CH 查询	DE 查询	RU 查询	TU 查询
EN / EN	-90	-4	-7	-9	-4
EN / CH	-7	-8	+1	-5	-3
EN / DE	-17	-6	-4	-5	-4
DE / EN	-13	-4	-41	-7	0
TU / EN	-10	-2	-1	-6	-55
CH / TU	-1	+6	-4	-4	0

所有数字为 NLI 分数相对 fine-tuned base 的绝对降幅（更负=遗忘更强）。可以看到：(1) 同族同书写转移最强（EN→DE、EN→EN）；(2) 高覆盖语言遗忘（EN/CH）转移强于低覆盖（DE/RU/TU）；(3) 弱语言上的遗忘仍能反向影响强语言（TU/EN cell -55）。

跨语言提示增益 \(\Delta_{\ell \leftarrow q}\)¶

FT \ Query	EN	CH	DE	RU	TU
EN	—	+29	+61	+30	+27
CH	+11	—	+10	+12	+12
DE	+33	+22	—	+5	+18
RU	+20	+8	+15	—	+7
TU	+33	+11	+22	+17	—

显著的正增益证明知识在共享语义空间里完好，缺的是语言特化解码；与遗忘转移矩阵的相关系数 Pearson \(r=0.50\)、Spearman \(\rho=0.60\)（均 \(p<0.05\)）。

可逆性实验：单一 steering 方向恢复多少知识¶

模型	恢复率（forget NLI 反弹）	跨语言传递？	是否需要 forget 数据
Qwen2.5-7B	\(\approx 50\%\)	是	否
Gemma2-9B	\(\approx 90\%\)	是	否

关键发现¶

语族 + 书写系统双重影响：控制书写后，EN→RU（同族异写）仍比 EN→CH（都不共享）强；控制语族后，EN→TU（同写异族）仍比 EN→CH 强。两轴都独立贡献。
不对称转移：高覆盖语言（EN、CH）做遗忘源更强力，低覆盖（DE/RU/TU）相对弱——与「模型在主导语言锚定的共享空间里推理」假说吻合。
「我不会答」仍然能转移遗忘：在 TU 微调模型上 EN 查询 base 只有 11% NLI，但在 EN 上遗忘后 TU 查询竟然下降 55%——验证共享概念空间假说。
层定位：\(f_{\text{un}}\) 与 \(f_{\text{ft}}\) 在前中段余弦相似度几乎一致，仅最后几层显著分歧——遗忘的破坏面集中在「概念→语言特化输出」这一步。
可逆性：Gemma 上 90% 的恢复率意味着「unlearning」对 Gemma 几乎是 cosmetic 的；Qwen 上 50% 也足够构成实质安全风险。

亮点与洞察¶

首个系统化的多语言遗忘转移图谱：把语族、书写、覆盖率三轴解耦做出 \(5\times 5\times 5\) 转移矩阵，给后续工作提供了清晰的对照基准。
机制定位 + 行为级证据闭环：从隐表征逐层分析定位「后段解码层是抑制发生地」，再用跨语言提示在输出端验证，最后用 steering 把假说做成实操，证据链非常完整。
可逆性实验拆穿「遗忘」幻觉：不靠 relearning、不靠答案前缀、仅用一个推理时方向就能恢复，且跨语言传递——这是对当前 unlearning 安全主张最直接的反例，比起 brief relearning 攻击更轻、危害更大。
NLI 评测：避开 lexical overlap 在跨语言下的失真，对未来多语生成评估有方法论意义。
对抗视角的实际意义：表明在多语模型部署「被遗忘权」时，仅做英文遗忘几乎等于没遗忘，必须把所有可能查询语言一起覆盖；甚至 steering 攻击让现有方法基本失效。

局限与展望¶

任务面窄：只测 TOFU 类合成传记知识，对真正的「敏感事实」「PII」「版权文本」等情形未必同构；不同知识可能存在层级分布不同。
方法面窄：只覆盖 DPO/GA/NPO 三类基于继续微调的方法，对 representation misdirection 类（如 RMU）或参数定位类方法（如 ROME-style）尚未系统验证。
5 种语言仍是抽样：缺少低资源语言（如非洲、东南亚语系），可能错失「极低覆盖语言遗忘几乎不转移」这种潜在重要案例。
steering 方向恢复率差异（Qwen 50% vs Gemma 90%）解释不足：可能与训练数据多语比例、模型架构、对齐流程都相关，但未深入。
真实威胁模型缺失：steering 攻击假设攻击者能拿到 \(f_{\text{ft}}\) 和 \(f_{\text{un}}\) 两份检查点，部分场景（API 服务）不一定成立；下一步该测能否仅用 query 黑盒反推方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一次系统化解耦多语言遗忘转移的三类影响因素，并用 single-direction 推理时 steering 给出强力可逆性证据。
实验充分度: ⭐⭐⭐⭐⭐ 双模型 × 5 语言 × 三种遗忘目标 × NLI/层分析/steering 三种验证视角，关键结论全有消融。
写作质量: ⭐⭐⭐⭐ 数学符号清晰，但 5×5×5 矩阵颜色编码对纸面阅读不友好，部分关键 cell 在表里要回查才能 follow。
价值: ⭐⭐⭐⭐⭐ 直接挑战当前 LLM unlearning 的安全主张，对合规部署和后续防御研究都是必读，开源代码降低复现门槛。

FT \ Query	EN	CH	DE	RU	TU
EN	—	+29	+61	+30	+27
CH	+11	—	+10	+12	+12
DE	+33	+22	—	+5	+18
RU	+20	+8	+15	—	+7
TU	+33	+11	+22	+17	—

FT \ Query	EN	CH	DE	RU	TU
EN	—	+29	+61	+30	+27
CH	+11	—	+10	+12	+12
DE	+33	+22	—	+5	+18
RU	+20	+8	+15	—	+7
TU	+33	+11	+22	+17	—