ICML2025 模型压缩 LLM 遗忘上下文学习 chain-of-thought training-free 隐私保护有害知识移除

DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning¶

会议: ICML2025
arXiv: 2511.05784
代码: 待确认
领域: 模型压缩
关键词: LLM 遗忘, 上下文学习, chain-of-thought, training-free, 隐私保护, 有害知识移除

一句话总结¶

提出 DRAGON，一种无需微调的 LLM 遗忘框架，通过双层检测模块识别需遗忘的 prompt，再由 CoT guard 模型生成推理指令做上下文干预，在不修改模型参数的前提下实现高效遗忘。

研究背景与动机¶

核心问题：LLM 训练数据中可能包含隐私信息或有害知识，需要在部署后将其"遗忘"，以满足 GDPR 等法规要求
现有方法的不足：
- 微调类方法（GA、GD、NPO 等）需要 retain 数据，计算成本高，且会损害模型通用能力；在 TOFU-5%/10% 设置下多个方法直接崩溃（MU→0）
- 微调类方法不适用于黑盒模型（GPT-4、Claude 等），也不支持持续遗忘场景
- 现有 training-free 方法（如 ICUL）假设完全知道遗忘数据，不够实用
动机：设计一个无需获取 retain 数据、不修改模型权重、可扩展到任意 LLM 的轻量级遗忘方案

方法详解¶

DRAGON 分为两个核心模块：遗忘 Prompt 检测 和 上下文干预。

1. 遗忘 Prompt 检测（Unlearning Prompt Detection）¶

接收用户查询 \(\mathbf{x}\)，计算置信分数 \(f(\mathbf{x}, D_u)\)，超过阈值 \(\tau\) 则触发干预：

\[\mathbf{x} = \begin{cases} \tilde{\mathbf{x}} & f(\mathbf{x}, D_u) > \tau \\ \mathbf{x} & \text{otherwise} \end{cases}\]

Unlearn Store 构建：用 Llama3.1-70B 对遗忘 prompt 生成 4 个改写候选，通过 BERTScore 拒绝采样保留最相似的一个。不存储原始回答，防止信息泄露。

隐私遗忘场景的置信分数（精确匹配 + 余弦相似度）：

\[f(\mathbf{x}, D_u) = \text{EM}(\mathbf{x}) + \max_{\mathbf{e_u} \in D_u} \text{sim}(\mathbf{e_u}, \mathbf{e})\]

有害知识遗忘场景的置信分数（训练评分模型 + BERTScore + ROUGE-L 二次验证）：

\[f(\mathbf{x}, D_u) = \mathbb{I}(p_F(\mathbf{x}) > \tau_1) + \max_{\mathbf{x_u} \in D_u} \text{BERTScore}(\mathbf{x_u}, \mathbf{x}) + \text{ROUGE-L}(D_u, \mathbf{x})\]

2. 上下文干预（In-Context Intervention）¶

安全策略检索：检测到遗忘 prompt 后，检索对应安全策略（版权保护、有害知识防泄漏等）
CoT 数据集构建：用 GPT-4o 生成 800 条虚构作者问题 + 200 条 TOFU 改写问题，配对生成 CoT 推理指令，拒绝采样筛选高质量样本
SFT Guard 模型：在 CoT 数据集上微调 Llama3.1-8B-Instruct 作为 guard 模型，推理时生成 CoT 指令前置于原始 prompt，引导目标 LLM 按指令拒绝或重定向

3. 新提出的评估指标¶

Refusal Quality (RQ)：联合衡量拒绝率与生成质量（余弦相似度 + 拒绝分类器 + 语句质量检测）
Dynamic Deviation Score (DDS)：在持续遗忘设置下衡量平均偏差与稳定性

\[\text{DDS} = \frac{1}{T}\sum_{i=1}^{T} s_i + \frac{\beta}{T-1}\sum_{i=1}^{T-1} \max(0, s_{i+1} - s_i)\]

Dynamic Utility Score (DUS)：衡量持续遗忘过程中模型效用的一致性

\[\text{DUS} = 1 - \frac{\sum_{i=1}^{T-1} |u_{i+1} - u_i|}{T-1}\]

实验关键数据¶

WMDP 有害知识遗忘（Llama3.1-8B-Instruct）¶

方法	Bio ProbAcc↓	Bio RQ↑	Chem ProbAcc↓	Chem RQ↑	Cyber ProbAcc↓	Cyber RQ↑	MMLU↑
Original	73.1	0.411	54.9	0.342	46.7	0.415	68.0
RMU	66.8	0.412	51.7	0.338	45.0	0.422	59.9
ICUL+	52.8	0.382	35.8	0.330	38.6	0.357	68.0
DRAGON	26.2	0.921	23.5	0.795	27.9	0.875	68.0

DRAGON 在三个领域均接近随机猜测水平（25%），且 MMLU 完全无损。

TOFU 隐私遗忘（Llama2-7B-Chat）¶

方法	DS↓ (1%)	MU	KFR	KRR	DS↓ (5%)	MU	KFR	KRR
GA	48.8	0.634	0.55	0.77	95.6	0.0	0.99	0.0
PO	37.9	0.631	0.65	0.73	33.0	0.519	0.96	0.57
NPO-RT	46.4	0.633	0.68	0.80	69.9	0.473	0.94	0.16
ICUL+	58.1	0.634	0.97	0.87	49.9	0.634	0.95	0.85
DRAGON	21.4	0.634	0.98	0.88	23.1	0.634	0.99	0.87

DRAGON 在所有 forget 比例下 Deviation Score 最低，模型效用完全无损（MU=0.634 不变），遗忘率和保留率均为最优。

亮点与洞察¶

真正的 training-free：不修改目标 LLM 的任何参数，适用于黑盒模型，扩展到更大模型零额外成本
双层检测机制设计精巧：训练评分模型 + 相似度二次验证，兼顾误报和漏报
模型能力完全无损：在 MMLU 和 MU 指标上几乎零下降，而微调方法在高遗忘比例下频繁崩溃
支持持续遗忘：提出 DDS/DUS 指标量化持续遗忘稳定性，解决了实际部署中遗忘请求持续到达的问题
模型越强效果越好：在 Mixtral-8x7B 等大模型上 RQ 甚至超过 1.0，说明框架与模型指令遵循能力正相关

局限与展望¶

检测阈值依赖人工设定：\(\tau\) 的选择影响遗忘质量与误报率之间的平衡，未提供自适应方案
Guard 模型本身需要训练：虽然目标 LLM 不需微调，但 guard 模型的 SFT 仍需 CoT 数据和计算资源
对抗鲁棒性存疑：论文虽测试了改写攻击，但对更复杂的越狱攻击（如多轮引导、角色扮演）的防御能力未充分验证
Unlearn Store 管理成本：持续遗忘场景下 store 不断增长，检索效率和存储成本可能成为瓶颈
仅评估英文场景：未验证跨语言遗忘的有效性

评分¶

新颖性: ⭐⭐⭐⭐ — 将 in-context learning + CoT 推理引入遗忘问题，框架设计系统且新颖
实验充分度: ⭐⭐⭐⭐⭐ — 9 个 LLM、3 个任务、多组消融实验，结果全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式规范，指标定义严谨
价值: ⭐⭐⭐⭐ — 对黑盒 LLM 遗忘场景有很强的实际部署价值