ICLR 2026 LLM安全 LLM unlearning 鲁棒遗忘优化器零阶优化随机平滑权重量化 relearning attack

Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Sswng2ToR4
代码: https://github.com/OPTML-Group/Unlearn_Optimizer
领域: LLM Safety / Machine Unlearning / Optimization
关键词: LLM unlearning, 鲁棒遗忘, 优化器, 零阶优化, 随机平滑, 权重量化, relearning attack

一句话总结¶

本文从"优化器选择"这一全新视角研究 LLM unlearning 的鲁棒性，发现把优化器"降级"（用零阶或梯度压缩方法）反而能让遗忘更抗权重扰动，并据此提出一阶-零阶混合优化器，在不牺牲遗忘效果的前提下显著提升鲁棒性。

研究背景与动机¶

领域现状：LLM unlearning 旨在"外科手术式"地抹掉模型对特定数据/知识（隐私、版权、有害能力）的记忆，同时保留通用能力，避免从头重训。GradDiff、NPO、RMU 等算法已能在标准评测上做到既忘得干净又保住效用。

现有痛点：遗忘效果很"脆"。后处理扰动——比如在少量遗忘样本上微调几十步的 relearning attack，或仅仅做个 4-bit 权重量化——就能让被抹掉的知识重新浮现，遗忘形同虚设。

核心矛盾：已有的鲁棒 unlearning 工作几乎都在"问题层/目标层"动刀：先假设一个具体的脆弱性来源，再针对性地改 unlearning 目标。比如 Fan et al. 把鲁棒遗忘建成对抗 relearning 的 min-max 问题并套上 SAM，Wang et al. 用 IRM 抵抗无关微调，Tamirisa et al. 用元学习抵抗权重篡改。这些方法本质都在改写优化目标，而基础优化器本身（与目标、算法无关）对鲁棒性的作用从未被系统研究过。一个耐人寻味的线索是：单纯调大学习率就能提升抗量化鲁棒性，暗示优化器层面藏着更深的联系。

本文目标：回答 (Q) 优化器的选择如何影响 unlearning 鲁棒性？什么优化器能在不损害遗忘效果的前提下提升鲁棒性？

核心 idea：【优化器"等级"假说】 作者把优化器按其利用的梯度信息"等级"排序——二阶（Hessian）> 一阶（梯度）> 零阶（仅函数值）；同阶内压缩梯度（如 signSGD）又比不压缩的低一档。反直觉的核心发现是：降级优化器会升级鲁棒性——零阶/梯度压缩方法虽然更新更"糙"更噪，却会把模型收敛到损失景观中更难被扰动的"盆地"，从而抵抗后续扰动。

方法详解¶

整体框架¶

论文先用一个统一的"优化器等级"框架解释为何降级有用：梯度压缩让量化算子充当"去噪器"，零阶估计在数学上等价于求解原问题的随机平滑（RS）版本，天然把噪声注入优化过程从而带来抗扰动能力。但纯零阶遗忘不够精确、效用受损。于是作者提出 FO-ZO 混合优化器（Hybrid）：交替进行 N 步一阶（Adam）和 N 步零阶（AdaZO）更新，并以零阶轮收尾，把一阶的遗忘精度和零阶的鲁棒性"取两者之长"。

flowchart LR
    A[预遗忘模型 θ] --> B[FO/Adam 优化 N 步<br/>高精度遗忘]
    B --> C[ZO/AdaZO 优化 N 步<br/>随机平滑注入鲁棒性]
    C --> D{重复 k 轮?}
    D -- 是 --> B
    D -- 否, 以ZO收尾 --> E[最终模型 θ_kN<br/>遗忘强 + 抗扰动]

关键设计¶

1. 优化器等级的两个维度：跨阶与同阶降级。 作者把"降级"拆成两条线索来量化。跨阶（inter-order）上，零阶（ZO）是一阶（FO）的降级，FO 又是二阶（SO）的降级；同阶（intra-order）上，梯度压缩的 signSGD/signAdam 是标准 SGD/Adam 的降级。FO 更新规则为 \(\theta_{t+1}=\theta_t-\eta m_t\)，其中 \(m_t\) 是 Adam 的动量或 SGD 的梯度。这套"等级"语言让"优化器影响鲁棒性"变成一个可系统比较的问题，而非零散的启发式观察。

2. 梯度压缩 = 自带去噪器。 梯度压缩用 N-bit 量化算子替换全精度梯度：\(\theta_{t+1}=\theta_t-\eta\,Q(m_t;N)\)，当 \(N=1\) 时 \(Q(m_t;1)=\mathrm{sign}(m_t)\) 即退化为 signSGD/signAdam。这种更新虽信息更少，却仍有收敛保证。它提升抗量化鲁棒性的直觉很漂亮：当后处理再做权重量化时，量化算子 \(Q(\cdot)\) 把被扰动的权重映射回相同的离散 bit 值，相当于一个"去噪器"，因此用压缩梯度训练出的模型天然容忍权重扰动。

3. 零阶估计 = 随机平滑，天生抗扰动。 零阶优化只用函数值的有限差分估梯度：\(\hat\nabla f(x)=\frac{1}{q}\sum_{i=1}^{q}\frac{f(x+\mu u_i)-f(x-\mu u_i)}{2\mu}u_i\)，其中 \(u_i\) 是随机方向、\(\mu\) 是扰动步长。关键理论桥梁是：该估计是平滑目标 \(f_\mu(x):=\mathbb{E}_u[f(x+\mu u)]\) 梯度的无偏估计，即 \(\nabla f_\mu(x)=\mathbb{E}_u[\hat\nabla f(x)]\)。也就是说，用 ZO 做遗忘等价于求解原问题的随机平滑版本，把随机噪声内生地融进优化——而最小化 RS 型目标本就被证明能提升 unlearning 鲁棒性。实现上作者从单位球（而非高斯）采样方向以降方差，并采用 SOTA 的 AdaZO 进一步降方差、提速。线性模式连通性（LMC）实验进一步证实：signSGD/signAdam 与 Adam 收敛到同一盆地，而 ZO 与 Adam 不连通，落到了一个独立的盆地，这正是其独特鲁棒性的来源。

4. FO-ZO 混合：领导者-跟随者博弈。 纯 ZO 噪声大、遗忘弱、效用差。混合策略让 FO（Adam）先跑 N 步给出高质量初始化，再让 ZO（AdaZO）跑 N 步注入鲁棒性，交替进行并以 ZO 收尾。作者把它解释为一个领导者-跟随者博弈（即双层优化）：因为鲁棒性是首要目标，ZO 应作"领导者"，FO 作"跟随者"提供高保真初始化、降低 ZO 估计方差。消融证实 FO 步数=ZO 步数（如各 20 步）最优——ZO 偏少则鲁棒性领导力不足，ZO 偏多则遗忘精度（跟随者保真度）下降。

实验关键数据¶

主实验¶

在 MUSE（Harry Potter 书籍 / BBC 新闻，指标 VerbMem、KnowMem on \(D_f\) 越低越好，KnowMem on \(D_r\) 越高越好）、WMDP（有害知识移除，WMDP-Bio 越低 / MMLU 越高越好）、TOFU（虚构作者遗忘）上验证。

TOFU forget10 场景（NPO，越低越好的 Prob./Rouge，越高越好的 MU）：

优化器	Prob. ↓	Rouge ↓	MU ↑
Original（遗忘前）	99.0	99.8	63.2
Retrain（重训上界）	14.8	39.9	61.3
Adam（FO 基线）	0.0	0.0	53.2
ZO	30.4	41.7	50.3
Hybrid（本文）	0.0	1.8	61.5

Hybrid 把遗忘做到与 Adam 相当（Prob.=0），同时把效用 MU 从 Adam 的 53.2 拉回到 61.5（接近重训上界），且后续 relearning 中 Prob./Rouge 保持最低。

鲁棒性对比（定性结论，来自 MUSE/WMDP 图示）¶

抗 4-bit 量化：signAdam/signSGD/RS 都比 Adam 更鲁棒；ZO 量化后 \(D_f\) 上 VerbMem/KnowMem 最低（最鲁棒）但效用最差；Hybrid 量化前后都最优，鲁棒性甚至超过显式设计鲁棒目标的 SAM。
抗 relearning（Relearn100）：FO RS 在一阶降级里最好，ZO 在所有方法里 \(D_f\) 残留最低；Hybrid 在 GradDiff 和 NPO 上 relearn 后 VerbMem/KnowMem 都显著更低。
WMDP：不考虑 relearning 时 ZO 因方差大反而最差；一旦考虑 relearning，ZO 的鲁棒性优势凸显，大 epoch 时甚至超过 Hybrid。Hybrid 全程稳定超过 SAM 等基线。

关键发现¶

降级即升级：跨阶（ZO<FO<SO）与同阶（sign<标准）两个方向上，越降级越抗扰动；二阶 Sophia 量化后 \(D_f\) 鲁棒性最差，甚至不如一阶 Adam。
ZO 落入独立盆地：LMC 显示 ZO 与 Adam 不线性连通，是其独特鲁棒性的几何根源。
Hybrid 兼得两端：FO 的遗忘精度 + ZO 的随机平滑鲁棒性，且消融显示切换步长 N 不敏感、FO:ZO=1:1 最优、几乎不增加额外运行开销。

亮点与洞察¶

视角新：首次把"优化器等级"作为独立于目标/算法的鲁棒性杠杆，跳出了"改 loss 抗特定攻击"的窠臼，一个降级动作同时抗量化和抗 relearning 两类异质扰动。
理论优雅：把 ZO 与随机平滑、把梯度压缩与"去噪"分别打通，给"为什么噪声更新反而鲁棒"提供了可解释的几何/统计图景（更难扰动的盆地 + 内生噪声容忍）。
即插即用：方法与具体 unlearning 目标（GradDiff/NPO/RMU）正交，只换优化器即可，落地成本低。

局限与展望¶

效用-鲁棒权衡仍在：纯 ZO 鲁棒但效用明显掉（MU、KnowMem on \(D_r\) 最差），Hybrid 缓解但本质权衡未消除。
机制偏经验："降级→更难扰动盆地"主要靠 LMC 等经验证据与随机平滑类比支撑，缺少对"哪类盆地、为何更鲁棒"的严格刻画。
扰动谱有限：只覆盖 relearning 与量化两类权重扰动，对输入级越狱、剪枝、蒸馏等其他后处理是否成立未充分验证。
超参与开销：ZO 方差、采样方向、AdaZO 配置在更大模型/更长训练上的稳定性与成本仍需观察。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出"优化器等级 vs 鲁棒等级"视角，"降级即升级"的反直觉发现配合 ZO↔随机平滑的理论桥梁，立意新颖且自洽。
实验充分度: ⭐⭐⭐⭐ 覆盖 MUSE/WMDP/TOFU 三大基准、GradDiff/NPO/RMU 多算法、量化与 relearning 两类扰动，并有 LMC、切换步长、FO:ZO 配比等消融；偏定性图示、缺更大规模与更多扰动类型。
写作质量: ⭐⭐⭐⭐ 逻辑层层递进（压缩→ZO→混合），博弈论解释清晰；部分核心对比以图代表难以读出精确数值。
价值: ⭐⭐⭐⭐ 提供与目标正交、即插即用的鲁棒遗忘新杠杆，对隐私/版权/安全场景的可靠遗忘有实用意义。