Limits of Convergence-Rate Control for Open-Weight Safety¶

会议: ICML 2026
arXiv: 2602.18868
代码: 暂未公开
领域: AI 安全 / 优化理论 / 开源权重模型治理
关键词: open-weight safety、convergence rate、Hessian 谱、spectral reparameterization、tamper resistance

一句话总结¶

作者把"开源权重安全"形式化为"如何延缓恶意 fine-tune 的收敛速度"，证明 Hessian 谱的最大奇异值由权重谱下界决定，由此设计了能严格减慢一阶/二阶优化的 SpecDef 算法，但同时证明任何此类收敛率控制方法都能被攻击者以"线性模型尺寸增加"的代价绕过。

研究背景与动机¶

领域现状：开源基础模型在 release 后没有理论上可保证的训练抗性——用户可以自由对权重做 fine-tune，包括为深伪、化学武器等恶意用途。Open-weight 治理大多走"许可证 / 节流发布"等政策路径，技术上的 training-time resistance（如 TAR、RepNoise、RMU、ELM 等）零零散散，且都缺少统一的理论解释。

现有痛点：(1) 现有 unlearning / 不可改训方法在系统化评测下都失败——只要稍微调整 learning rate，几十步 fine-tune 就能把"被抹掉"的能力恢复回来；(2) 这些方法 ad hoc，没有人说清楚"它们到底为什么有时候有用、什么时候必败"；(3) 业界长期把 inference-time safety 和 training-time safety 混为一谈，缺乏统一定义。

核心矛盾：要"既保留功能又难以再训练"，本质上就是要在保持 zeroth-order 行为的同时增大 second-order（Hessian）的谱——可一阶优化收敛速度恰恰由 Hessian 最大奇异值决定。能不能在数学上构造出"功能不变但 Hessian 谱爆炸"的变换？反过来，能不能证明所有这类变换都有上限？

本文目标：(a) 把训练时安全形式化为"迭代复杂度 / 收敛率控制"问题；(b) 给出一个权重谱可直接操控 Hessian 谱的下界；(c) 据此构造可证明的算法 SpecDef；(d) 同时证明任何此类方法都有结构性上限，攻击者可以以线性额外成本攻破。

切入角度：一阶优化必须取学习率 $\eta \leq 1/L$，$L$ 又被 Hessian 最大奇异值 $\sigma_1(H^{\mathcal{L}}_{\theta})$ 下界——只要能在不动函数输出的前提下把 $\sigma_1$ 推到天文数字，攻击者就只能用 $\eta\to 0$，从而陷入"数值上无法学习"的窘境。

核心 idea：通过 SVD 对若干层权重做"对称重参数化"——把选定层的 top-$k$ 奇异值乘以 $\alpha$，并在相邻位置插入恰好抵消的补偿层；功能完全不变，但 Hessian 最大奇异值被强制拉高至少 $\alpha$ 倍，从而把可行学习率推到次正常浮点精度以下。

方法详解¶

整体框架¶

SpecDef 在模型 release 前一次性运行：(1) 选若干层 $\theta_i$；(2) 在邻位插入 identity 线性层占位；(3) 对 $\theta_i$ 做 SVD 得到 $U \Sigma V^\top$；(4) 把 top-$k$ 奇异值乘 $\alpha$ 得到新权重 $\theta_i' = U \tilde\Sigma V^\top$；(5) 把"补偿矩阵"$\theta_i^{comp} = U \Sigma \tilde\Sigma^{-1} U^\top$ 写到 identity 层位置，使得 $\theta_i^{comp} \theta_i'$ 在功能上等同于原 $\theta_i$。GPT-OSS-20b 上对 10 层操作只需 15 秒。

关键设计¶

Hessian 谱的权重谱下界（Theorem 3）:
- 功能：建立 $\sigma_1(\nabla^2_\theta \mathcal{L}) \geq \sup_{r_1, r_2} \sigma_{r_1}(A)\sigma_1(B)\sigma_{r_2}(C)\cos\theta_1\cos\theta_2$，把"难以测量的 Hessian 最大特征值"转化为"可直接控制的某层权重最大奇异值"。
- 核心思路：先用 Poincaré 分离定理将 Hessian 最大奇异值下界为某个 $p\times q$ 子块 $\nabla^2_{\theta_i,\theta_j}\mathcal{L}$ 的最大奇异值；这个子块对于标准 MLP/CNN/Transformer 都有 $ABC$ 形的分解（如三层 MLP 中 $\partial^2 f/\partial \theta_3\partial \theta_1 = (x^\top \otimes I_m)^\top D_{z_1}\cdot \theta_2^\top \cdot D_{z_2}$，中间正好夹着 $\theta_2$）；然后用经典奇异值不等式得到上述下界。
- 设计动机：这是整个框架的理论支点——只要中间矩阵 $B = \theta_k$ 的最大奇异值被放大 $\alpha$ 倍，整个 Hessian 的最大奇异值至少同比例放大，从而强制学习率上界 $\eta \leq 1/\alpha \cdot (\text{常数})$，绕开了"无法直接控制 Hessian"这个老大难。
Lower-Max Spectral Reparameterization + SpecDef（功能不变的 Hessian 谱拉伸）:
- 功能：定义一类映射 $\mathcal{T}_c: f_\theta \mapsto f_{\theta'}$，满足 (i) $\sigma_1(H^{\mathcal{L}}_{\theta'}) \geq c$，(ii) 函数距离 $d(\mathcal{T}_c[f], f) \leq \epsilon$；SpecDef 是其具体构造。
- 核心思路：算法对选定 $\theta_i$ 做 $\tilde\Sigma \leftarrow T\Sigma$（$T = \mathrm{diag}(\alpha,\dots,\alpha,1,\dots,1)$，前 $k$ 个奇异值放大 $\alpha$ 倍），用 $U\tilde\Sigma V^\top$ 替换原权重；同时在相邻插入 identity 占位层并写入 $\theta_i^{comp} = U\Sigma\tilde\Sigma^{-1}U^\top$，由 $\theta_i^{comp}\theta_i' = U\Sigma V^\top = \theta_i$ 保证前向严格不变。$\alpha$ 的选取以"逼对手到最小有效学习率以下"为准则：若大多数 LM 在 $\eta < 10^{-6}$ 时无法收敛，可取 $\alpha \geq 10^6$。
- 设计动机：单纯的"weight rescaling"会改变输出，所以必须配合 compensation；插入 identity 层让作者绕开了 ReLU 这种非 1-同态激活带来的麻烦——因为 identity 层之间的 cross-layer compensation 总是合法。代价是模型尺寸（参数量）线性增加。
收敛率控制的根本极限（Theorem on Layer Injection Attack）:
- 功能：证明任何属于"对称谱重参数化"这类的方法都可以被攻击者以 $O(\text{model size})$ 的额外代价撤销，奠定 open-weight 安全的 fundamental limit。
- 核心思路：作者把 SpecDef / 类似方法的所有可能变换形式抽象成一类映射，并证明对任意这样的 $\mathcal{T}$，存在反向映射 $\mathcal{T}^{-1}$ 把谱拉回正常。攻击者只要知道层结构，就能通过把 compensation 矩阵和原层合并（"layer collapse"）重建出原始 Hessian 谱，从而恢复正常收敛——代价是模型尺寸 +linear 而非指数；并且 curvature-aware optimizers（Sophia、Muon、AdaHessian）只能局部改善，无法突破这一上限。
- 设计动机：很多 open-weight safety 文章宣称"我们提供了实际抗性"，作者要把这种乐观主义砸碎——不是因为 SpecDef 不好用，而是因为整个"控制收敛率"路径在面对懂行的对手时本质有限，未来需要寻找非"convergence rate control" 路径的方案。

损失函数 / 训练策略¶

SpecDef 本身不需要训练，是一次性的代数操作。论文同时建议"certification process"：在 release 前对 $\alpha, k, $ 层选择做 hyperparameter sweep，确认在常用 fine-tune 配方下都难以收敛。攻击侧实验用 SGD/Adam + 多个 learning rate（$10^{-6}$ 到 $3\times 10^{-5}$）以及曲率感知优化器（Sophia/Muon/AdaHessian）做 relearning 评估。

实验关键数据¶

主实验（Llama-3.1-8B-Instruct 上的 WMDP-bio relearning 攻击）¶

方法	起始 Acc	LR=$10^{-6}$（步数 / Acc）	LR=$10^{-5}$	LR=$3\times 10^{-5}$
ELM	0.204	120 / 0.607	23 / 0.621	20 / 0.671
RepNoise	0.325	510 / 0.468	30 / 0.627	33 / 0.650
TAR	0.290	510 / 0.307	66 / 0.638	66 / 0.618
Llama-3.1-8B 原版	0.482	93 / 0.607	20 / 0.629	10 / 0.609
SpecDef ($\alpha=10\mathrm{k}$)	0.204	10 / 0.195†	10 / 0.191†	10 / 0.195†

(†表示 perplexity 增加超过 100%，相当于 fine-tune 直接发散)

Benchmark 模型效用保持（α 越大变化越小越好）	WMDP	PPL	MMLU	Winogrande	ARC	HellaSwag
α = 1k	$\Delta = -0.1$	-0.01	+0.1	0	+1.0	+0.3
α = 100k	$-0.1$	$-0.01$	+0.6	+0.3	+0.3	0
α = 1B	0	$-0.02$	—	—	—	—

消融实验¶

配置	效果
仅放大 $\sigma_1$（无 compensation）	模型功能严重改变，丢精度
SpecDef 全套	功能近乎不变，fine-tune 直接发散
攻击：曲率感知优化器（Sophia/Muon/AdaHessian）	无法绕过 SpecDef
攻击：层合并（layer-injection attack）	可恢复正常收敛，代价 +linear 模型尺寸
攻击：vanilla spectral attack	复用 SpecDef 同类型变换可逆转一些 prior defense

关键发现¶

所有先前防御都被简单 LR sweep 击穿：表 1 中 ELM、RepNoise、RMU、TAR、NPO 等在 $\eta = 10^{-5}$ 以上几十步就被打穿到 0.6+ 准确率，说明它们的"防御"只在某一个固定 LR 下有效。
SpecDef 在所有 LR 下都让 fine-tune 直接发散：哪怕攻击者 sweep 五个数量级的 LR，都会被 $\alpha = 10^4$ 推到次正常浮点区，PPL 增长 100%+。
模型效用近乎零损失：MMLU/Winogrande/ARC/HellaSwag 几乎全在 $\pm 0.3$ 内波动，证明前向数学恒等真的可以做到，价格只是"参数量增加 + 推理稍慢"。
但攻击者能以线性代价绕过：作者自己给出 layer-injection attack 的构造，意味着任何具有完整模型访问权的对手都可以撤销 SpecDef——这是论文最重要的悲观结论，也是它把题目叫"Limits"的原因。

亮点与洞察¶

把 safety 翻译成 optimization theory：以前的 unlearning 文章动辄手动定义 loss 项，本文直接走 iteration complexity 的经典分析，把"难训练"量化为"必须取极小 LR"，理论根基扎实。
权重谱 → Hessian 谱的桥梁很有教科书价值：Theorem 3 把多年 random matrix theory 的工具用得很优雅，且这个 bound 在 rank-deficient 情况下仍然 non-vacuous，比经典 Horn-Johnson bound 更紧。
对称重参数化 + identity 注入：这一招"既保持 zeroth-order 又能任意拉谱"非常巧妙，跟 Dinh 等人对 sharpness 的对称性分析一脉相承，可以延伸到 generalization / sharpness-aware training 等其他领域。
正反两面同等重要：一篇 paper 既给出 best-known 算法 SpecDef，又证明其根本极限——这种"提出 + 否定"的结构很罕见，提醒未来研究者：要想真正实现 training-time safety，必须跳出 convergence rate control 这个框架。

局限与展望¶

SpecDef 假设攻击者只能用一阶/二阶 smooth optimizers，未严肃考虑 randomized methods（如 stochastic Langevin dynamics）或基于符号梯度/zeroth-order 的攻击。
模型参数量线性增加在大模型部署上不是小问题——20B 模型加 10 层补偿可能就是几 GB 额外显存。
"smallest effective learning rate"是经验确定的，不同硬件、不同精度（FP16/BF16/FP8）的浮点截断点不同，$\alpha$ 选择需要重新校准。
Layer-injection attack 已经被作者证明可用，但实际攻击复杂度（需要哪些信息、调多少 hyperparameter）没有定量评估，留给后续工作。
没有给出 cryptographic 意义上的安全证明，只是"数值上不收敛"——这与 obfuscated gradients 的失败教训相似，未来需要更强模型。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一次给开源权重安全建立 convergence rate 理论框架，并同时给出可证明算法 + 根本极限，正反双向都强。
实验充分度: ⭐⭐⭐⭐ 跨 LM + ViT + Stable Diffusion 三类模型，10+ 防御对照，curvature-aware optimizer 攻击全覆盖；只是真实世界攻击者建模偏理想。
写作质量: ⭐⭐⭐⭐ 定义、命题、定理交代清楚，理论与实验衔接顺畅；篇幅密集，需要一定优化背景。
价值: ⭐⭐⭐⭐⭐ 给社区一个清醒的方向校准——后续真正想做 training-time safety 必须跳出收敛率控制框架，这种"路标"价值高于具体算法。

Benchmark 模型效用保持（α 越大变化越小越好）	WMDP	PPL	MMLU	Winogrande	ARC	HellaSwag
α = 1k	\(\Delta = -0.1\)	-0.01	+0.1	0	+1.0	+0.3
α = 100k	\(-0.1\)	\(-0.01\)	+0.6	+0.3	+0.3	0
α = 1B	0	\(-0.02\)	—	—	—	—

配置	效果
仅放大 \(\sigma_1\)（无 compensation）	模型功能严重改变，丢精度
SpecDef 全套	功能近乎不变，fine-tune 直接发散
攻击：曲率感知优化器（Sophia/Muon/AdaHessian）	无法绕过 SpecDef
攻击：层合并（layer-injection attack）	可恢复正常收敛，代价 +linear 模型尺寸
攻击：vanilla spectral attack	复用 SpecDef 同类型变换可逆转一些 prior defense