Making Models Unmergeable via Scaling-Sensitive Loss Landscape¶

会议: ICML2026
arXiv: 2601.21898
代码: 待确认
领域: 模型合并 / 模型保护 / 模型压缩
关键词: 不可合并性, 模型合并防护, LoRA, 损失景观, 缩放敏感

一句话总结¶

TRAP² 把「不可合并性」在微调阶段直接写进发布的权重更新里——通过对「更新缩放因子 \(s\)」做对抗优化，让模型在授权的 \(s=1\) 处保持高可用、却在 \(s\neq1\)（合并管线普遍引入的离标缩放）处迅速崩坏，从而既不依赖 Transformer 的架构对称性、也不需要完整权重访问，对 LoRA 适配器和全量 checkpoint、Transformer 和非 Transformer 骨干一视同仁地防止未授权的模型合并。

研究背景与动机¶

领域现状：Hugging Face、GitHub 等模型仓库让微调更新（从全量 checkpoint 到 LoRA 轻量适配器）广泛流通。由于大量更新基于同一个底座，发布后可以直接组合参数——这就是「模型合并」（Task Arithmetic、TIES-Merging、DARE、以及 LoRA 专用的 KnOTS、Core Space 等）。合并让能力复用变得极其方便。

现有痛点：但这种模块化制造了一个治理缺口：一旦发布，下游用户可以把权重重新组合成未授权的混合体，绕过安全对齐、许可条款或任务约束。理想的「不可合并性」要求发布的模型在单独使用时保持完整效用，一旦被并入未授权混合就可靠地失效。现有防御几乎都是事后（post-hoc）的——对完整权重做保持功能的重参数化来扰乱合并。代表是 PaRaMS 和 Merge-Lock，它们利用 Transformer 注意力投影的成对对称性（见下文公式），保留单独行为却降低权重空间合并的兼容性。

核心矛盾：事后防御有两个根本缺陷。第一，它们绑死 Transformer 的架构对称性，转不到 ResNet、ConvNeXt 这类非注意力骨干。第二，它们假设能拿到完整权重张量来施加成对变换——可现实的 hub 生态里，大量发布是 LoRA 这种只放适配器、底座权重不可见的形式。只对适配器 \(\Delta W\) 做成对变换无法抵消与冻结底座 \(W_0\) 相关的项，要么损害单独效用、要么诱导不出预期的不可合并性。

本文目标：能不能把不可合并性直接注入发布的更新本身，做到跨架构、跨发布格式（仅适配器 / 全量 checkpoint），且不依赖底座访问和架构特定对称性？

切入角度：作者观察到一个被忽视的统一视角——几乎所有合并算子本质都在对每个成员更新重新缩放（如 \(N\) 个更新平均，等于每个乘 \(1/N\)）。那么只要让更新对「缩放」敏感，就能让合并失败。

核心 idea：用「更新缩放因子 \(s\)」当合并过程的简单代理，训练一个在 \(s=1\) 处可用、在 \(s\neq1\) 处崩坏的「缩放敏感损失景观」。

方法详解¶

整体框架¶

TRAP²（Training-time Protection via Task-Robust Adversarial Perturbation）是一个在微调阶段就塑造发布更新的训练目标。它的核心直觉是：把更新 \(\Delta W\) 正则化成「在标称缩放 \(s=1\) 处仍然准确，但在离标缩放 \(s\neq1\) 处退化」——而 \(s\neq1\) 正是适配器合并（如线性组合）普遍诱导的状态。

形式化地，设 \(\ell(W;\xi)\) 为样本损失，缩放后损失定义为 \(L_{\text{scaled}}(\Delta W;s):=L(W_0+s\cdot\Delta W)\)，\(s=1\) 是标称（单独部署）缩放。TRAP² 对一个离标缩放分布 \(\mathcal{S}\)（支撑集为 \([s_{\min},1-\delta]\cup[1+\delta,s_{\max}]\)，\(\delta\) 是 \(s=1\) 周围的排除边界）采样，最小化的总目标是：

\[J(\Delta W) = L_{\text{nominal}}(\Delta W) - \lambda \cdot L_{\text{off}}(\Delta W),\]

其中 \(L_{\text{nominal}}(\Delta W)=L_{\text{scaled}}(\Delta W;1)\) 保住单独部署性能，\(L_{\text{off}}(\Delta W)=\mathbb{E}_{s\sim\mathcal{S}}[w(s)\cdot L_{\text{scaled}}(\Delta W;s)]\) 诱导对离标缩放的敏感度，\(\lambda>0\) 权衡两者。注意第二项前是减号——这是在「最大化离标损失」，本质是一个对抗目标。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["微调更新 ΔW (LoRA 或全量)"] --> B["缩放即合并代理<br/>采样离标 s∈[smin,1-δ]∪[1+δ,smax]"]
    B --> C["缩放敏感对抗目标<br/>min Lnominal − λ·Loff"]
    C --> D["权重函数 w(s)=1/s<br/>校准下缩放梯度"]
    D --> E["受保护更新 ΔW⋆<br/>s=1 可用 / s≠1 崩坏"]
    E -->|被未授权合并(平均≈×1/N)| F["合并模型系统性退化"]

关键设计¶

1. 缩放即合并代理：用一维 \(s\) 把「不可合并」变成可优化目标

不可合并性难做，是因为合并发生在下游、创建者控制不了、协议还五花八门。TRAP² 的破局点是发现「合并 ≈ 重新缩放」这个统一视角：把 \(N\) 个适配器线性聚合 \(\Delta W_{\text{merged}}=\sum_i s_i\cdot\Delta W_i\)，每个成员都被某个系数缩放；均匀平均更是把每个更新乘 \(1/N\)，直接把合并后的适配器推离它的标称工作点 \(s=1\)。于是作者不去建模复杂多变的合并算子，而是用一维缩放因子 \(s\) 当代理：只要训练出的更新对 \(s\) 偏离 1 敏感，它在几乎任何合并下都会脆。这把一个「下游不可控」的难题，压缩成一个「在训练时对 \(s\) 做对抗」的可优化目标，也正是它能跨架构、跨格式的根源——缩放是所有合并算子的公约数，与是不是 Transformer、是不是只有适配器无关。

2. 缩放敏感损失景观 + 排除边界 \(\delta\)：授权处保高、未授权处挖坑

目标 \(J\) 刻意在不同缩放间制造不对称：在 \(s=1\) 处压低 \(L_{\text{nominal}}\) 保住性能，在 \(s\neq1\) 处经 \(L_{\text{off}}\) 抬高损失。这就把损失景观塑造成「\(s=1\) 是一根尖峰式的可用山头、两侧迅速塌陷」的形状（论文 Figure 2：\(s=1\) 处准确率高、\(s\neq1\) 处崩塌）。关键的工程细节是排除边界 \(\delta\)：离标缩放的采样支撑集挖掉 \(s=1\) 附近的 \([1-\delta,1+\delta]\)，否则对抗项会紧贴标称点、把单独效用一起拖垮。这样既给「授权使用」留出安全裕度，又让稍微偏离就掉进坑里——而合并诱导的缩放（如 \(1/N\)）通常远离 1，正好落在挖坑区。

3. 缩放权重 \(w(s)=1/s\)：补偿下缩放的梯度消失

只对 \(s\) 采样还不够：在下缩放区（\(s<1\)），\(L_{\text{scaled}}(\Delta W;s)\) 关于 \(\Delta W\) 的梯度会随 \(s\) 变小而变小，导致训练信号在最关键的「平均合并 \(s=1/N<1\)」区域微弱。作者引入非负权重函数 \(w(s)\) 归一化跨缩放的训练信号，默认取 \(w(s)=1/s\) 来补偿这一效应、稳定训练。直觉上 \(1/s\) 恰好抵消缩放带来的梯度衰减，让下缩放区（合并最常落入的区域）获得足够强的对抗梯度。算法上（Algorithm 1）每步只对 \(s\) 做单样本 Monte Carlo 采样，给出 \(J\) 的无偏梯度估计，用 SGD 一阶优化即可；论文附录给出该过程在标准假设下的平稳性保证。

4. 跨格式与跨架构的统一实例化

同一目标天然覆盖两种发布格式。适配器版（LoRA）直接训练 \(\Delta W=BA\)；全量微调版定义随步更新 \(\Delta W_t:=W_t-W_0\)，每步在 \(W_t\) 处算标称损失、在 \(W_0+s\cdot\Delta W_t\) 处算离标损失再更新 \(W_t\)，得到一个架构无关的统一形式，对适配器和全量 checkpoint 都适用。理论侧作者还刻画了两类退化：下缩放退化（均匀平均把每个适配器乘 \(1/N\)，TRAP² 显式放大此处损失，合并必然系统性退化）和跨适配器退化（一个 TRAP² 适配器与一个独立训练的无保护适配器合并，会把后者也推离其标称缩放，连无保护适配器都跟着掉点，且退化随两者在参数空间的距离增大）。

损失函数 / 训练策略¶

核心即上文目标 \(J(\Delta W)=L_{\text{nominal}}-\lambda\cdot L_{\text{off}}\)。超参含缩放范围 \([s_{\min},s_{\max}]\)、排除宽度 \(\delta\)、权衡权重 \(\lambda\)、权重函数 \(w(s)=1/s\)。每次迭代采一个 mini-batch 和一个 \(s\sim\text{Unif}([s_{\min},1-\delta]\cup[1+\delta,s_{\max}])\)，按 \(\nabla_{\Delta W}J\) 用 SGD 更新。

实验关键数据¶

主实验¶

在 8 个视觉分类基准（Cars、DTD、EuroSAT、GTSRB、MNIST、RESISC、Aircraft、SVHN）、3 个 CLIP 骨干（ViT-B/32、ViT-L/14、ConvNeXt）上评测。第一关是单独可用性：保护后的适配器单独部署时准确率必须不掉。下表为各方法的 8 任务平均准确率（%，越高越好）：

骨干	Zero-Shot	Fine-Tuned	Merge-Lock⋆	PaRaMS⋆	PaRaMS†	TRAP²(本文)
ViT-B/32	42.48	88.12	6.25	87.64	84.39	88.13
ViT-L/14	60.63	92.40	4.43	85.08	83.89	93.71
ConvNeXt	54.56	90.61	—	—	—	90.66

TRAP² 的单独准确率与无保护 Fine-Tuned 持平甚至略高（ViT-L/14 甚至 93.71 > 92.40），而 Merge-Lock 单独部署就直接崩到个位数（说明其适配器变体根本保不住单独效用）；ConvNeXt 上 PaRaMS/Merge-Lock 因依赖 Transformer 对称性直接不适用，TRAP² 却照常工作——这正是「架构无关」的直接证据。

不可合并性（合并后退化）¶

第二关是合并时崩坏：把目标任务的受保护适配器与 7 个无保护适配器做 8 路合并，用 TA/TIES/TIES+DARE/TSV/CART 五种算子、Full/KnOTS/Core 三种合并空间，报告合并后平均准确率（%，越低越好，对保护方有利）。作者甚至对合并系数 \(s\in\{0.1,...,10.0\}\) 做验证集搜索，让结果对「合并者」最优化（即给攻击方最大便利）。

配置（ViT-B/32, TA-Full）	合并后准确率	说明
Unprotected	48.27	无保护，合并仍可用
TRAP²(本文)	显著低于无保护并标红	合并后大幅退化，逼近 Zero-shot(42.48)

在多种合并算子和空间下，TRAP² 受保护适配器合并后的准确率被压到 95% 无保护基线以下（论文中标红），印证了缩放敏感设计能可靠破坏未授权合并。Figure 3 进一步显示：沿「无保护 Cars 适配器 ↔ TRAP² GTSRB 适配器」的插值路径，两个任务的准确率都随合并加深而崩——即跨适配器退化是真实发生的。

关键发现¶

单独可用与合并崩坏可以兼得：TRAP² 是唯一同时做到「单独准确率不掉、合并后大幅退化」的方法；事后防御要么保不住单独效用（Merge-Lock），要么换骨干/换格式就失效（PaRaMS 在 ConvNeXt 不适用）。
架构无关是最硬的优势：在 ConvNeXt 这种非 Transformer 骨干上，所有事后基线直接出局，只有 TRAP² 能用——因为它防的是「缩放」而非「注意力对称性」。
\(w(s)=1/s\) 与排除边界 \(\delta\) 是落地关键：前者补偿下缩放区梯度消失，后者给授权使用留裕度，两者缺一会让单独效用和保护强度顾此失彼。

亮点与洞察¶

「合并 ≈ 重新缩放」的统一视角极其漂亮：把一个下游不可控、协议异构的难题，压缩成对一维缩放因子 \(s\) 的对抗，瞬间获得跨架构、跨格式的普适性——这是全文最核心的「啊哈」。
训练时防护 vs 事后防护的范式转变：把保护写进微调过程而非事后改权重，天然兼容只发布适配器、底座不可见的真实 hub 场景，绕开了事后法对完整权重的硬依赖。
可迁移的思路：「找到下游攻击/复用的公约数操作（这里是缩放），在训练时对它做对抗」这套范式，可推广到其他「发布后失控」的保护问题，如防蒸馏、防未授权微调。

局限与展望¶

保护与可用的权衡靠超参手调：\(\lambda\)、\(\delta\)、\([s_{\min},s_{\max}]\) 的选择直接决定「单独效用保多少、合并崩多狠」，论文未充分讨论其敏感性与自动选取。
缩放代理的覆盖边界：若某种合并算子并不显著改变成员更新的有效缩放（如某些对齐/投影后再精细配比的方案），缩放敏感性可能不足以触发崩坏——对「不重新缩放」的合并是否仍鲁棒值得验证。
自己发现的局限：实验集中在 CLIP 视觉分类 8 任务，未在大语言模型 LoRA 合并这一最热门、最受治理关切的场景上验证；「让模型在未授权时崩坏」本身是双刃剑，也可能被滥用来锁死本应开放复用的更新。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「合并即缩放」的统一代理 + 训练时对抗，把不可合并性从架构特定一举推到架构/格式无关。
实验充分度: ⭐⭐⭐⭐ 8 任务 × 3 骨干 × 5 合并算子 × 3 空间覆盖扎实、且给合并者最优搜索，但缺 LLM 场景。
写作质量: ⭐⭐⭐⭐⭐ 问题设定、缩放代理直觉、理论退化分析层层递进，公式与图配合清楚。
价值: ⭐⭐⭐⭐⭐ 直击开源模型治理缺口，给「发布即失控」提供了首个跨架构跨格式的训练时防护范式。