AWM: Accurate Weight-Matrix Fingerprint for Large Language Models¶
会议: ICLR 2026
arXiv: 2510.06738
代码: https://github.com/LUMIA-Group/AWM
领域: 强化学习
关键词: model fingerprinting, intellectual property, weight manipulation, CKA, linear assignment problem
一句话总结¶
提出 AWM,一种无需训练的 LLM 权重矩阵指纹方法,利用线性分配问题(LAP)恢复嵌入层的置换和符号翻转,再用无偏 CKA 消除 Q/K 矩阵的正交变换影响,在 150 对 LLM 上实现完美 AUC(1.0),对 SFT、持续预训练(5.5T token)、RL、多模态扩展、剪枝、upcycling 六类后训练均鲁棒,30 秒内完成。
研究背景与动机¶
领域现状:LLM 训练成本极高,保护知识产权至关重要。需要判断一个可疑模型是从头训练还是从已有基础模型衍生。
现有痛点:模型常经历大量后训练(SFT、continued pretraining、RL、多模态扩展、剪枝、upcycling),参数变化巨大。水印方法需要额外训练且会损害性能。现有指纹方法(HuRef)对持续预训练不鲁棒,REEF 假阳率高。
核心矛盾:恶意行为者可以通过缩放、置换、剪枝甚至旋转权重矩阵来掩盖模型来源,但这些操作要保持模型性能不变。如何从这种约束中提取不变指纹?
本文目标 设计一种对所有常见后训练方式和权重操纵都鲁棒的指纹方法,同时保持低假阳率和高计算效率。
切入角度:系统分析 Transformer 各组件(残差连接、RMSNorm、RoPE)对权重操纵的约束——证明在保持模型输出不变的前提下,Q/K 矩阵只能承受特定的变换形式(置换+符号翻转+正交变换+误差),然后针对性地消除这些变换。
核心 idea:通过分析 Transformer 架构对权重操纵的结构约束,设计出理论上免疫所有可行操纵的指纹方法。
方法详解¶
整体框架¶
AWM 要回答一个二选一的问题:可疑模型到底是从某个基础模型偷改来的,还是从头独立训练的?难点在于攻击者可以缩放、置换、剪枝甚至旋转权重矩阵来掩盖来源,但前提是模型输出不能变。AWM 的思路是先把这些「合法操纵」的形式从架构里推导清楚,再逐一消掉。整体先做一次架构约束分析,把合法操纵锁定成缩放 \(c\)、置换 \(P\)、符号翻转 \(D\)、正交变换 \(U\) 四类;随后流程分两步走:先在两个模型共享词表的嵌入矩阵上,用线性分配问题(Linear Assignment Problem, LAP,由匈牙利算法求解)恢复出列置换矩阵 \(P\) 和符号翻转矩阵 \(D\);再拿这对 \(P,D\) 把 Q/K 矩阵对齐回去,最后用无偏 CKA 逐层算相似度——CKA 本身就免疫正交变换和缩放,所以剩下那部分扰动不用显式去解,取层平均得到相似度后按阈值判定衍生还是独立训练。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
IN["基础模型 A 与可疑模型 B<br/>的权重矩阵(白盒)"] --> ANALYSIS["架构约束分析<br/>残差·RMSNorm·RoPE 推出合法操纵<br/>= 缩放 c·置换 P·符号 D·正交 U"]
ANALYSIS -->|指明要消除的扰动| LAP["嵌入层 LAP(匈牙利算法)<br/>恢复置换 P 与符号翻转 D"]
LAP -->|对齐用 P,D| UCKA["对齐 Q/K 后逐层无偏 CKA(UCKA)<br/>自动消去正交 U 与缩放 c,取层平均"]
UCKA --> DEC{"相似度高?"}
DEC -->|是| DERIV["判定:B 从 A 衍生"]
DEC -->|否| INDEP["判定:独立训练"]
关键设计¶
1. 从架构约束反推合法操纵空间:先搞清攻击者能做什么
现有指纹方法(HuRef、REEF)多是经验性地挑某个权重不变量当指纹,遇到没见过的操纵就失效。AWM 反过来,从第一性原理推导:在保持模型输出不变的前提下,权重到底只能被改成什么样。三层约束逐步收紧——残差连接要求任何操纵必须能在各组件之间一致传播(Prop 4.2);RMSNorm 的归一化进一步把嵌入层的可行变换锁死为 \(R_{emb} = cPD\),即只能是缩放、列置换、符号翻转的组合(Thm 4.3);RoPE 与 attention score 的结构再把 Q/K 矩阵的操纵约束成
其中 \(U\) 是一个正交变换、\(E\) 是后训练带来的误差项(Thm 4.4)。这套推导的价值在于:它把"指纹该消掉哪些扰动"从启发式猜测变成了有定理支撑的清单——\(c\)(缩放)、\(P\)(置换)、\(D\)(符号)、\(U\)(正交)四类,后面两个设计就分别对付嵌入层的 \(P,D\) 和 Q/K 的 \(U\)。
2. 用线性分配恢复嵌入层的置换与符号
嵌入矩阵每一行对应一个 token,攻击者没法混合行(会破坏词表对应关系),列操纵又被上面的 Thm 4.3 限死成 \(cPD\),这给了恢复 \(P,D\) 一个干净的切入口。AWM 在两个模型的嵌入列向量之间构建一个绝对余弦相似度矩阵,把"哪一列对应哪一列"变成一个二分图最优匹配问题,用匈牙利算法求解最优列匹配,得到置换矩阵 \(P\);再看匹配位置上余弦相似度的正负号,恢复出符号翻转矩阵 \(D\)。取绝对值做匹配、再单独读符号,正好把置换和符号翻转两件事解耦开。当两个模型层数不同时,同样用层级 LAP 匹配把层对齐起来。
3. 用无偏 CKA 绕开正交变换,无需显式求解 \(U\)
恢复出 \(P,D\) 后把 Q/K 矩阵对齐,剩下的扰动主要是那个正交矩阵 \(U\)。\(U\) 有 \(d^2\) 个自由参数,在高维 hidden size 下显式恢复既不现实也不稳定。AWM 的关键观察是:CKA(centered kernel alignment)天生不变于正交变换和常数缩放(Thm 3.1),所以根本不用去解 \(U\)——直接对对齐后的 Q/K 矩阵算 CKA,\(U\) 和缩放 \(c\) 自动被消掉。为避免有限样本下 CKA 的估计偏差,这里用的是无偏版本 UCKA。最终的模型相似度就是所有层 Q/K 矩阵 UCKA 值的平均。这一步把"对付高维正交扰动"从一个棘手的优化问题变成了一个免参数的度量选择。
损失函数 / 训练策略¶
无需训练(training-free),不改动也不损害模型性能。只需白盒访问两个模型的权重矩阵,整个计算在单张 NVIDIA 3090 上 30 秒内完成。
实验关键数据¶
主实验(150 对 LLM)¶
| 指标 | AWM | HuRef | REEF |
|---|---|---|---|
| AUC | 1.0 | ~0.85 | ~0.90 |
| pAUC (FPR<5%) | 1.0 | 低 | 低 |
| TPR@1%FPR | 1.0 | 低 | 低 |
鲁棒性(60 对 offspring model pairs)¶
| 后训练类型 | AWM | HuRef | REEF |
|---|---|---|---|
| SFT | ✅ (≥99.9%) | ✅ | ✅ |
| 持续预训练 (5.5T tokens) | ✅ | ❌ 失败 | 部分 |
| RL (PPO/DPO) | ✅ | ✅ | ✅ |
| 多模态扩展 | ✅ | - | 部分 |
| 剪枝 | ✅ | ❌ 失败 | 部分 |
| Upcycling | ✅ | - | 部分 |
关键发现¶
- 所有 offspring 模型的相似度 ≥99.9%,所有独立模型的相似度 ≤0.7%——分离度极高,零假阳风险
- HuRef 对持续预训练和剪枝不鲁棒,REEF 在独立模型对上常出现高假阳率
- 30 秒完成 (NVIDIA 3090)——比需要推理的黑盒方法快几个数量级
- 方法对不同层数的模型也有效(通过层级 LAP 匹配解决)
亮点与洞察¶
- 从第一性原理推导指纹:不是经验性地选择特征,而是系统分析 Transformer 每个组件对权重操纵的约束,推导出理论上完备的指纹方案——这种分析方法本身很有价值
- CKA 的巧妙应用:利用 CKA 的正交不变性来消除 RoPE 引入的正交变换,避免了显式恢复高维正交矩阵的不可行性
- 实用性极强:30 秒、单 GPU、无需训练、不损害性能、零假阳率——完全满足实际部署需求
局限与展望¶
- 仅适用于 decoder-only Transformer 架构,encoder-decoder 或 SSM 架构需要重新分析
- 假设可疑模型的操纵以保持输出不变为前提,如果攻击者愿意接受一定性能损失则可能绕过
- 对完全重新训练的模型可能产生低相似度——但这是预期行为(不是从基础模型衍生的)
- 需要白盒访问(模型权重),不适用于 API-only 的 MaaS 场景
相关工作与启发¶
- vs HuRef: HuRef 也基于权重不变量,但对持续预训练不鲁棒。AWM 通过更完整的操纵分析和无偏 CKA 解决了这个问题
- vs REEF: REEF 基于表示空间几何相似度,但假阳率高。AWM 直接在权重空间操作,分离度大幅提升
- vs 水印方法: 水印需要额外训练且可能损害性能,AWM 是后验的、无损的
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 从 Transformer 架构约束推导指纹的方法论非常新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 150 对模型、6 类后训练、完美指标
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,实验全面
- 价值: ⭐⭐⭐⭐⭐ LLM 知识产权保护的实用利器