TriQDef:扰乱语义与梯度对齐,阻断量化网络中的对抗补丁迁移¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=acQP99PU8y
代码: 无
领域: AI安全 / 对抗鲁棒性 / 模型量化
关键词: 对抗补丁、量化神经网络、迁移攻击、感知对齐、量化感知训练
一句话总结¶
本文发现对抗补丁能在不同比特宽度的量化网络之间高度迁移,根因是各比特模型在中间特征和输入梯度上仍保持很强的「感知对齐」;TriQDef 用两个感知失配正则(FDP + GPDP)外加一套比特位课程训练,在训练时主动打散这种跨比特对齐,使未见补丁/未见比特组合下的攻击成功率(ASR)下降 40% 以上,同时几乎不损失干净精度、推理零额外开销。
研究背景与动机¶
领域现状:量化神经网络(QNN)因为省内存、省算力被广泛部署在边缘设备上。学界一直有一种乐观看法——量化会扭曲梯度地形、引入量化噪声,从而天然削弱传统的像素级对抗攻击(梯度遮蔽效应)。
现有痛点:这种「量化即防御」的直觉对对抗补丁完全失效。补丁是一块局部、高显著性的图案,靠劫持模型注意力而非梯度敏感性来欺骗预测,对输入变换鲁棒、能跨架构泛化。作者实测发现:在全精度模型上生成的补丁,迁移到极端 2-bit 的 QNN 上仍能维持 73% 以上的 ASR(ResNet-56)。也就是说,量化降到 2-bit 都拦不住补丁。
核心矛盾:已有防御要么过拟合到某个特定量化设置(如 PBAT 只对训练时见过的补丁/比特宽度有效,换个比特宽度 ASR 暴涨 20%+),要么本质上只针对像素级噪声(DWQ、特征平滑、DiffPure 这类),都没有触及补丁「跨比特迁移」的根本原因。作者的分析揭示:补丁之所以能在不同比特间通用,是因为各比特模型的内部特征和输入梯度信号之间存在持续的对齐——共享了相同的结构性线索。
本文目标:在训练阶段直接拆掉这条「共享通道」,让不同比特宽度的模型学到彼此不一致的特征表示和梯度结构,从而让一块补丁无法同时骗倒多个比特版本。
切入角度:关键观察是——传统衡量梯度迁移性的工具(余弦相似度)会误判。作者测出不同比特模型之间梯度的余弦相似度其实很低(0.05~0.25,看似方向各异),但它们在感知层面(边缘结构、纹理朝向)的相似度极高(HOG 余弦相似度稳定在 0.80 以上)。这条「隐藏的感知对齐」才是补丁迁移的真正温床,而余弦相似度根本捕捉不到。
核心 idea:用两个可微的感知相似度度量(Edge IoU 与 HOG Cosine)显式地度量并惩罚跨比特的特征/梯度对齐,逼着不同比特模型「各想各的」,从结构和纹理层面破坏补丁迁移所依赖的共识。
方法详解¶
整体框架¶
TriQDef 的设定是:一个共享主干 \(\theta\)(如 ResNet trunk)配上一组比特位专属的量化器 \(\{Q_b\}\)(\(b \in \{32,8,5,4,2\}\),\(Q_{32}\) 为恒等),同一份主干权重在不同比特下经过对应量化器(QAT + STE 直通估计器)就得到不同比特版本。训练时,干净输入 \(x\) 和打了补丁的对抗输入 \(x_{adv}\) 都会在多个比特下各跑一遍,产生「比特特定视图」。框架在两个层面对这些视图做对比并施加惩罚:中间层特征喂给 FDP,输入梯度喂给 GPDP。所有损失聚合成 \(\mathcal{L}_{total}\) 来同时更新 \(\theta\) 和 \(\{Q_b\}\),整个过程由 BACT 课程调度逐步开启低比特量化器。推理时只用部署比特 \(b^\star\) 跑一次前向,零运行时开销、保持纯整数部署。
补丁的构造方式为 \(x_{adv} = x \odot (1-M) + P \odot M\),其中 \(M\) 是补丁二值掩码,\(P\) 默认从一个离线补丁池里随机采样(在全精度模型上预先生成,含不同尺寸/位置/目标类的多样补丁),也可选在线 EOT 优化。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["共享主干 θ + 多比特量化器<br/>{Q_b: 32/8/5/4/2-bit}"] --> B["干净 x 与对抗 x_adv<br/>各比特并行前向"]
B -->|中间层特征| C["特征失配惩罚 FDP<br/>跨比特罚特征感知相似"]
B -->|输入梯度| D["梯度感知失谐惩罚 GPDP<br/>跨比特罚梯度感知相似"]
C --> E["比特位课程训练 BACT<br/>高比特→逐步开启低比特"]
D --> E
E -->|聚合 L_total 更新 θ 与 Q_b| F["部署:单比特前向<br/>推理零额外开销"]
关键设计¶
1. 特征失配惩罚(FDP):让各比特模型的中间特征「长得不一样」
FDP 针对的是「语义对齐」——即便加了补丁,不同比特模型的内部表示在感知上依然高度相似(作者在 ImageNet 上用热力图证实,相邻比特如 5bit↔4bit 的 Edge IoU、HOG 相似度极高),这种表征不变性正是补丁能通用的根基。FDP 的做法是在选定的中间层 \(l\) 上,对任意两个不同比特模型 \(b_i \neq b_j\) 在对抗输入下的特征 \(f^{(l)}_{b_i}(x_{adv})\) 做感知相似度计算,并把它当作惩罚项最小化:
这里用了两个互补的感知量:Edge IoU 走结构(Sobel 边缘图的重叠),HOG Cosine 走纹理朝向。由于原始 Edge IoU 的硬二值化、传统 HOG 都不可微,作者换成可微近似——边缘用 SoftDice 配「软二值化」 \(S(A;\tau,k)=\sigma(k\cdot(A-\tau))\)(锐度 \(k{=}100\),阈值取 85 分位数),HOG 用平滑 HOG 描述子,从而端到端可训。\(\alpha{=}0.5, \beta{=}1.0\)。关键工程取舍是 FDP 只施加在早中层(L1–L3),因为这些层主要编码边缘/纹理等结构线索;高层语义和分类头不受约束,再加上联合的交叉熵损失锚定类别判别性,这样既打散了跨比特的结构共识,又避免语义漂移(实测干净精度偏移 <1%,Grad-CAM 显示各比特仍看同一物体区域)。作者特意说明为何不用 LPIPS:LPIPS 面向人眼高层语义、要三通道大分辨率输入,无法直接作用于单通道/低分辨率的特征或梯度图。
2. 梯度感知失谐惩罚(GPDP):堵住余弦相似度看不见的梯度迁移通道
GPDP 针对的是 FDP 抓不到的梯度层对齐。本文最反直觉的发现是:跨比特模型梯度的余弦相似度很低(0.05~0.25),按传统理论本不该迁移,但补丁照样能迁——因为梯度在感知结构上仍高度一致(HOG 余弦稳定 0.80+)。GPDP 直接惩罚这种「感知共识」:对每对比特模型,反传得到输入梯度 \(\nabla^{b_i}_x = \nabla_x \mathcal{L}_{CE}(f_{b_i}(x_{adv}),y)\),再对梯度图施加和 FDP 同款的结构+纹理惩罚:
它专门盯着显著性集中的早层梯度结构,通过多样化梯度的边缘/朝向来削弱跨比特共享的对抗脆弱性。为不伤干净精度,GPDP 只作用于对抗输入。这一设计的意义在于:它指出梯度迁移性的度量标准本身需要升级——光看方向(余弦)会漏掉感知层的对齐,必须从结构和纹理上把梯度「打散」才算真正断掉迁移链路。
3. 比特位课程训练(BACT):让超低比特能稳定地从共享主干里长出来
直接从零优化 2-bit 这种超低比特量化器会让训练崩掉,FDP/GPDP 的跨比特对比也无从谈起。BACT 的策略是分阶段开启量化器、始终共享同一个 \(\theta\):先用高精度(32/8-bit)学到稳定特征,再逐步把低比特(5/4/2-bit)纳入当前活跃集合 \(B_t\)——新比特通过在留出子集上做短校准来初始化它的观测器(不复制权重),然后和已激活的比特一起联合微调。这样既不用维护多个主干(省内存),又通过共享 \(\theta\) 强制了跨比特耦合,经验上提升鲁棒性并稳定了两个感知惩罚的优化。配合的总损失为:
其中 \(\mathcal{L}_{clean}\)、\(\mathcal{L}_{adv}\) 分别是干净/对抗输入在活跃比特集 \(B_t\) 上的平均交叉熵,每个 mini-batch 按比例 \(\rho{=}0.5\) 打补丁以防过度正则。默认 \(\lambda_{adv}{=}1\)、\(\lambda_{FDP}{=}0.8\)、\(\lambda_{GPDP}{=}0.5\)。三者协同:FDP 断特征对齐、GPDP 断梯度对齐、BACT 提供让这两者得以在多比特上稳定计算的训练骨架。
损失函数 / 训练策略¶
- 量化采用 fake-quantization QAT + STE,权重 per-channel、激活 per-tensor 的对称均匀量化器,目标比特 \(B=\{32,8,5,4,2\}\)。
- CIFAR-10 训 200 epoch、ImageNet 训 120 epoch,SGD(动量 0.9,weight decay \(1\times10^{-4}\)),初始学习率 0.1,在 50%/75% 处各降 10×,batch size 128,A100。
- 补丁默认离线池采样(效率优先),消融/自适应设置下用 EOT 在线优化(随机位置 + 几何抖动 + 随机采样比特 \(b\sim B_t\) 反传),防止过拟合到单一比特。
实验关键数据¶
主实验¶
跨比特鲁棒性(ASR %,越低越好),对比 PBAT 与 DWQ。TriQDef 在所有攻击/比特下 ASR 最低,且未见补丁下几乎不退化:
| 防御 | 数据集 | LAVAN-2bit | GAP-2bit | PatchAttack-2bit |
|---|---|---|---|---|
| PBAT | CIFAR-10 | 39.7 | 37.9 | 49.7 |
| DWQ | CIFAR-10 | 76.4 | 73.5 | 78.2 |
| TriQDef | CIFAR-10 | 26.2 | 17.2 | 20.7 |
| TriQDef(未见) | CIFAR-10 | 27.3 | 25.5 | 23.5 |
| PBAT(未见) | CIFAR-10 | 65.3 | 63.2 | 70.1 |
干净精度(%,越高越好)几乎不掉,优于 PBAT、贴近 Standard QAT:
| 防御 | 数据集 | 32bit | 5bit | 4bit | 2bit |
|---|---|---|---|---|---|
| Standard QAT | CIFAR-10 | 89.4 | 85.1 | 80.5 | 78.2 |
| PBAT | CIFAR-10 | 88.2 | 81.6 | 77.8 | 75.5 |
| TriQDef | CIFAR-10 | 89.4 | 83.3 | 78.2 | 75.8 |
对比推理时预处理防御(ImageNet ResNet-50,Robust Accuracy %,越高越好):
| 防御 | 类型 | 32bit | 2bit |
|---|---|---|---|
| JEDI (2023) | 预处理 | 64.3 | 23.4 |
| DiffPure (2024) | 预处理 | 41.7 | 19.6 |
| PBCAT (2025) | 训练 | 57.8 | 41.2 |
| TriQDef | 训练 | 78.3 | 65.8 |
预处理类防御在低比特下崩盘(熵图/特征粒度被量化破坏,DiffPure 还要 5.6~17 秒/图、>7GB 显存),而 TriQDef 是纯训练时防御、推理零开销。
消融实验¶
ASR(%,LAVAN,越低越好):
| 配置 | 设定 | CIFAR-10 2bit | ImageNet 2bit |
|---|---|---|---|
| w/o FDP | Seen | 55.9 | 52.1 |
| w/o GPDP | Seen | 37.6 | 42.5 |
| Full TriQDef | Seen | 26.2 | 28.5 |
| Full TriQDef | Unseen | 27.3 | 30.7 |
关键发现¶
- FDP 贡献最大:去掉 FDP,ASR 在 2-bit 上从 26.2% 飙到 55.9%(CIFAR-10),说明跨比特语义对齐一旦保留,补丁立刻恢复强迁移。
- GPDP 不可或缺:去掉 GPDP,ASR 普遍上升 10%+,证实只断特征不断梯度仍有迁移漏洞;二者互补缺一不可。
- 量化本身远不够:DWQ 这类只靠量化/精度随机化的方法 ASR 高达 70%+,印证了「量化即防御」的直觉是错的——必须显式做感知/结构失配。
- 泛化好:未见补丁/未见比特下 TriQDef 仅 +2.1% 左右(GAP/CIFAR-10),而 PBAT 常 +15% 以上。
亮点与洞察¶
- 「余弦相似度会骗人」是全文最锋利的洞察:低余弦≠不迁移,感知层(HOG 0.80+)的对齐才是补丁迁移的真凶。这把对抗迁移性的诊断工具从「方向」升级到「结构+纹理」,对其他迁移攻击研究也有借鉴价值。
- 把不可微的视觉描述子改造成可训正则:用 SoftDice + 软二值化边缘、平滑 HOG,把 Edge IoU / HOG 这些经典 CV 度量塞进端到端训练,是个可复用的工程 trick。
- 共享主干 + 多量化器的参数化很巧妙:一份 \(\theta\) 在多比特间被「拉扯」,既省内存又天然制造跨比特耦合,让感知失配有施力对象,比维护多个独立模型优雅得多。
- 把防御成本全压到训练时:推理单比特前向、零额外开销、保持整数部署,正好契合边缘场景对预处理类防御(DiffPure 慢、JEDI 依赖浮点)最忌讳的延迟约束。
局限与展望¶
- 实验集中在 CNN(ResNet/VGG 等)+ CIFAR-10/ImageNet,ViT(Swin/DeiT)只用于评估迁移性、未作为被保护对象训练,对 Transformer 类 QNN 的有效性尚未充分验证。
- 训练成本上升:每个 batch 要在多个比特下各跑前向、还要算梯度(GPDP 需二阶反传),多比特对比的开销随比特数增长,作者把 compute/memory 讨论放在附录,正文未给量化对比。
- 防御本质依赖「攻击者无法接触训练管线」的假设;虽然测了黑盒 PatchAttack,但对完全知道 TriQDef 训练细节、专门绕过感知失配的自适应白盒攻击者,鲁棒性边界仍待考。
- 多个超参(\(\alpha,\beta,\lambda_{FDP},\lambda_{GPDP},\rho\)、施加层 L1–L3)靠附录消融选定,跨数据集/架构的可迁移性和敏感性还需更系统的验证。
相关工作与启发¶
- vs PBAT(Patch-Based Adversarial Training):PBAT 把补丁模式喂进训练做增强,只对见过的补丁/比特有效,换比特就失效(ASR +20%+);TriQDef 不靠补丁增强,而是直接拆「跨比特对齐」这个迁移根因,因此对未见补丁/未见比特泛化得多。
- vs DWQ / 随机精度推理 / 特征平滑:这些方法本质针对像素级噪声,靠量化噪声或随机化制造梯度遮蔽,对结构化大补丁无能为力;TriQDef 显式建模补丁迁移的结构性来源。
- vs JEDI / DiffPure 等推理时预处理:它们在全精度下尚可,但量化后特征粒度被破坏、且引入浮点依赖与高延迟,不适合边缘 QNN;TriQDef 把防御搬到训练时、推理零开销。
- 启发:把「跨模型一致性/对齐」当作迁移攻击的可优化目标来主动破坏,这一思路可迁移到模型集成防御、跨架构迁移防御、甚至后门防御等需要「打散共享脆弱性」的场景。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 QNN 中补丁的跨比特迁移,并指出余弦相似度的盲区、提出感知层失配防御,视角新颖
- 实验充分度: ⭐⭐⭐⭐ 覆盖两数据集、多架构、多攻击(含黑盒)与充分消融,但 ViT 防御与训练开销量化欠缺
- 写作质量: ⭐⭐⭐⭐ 动机—现象—方法的逻辑链清晰,公式与算法完整,部分细节压在附录
- 价值: ⭐⭐⭐⭐ 戳破「量化即防御」的迷思,给边缘 QNN 提供推理零开销的实用补丁防御方案