PGA: Prior-free Generative Attack for Practical No-box Scenario¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: AI安全 / 对抗攻击 / 迁移攻击
关键词: 无盒攻击, 生成式对抗攻击, 迁移性, 自监督代理模型, 课程学习
一句话总结¶
PGA 是第一个面向"实用无盒场景"(PNS,攻击者只有少量无标签图、没有预训练代理也没有标签)的生成式对抗攻击:它用课程式微鲁棒优化从零训出一个稳定的自监督代理,再用区域感知一致性扰动学习训出生成器,一步推理就能产出迁移性强的对抗样本,攻击成功率比现有 PNS 方法高十几个点,推理速度快上百倍。
研究背景与动机¶
领域现状:黑盒迁移攻击是评估 DNN 鲁棒性的重要手段,主流分两条路。一条是迭代式迁移攻击,反复在代理模型上做梯度上升构造对抗样本;另一条是生成式攻击(GAP / CDA / BIA / FACL 等),训一个生成器把干净图一步映射成对抗样本,推理极快、迁移性也强。
现有痛点:这两条路都假设有"丰富先验"——大规模带标签数据或完整的预训练代理模型。这个假设在现实里往往不成立,会高估攻击的真实迁移性。于是出现了更严苛的实用无盒场景(Practical No-box Scenario, PNS):攻击者只能拿到少量任意的无标签图像,对受害模型的结构、参数、训练数据一无所知。现有 PNS 方法(PNAA / ETF / CDTA / AGS)虽然能在这种设定下工作,但全都依赖迭代优化,推理慢、迁移性也有限。
核心矛盾:生成式攻击本来又快又强,却天然依赖丰富先验,因此和 PNS"数据/模型先验严重缺失"的本质直接冲突——没有预训练代理、没有标签、数据极少,生成式攻击根本跑不起来。这就留下一个空白:从来没有人在 PNS 下做出有效的生成式攻击。
本文目标:把生成式攻击搬进 PNS,需要同时解决两个子问题——(1) 怎么用极少无标签数据自监督训出一个"可靠"的代理模型;(2) 怎么在监督信号稀薄的情况下训出迁移性强的生成器。
切入角度:作者观察到两个具体失败模式。其一,数据稀缺时朴素自监督(如 SimSiam)的特征空间被严重压缩、表示退化坍塌,梯度显著图模糊(Fig. 2),无法给生成器提供可靠监督;其二,监督不足时生成器学到的扰动空间碎片化、覆盖率低,掉进无效扰动的陷阱。两个观察分别对应代理学习和生成器训练两个阶段。
核心 idea:把整条管线拆成"代理学习 + 生成器训练"两阶段,分别用课程式微鲁棒优化让代理稳定地学到多样且鲁棒的特征、用区域感知一致性扰动学习逼生成器产出细粒度且空间连贯的扰动,从而在零先验下做出又快又强的生成式攻击。
方法详解¶
整体框架¶
PGA 的输入是少量(实验用 4,000 张)任意无标签图像,输出是一个能一步把任意干净图映射成对抗样本的生成器 \(G\)。整条管线分两阶段串行:阶段一用自监督从零训一个轻量代理 \(f_s\)(ResNet-18),但在普通 SimSiam 式对齐之上叠一套"课程式微鲁棒"调度,让代理在不坍塌的前提下学到既多样又鲁棒的特征;阶段二冻结代理,把干净图和生成的对抗图都切成 \(K\) 个区域,在代理的中间层特征上做全局 + 区域级的相似度最小化,再加一个跨区域一致性正则,逼生成器产出细粒度、空间连贯的扰动。代理是连接两阶段的关键——它的特征质量直接决定生成器能学到多强的迁移性。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["少量无标签图像<br/>(PNS, 无标签/无预训练代理)"] --> B["课程式微鲁棒优化 CMRO<br/>多视图对齐 + 渐进注入微扰动"]
B --> C["微鲁棒代理 f_s<br/>多样且稳定的特征"]
C --> D["区域感知一致性扰动学习 RCPL<br/>全局+区域相似度最小化 + 跨区域一致性"]
D --> E["生成器 G<br/>一步生成对抗样本"]
E --> F["跨模型/跨域/跨任务迁移攻击"]
关键设计¶
1. 课程式微鲁棒优化(CMRO):让代理在零先验下既多样又鲁棒还不坍塌
针对"数据稀缺导致特征空间受限、表示退化坍塌"这个痛点。直接照搬已有的鲁棒训练(在样本上加对抗扰动再对齐)在 PNS 下会因数据太少直接把模型训崩,因此 CMRO 用"课程"思路渐进式地引入鲁棒目标。具体地,对一张无标签图 \(x\),先按 SimSiam 的增广得到两个全局视图 \(x^{g_1}, x^{g_2}\),再额外采 \(L\) 个小裁剪比例的局部视图 \(\{x^{l_i}\}\) 来丰富表示多样性;每个视图经代理 \(f_s\)、投影头 \(g(\cdot)\)、预测头 \(q(\cdot)\) 得到 \(\boldsymbol{z}^{(v)}=g(f_s(\mathbf{x}^{(v)}))\)、\(\boldsymbol{p}^{(v)}=q(\boldsymbol{z}^{(v)})\)。两表示间用余弦相似度 \(\mathrm{sim}(\boldsymbol{a},\boldsymbol{b})=\frac{\boldsymbol{a}^\top \boldsymbol{b}}{\|\boldsymbol{a}\|_2\|\boldsymbol{b}\|_2}\) 度量,对一对视图采用带停梯度 \(\mathrm{sg}[\cdot]\) 的对称相似度损失:
干净视图对集合 \(\mathcal{P}=\{(g_1,g_2)\}\cup\{(g_1,l_i),(g_2,l_i)\}\) 上的损失为 \(\mathcal{L}^{S}_{\mathrm{cle}}=\frac{1}{|\mathcal{P}|}\sum_{(v,u)\in\mathcal{P}}\ell_{\mathrm{sim}}(v,u)\)。课程的关键在于"微鲁棒分支":对全局视图 \(x^{g_1}\) 沿干净损失梯度做一步符号扰动得到 \(\widetilde{\mathbf{x}}^{g_1}=\mathrm{Proj}_{[0,1]}\big(\mathbf{x}^{g_1}+\tau\,\mathrm{sign}(\nabla_{\mathbf{x}^{g_1}}\mathcal{L}^{S}_{\mathrm{cle}})\big)\),把它替换进多视图集得到扰动集 \(\widetilde{\mathcal{P}}\),算出微鲁棒对齐损失 \(\mathcal{L}^{S}_{\mathrm{rob}}\)。总目标按 warm-up 调度组合:
也就是前 \(T\) 个 epoch 只做干净对齐保证早期稳定,从第 \(T\) 个 epoch 起才打开鲁棒分支,且扰动强度 \(\tau\) 从 0 线性增长到 \(\tau_{\max}\)。这种"先易后难"的渐进暴露,避免了一上来注入扰动就把表示训崩,最终让代理的中间层特征分布更接近标准预训练模型(Wasserstein 距离更小,Fig. 4),给下游攻击提供了可靠监督。
2. 区域感知一致性扰动学习(RCPL):把碎片化扰动逼成细粒度、空间连贯的扰动
针对"监督不足时生成器扰动空间碎片化、覆盖率低、易陷局部最优"这个痛点。冻结代理后,生成器 \(G\) 在 \(\ell_\infty\) 预算 \(\epsilon\) 下产出对抗样本 \(\mathbf{x}^{\mathrm{adv}}=\mathrm{Proj}_{[0,1]}\big(\mathbf{x}+\mathrm{Clip}_{[-\epsilon,\epsilon]}(G(\mathbf{x})-\mathbf{x})\big)\)。基础目标是最小化干净图与对抗图在代理第 \(j\) 层特征上的余弦相似度 \(\mathcal{L}^{G}_{\mathrm{ori}}=\mathrm{sim}\big(f_s^j(\mathbf{x}^{\mathrm{adv}}),f_s^j(\mathbf{x})\big)\)——相似度越低,说明对抗样本在特征空间偏离干净图越远、攻击越强。RCPL 在此之上加两件事。其一是区域级特征分离:把 \(\mathbf{x}\) 和 \(\mathbf{x}^{\mathrm{adv}}\) 切成 \(K\) 个不重叠区域,每块缩放回原分辨率保证训练稳定,再逐区域最小化相似度 \(\mathcal{L}^{G}_{\mathrm{reg}}=\frac{1}{K}\sum_{k=1}^{K}\mathrm{sim}\big(f_s^j(\mathbf{x}^{\mathrm{adv}}_k),f_s^j(\mathbf{x}_k)\big)\),强迫扰动覆盖到每个局部区域而非只攻击图像里少数显著区。
其二是跨区域一致性正则:在每个区域的对抗特征上算 Gram 矩阵 \(\mathbf{Gram}_k=\frac{1}{N_j}f_s^j(\mathbf{x}^{\mathrm{adv}}_k)\,{f_s^j(\mathbf{x}^{\mathrm{adv}}_k)}^{\top}\)(\(N_j\) 为第 \(j\) 层特征图元素数),再用区域两两间的 Frobenius 距离逼它们统计一致:
Gram 矩阵刻画的是特征通道间的相关性(即"纹理统计"),逼各区域的 Gram 一致,等于要求扰动在空间上平滑、风格统一,从而消除碎片化。生成器总损失为 \(\mathcal{L}^{G}_{\mathrm{tot}}=\mathcal{L}^{G}_{\mathrm{ori}}+\alpha\mathcal{L}^{G}_{\mathrm{reg}}+\gamma\mathcal{L}^{G}_{\mathrm{cro}}\)(\(\alpha=\gamma=1.0\))。这套细粒度结构引导降低了生成器对代理的过拟合,把扰动推向"模型无关"的通用线索,因而对抗样本的迁移性更强(Fig. 5 显示其在受害模型中间层有更低相似度、更大幅值)。
损失函数 / 训练策略¶
代理学习用 ResNet-18,batch 256,SGD(momentum 0.9,weight decay \(1\times10^{-4}\),初始 lr 0.3,cosine 退火),共 500 epoch,微鲁棒从 \(T=200\) 开启、\(\tau_{\max}=0.01\)。生成器沿用同行方法的结构,batch 16,Adam \((\beta_1,\beta_2)=(0.5,0.999)\),lr \(2\times10^{-4}\),攻击层取 Layer-2,训练 10 epoch。整套训练只用 4,000 张无标签图(分别来自 ImageNet 与 MS COCO)。
实验关键数据¶
主实验¶
评测覆盖跨模型、跨域、跨任务三个视角;预算 \(\epsilon=16\),仅 4,000 张无标签图。下表为 ImageNet 域跨模型攻击的平均攻击成功率(ASR%,AVGc 为 9 个 CNN 均值,AVGv 为 5 个 ViT/MLP 均值):
| 方法 | 类型 | AVGc | AVGv |
|---|---|---|---|
| PNAA | 迭代式 PNS | 37.87 | 16.42 |
| ETF | 迭代式 PNS | 39.59 | 23.17 |
| CDTA | 迭代式 PNS | 35.67 | 22.12 |
| AGS | 迭代式 PNS | 50.26 | 31.39 |
| CDA | 生成式 | 44.20 | 27.68 |
| GAPF | 生成式 | 56.41 | 32.79 |
| FACL | 生成式 | 54.38 | 33.08 |
| PGA(本文) | 生成式 | 71.39 | 47.50 |
PGA 在 CNN 上比最强基线 GAPF 高约 15 个点、在 ViT/MLP 上比 FACL 高约 14 个点;MS COCO 数据源训练时也保持 73.14 / 43.67 的领先。Fig. 1 显示其在拿到最高 ASR 的同时,推理速度相对迭代式方法快约 \(\times200\)。跨域(7 个数据集)和跨任务(COCO 上的检测/分割)实验同样全面领先(如跨域 STL-10 从基线约 25 提到 42.14,SFC 提到 83.51)。
消融实验¶
两阶段组件消融(ImageNet,ID (i) 为用 SimSiam 代理训的 BIA 基线):
| ID | CMRO | RCPL | AVGc | AVGv |
|---|---|---|---|---|
| (i) | ✗ | ✗ | 54.18 | 32.95 |
| (ii) | ✓ | ✗ | 65.44 (+11.26) | 43.31 (+10.36) |
| (iii) | ✗ | ✓ | 62.11 (+7.93) | 39.36 (+6.41) |
| (iv) | ✓ | ✓ | 71.39 (+17.21) | 47.50 (+14.55) |
区域数 \(K\) 的消融:
| K | 1 | 2 | 4 | 9 |
|---|---|---|---|---|
| AVGc | 65.44 | 68.96 | 71.39 | 67.52 |
| AVGv | 43.31 | 45.01 | 47.50 | 42.29 |
关键发现¶
- 两阶段互补且都关键:单独加 CMRO(+11.26 AVGc)比单独加 RCPL(+7.93)贡献更大,说明"先把代理特征训好"是生成式攻击在 PNS 能否立住的根基;两者合用收益(+17.21)接近相加,互补性强。
- 区域数 \(K=4\) 最优:\(K\) 太小(=1,等于不分区)覆盖不足,\(K\) 太大(=9)区域太碎反而在 ViT/MLP 上掉到 42.29(−1.02),细粒度过头会破坏语义完整性。
- 微鲁棒对"时机+强度"敏感:\(\tau_{\max}=0.01\)、\(T=200\) 开启时最好(Fig. 6);课程式渐进引入是稳定训练的关键,直接注入扰动会让代理过拟合噪声甚至坍塌。
亮点与洞察¶
- 把"生成式攻击"第一次搬进 PNS:以往 PNS 全是迭代式(慢),生成式全要丰富先验(PNS 下用不了),PGA 用"自监督训代理 + 区域一致性训生成器"补上这块空白,既快又强,是个清晰的占位贡献。
- 课程学习用来"稳住自监督鲁棒训练"很巧:数据稀缺时直接做对抗鲁棒训练会崩,把鲁棒目标当成"逐渐变难的课程"渐进引入(warm-up 后线性升 \(\tau\)),是个可迁移到其他低数据自监督场景的稳定化 trick。
- 用 Gram 矩阵一致性约束扰动空间结构:把"扰动碎片化"诊断成"区域间统计不一致",再借风格迁移里的 Gram 矩阵逼区域统计对齐,揭示了"扰动空间结构 ↔ 迁移性"的联系,这个视角可迁移到其他生成式攻击。
局限与展望¶
- 微鲁棒的强度 \(\tau_{\max}\) 与时机 \(T\) 高度敏感(Fig. 6),需要按数据域调,自动化/自适应调度是明显的改进点。
- 区域划分是规则的 \(K\) 等分网格、\(K=4\) 写死,未结合语义/显著性做自适应分区;⚠️ 论文主表只报到 \(K=9\),更细的自适应分区效果未知。
- 代理仅用轻量 ResNet-18、4,000 样本,更大代理/更多样本下两阶段收益是否还互补、是否触顶,论文未充分探讨。
相关工作与启发¶
- vs 迭代式 PNS 攻击(PNAA / ETF / CDTA / AGS):它们都靠迭代优化逐样本构造对抗样本,慢且迁移有限;PGA 训一个生成器、一步推理,速度快约两个数量级且 ASR 全面更高,区别在于把"在线优化"换成"离线训生成器"。
- vs 生成式攻击(CDA / GAP / BIA / FACL / GAMA):它们依赖大规模标签数据或预训练代理(甚至借 CLIP 做监督);PGA 在零先验的 PNS 下自己从头训代理,并用区域一致性弥补监督稀薄,是把这条路径"去先验化"的关键一步。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 第一个 PNS 下的生成式攻击,补上明确空白,两个组件都有针对性动机。
- 实验充分度: ⭐⭐⭐⭐⭐ 跨模型/跨域/跨任务、9+ 数据集、20+ 受害模型,消融完整。
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰、动机—方法—实验对得上,公式记号略密。
- 价值: ⭐⭐⭐⭐⭐ 提供更严苛实用的迁移攻击 benchmark,对评估模型鲁棒性有实际意义。