Identifying Robust Neural Pathways: Few-Shot Adversarial Mask Tuning for Vision-Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=kzGkXpW4FT
代码: https://github.com/wonjeongchoi/AdvMask
领域: AI 安全 / 视觉-语言模型对抗鲁棒性
关键词: CLIP, 对抗鲁棒性, 二值掩码, 少样本, 鲁棒神经通路, 特征对齐

一句话总结¶

本文提出 AdvMask：不改动 CLIP 预训练权重，只在视觉编码器上学一组二值掩码、关掉对对抗扰动敏感的参数，从而"挖出"一条天然抗攻击的鲁棒神经通路，并配合逐层自适应特征对齐损失（LAFA）专攻少样本场景下的对抗鲁棒微调。

研究背景与动机¶

领域现状：CLIP 这类视觉-语言模型（VLM）凭借图文联合嵌入空间，在少量样本下就能迁移到各种下游任务，但它们对对抗攻击极其脆弱——zero-shot CLIP 的干净准确率约 61.9%，加上对抗扰动后骤降到约 2.5%，在自动驾驶、医学分析等安全敏感场景里这是致命短板。

现有痛点：现有的对抗鲁棒微调主要走两条路，都各有死穴。一是对抗提示微调（AdvVP / AdvVLP / FAP 等），只更新少量提示参数，但完全没碰预训练结构里的神经元本身，能学到的鲁棒表征上限有限；二是直接对抗微调全部权重，在少样本下极易过拟合，还会破坏预训练 VLM 原本的泛化能力。此外一类面向 zero-shot 鲁棒的方法（如 TGA-ZSR）依赖一个 held-out 数据集做对抗微调，效果高度依赖该数据集质量，且在真实下游任务上常常不够。

核心矛盾：少样本（每类只有 1~16 个样本）下，既要学到对抗鲁棒性、又不能过拟合、还得保住预训练泛化能力——监督信号稀缺与鲁棒性需求之间存在根本张力。

本文目标：回答"在少样本下游场景里，对预训练 VLM 实现对抗鲁棒最有效的方式是什么"。

核心 idea：鲁棒神经通路（robust neural pathway）——不修改任何预训练权重，而是在视觉编码器内部搜索一个抗扰动的子网络结构。给定下游任务的少量样本，学一个二值掩码，选择性地"关掉"那些对对抗扰动敏感的参数，让前向传播时自然地强调鲁棒特征。作者论证这样的鲁棒通路确实存在。

方法详解¶

整体框架¶

AdvMask 在冻结的 CLIP 视觉编码器上叠一层可学习二值掩码：给定干净样本和其对抗版本，掩码通过 min-max 对抗训练被优化，使被掩码后的网络对两种输入都产生一致、稳定的中间表征。训练目标由对抗交叉熵损失 \(L_{CE}\) 和逐层自适应特征对齐损失 \(L_{LAFA}\) 组成，前者保证预测级鲁棒、后者保证表征级鲁棒。

flowchart LR
    A[干净样本 x] --> B[掩码视觉编码器<br/>θ⊙M_bin]
    A2[对抗样本 x̃<br/>2-step PGD] --> B
    B --> C["逐层中间特征<br/>z_clean^l, z_adv^l"]
    C --> D["LAFA 损失<br/>按预测可靠性加权对齐"]
    B --> E["对抗 CE 损失 L_CE"]
    D --> F["L_mask = L_CE + λ·L_LAFA<br/>(λ=50)"]
    E --> F
    F -.STE 反传.-> M[更新实值掩码 M<br/>仅 MHSA 层 ~20% 参数]
    M --> B

关键设计¶

1. 鲁棒掩码微调（AdvMask）：用二值掩码挖子网络而非改权重。 给定图像编码器预训练权重 \(\theta\)，先定义同尺寸的实值掩码 \(M\)，再用阈值 \(\alpha\) 二值化得到 \(M_{bin}=\mathbb{I}[M>\alpha]\)，掩码后权重为 Hadamard 积 \(\theta'=\theta\odot M_{bin}\)。由于二值化不可微，借助直通估计器（STE）让梯度绕过指示函数、直接更新实值掩码 \(M\leftarrow M-\gamma\cdot\partial L/\partial M_{bin}\)。鲁棒性来自把它写成 min-max 问题：内层用 PGD 生成对抗样本 \(\tilde{x}=\arg\max_{|\tilde{x}-x|\le\epsilon}L(f_{\theta\odot M_{bin}}(\tilde{x},t),y)\)，外层最小化对抗损失更新掩码 \(\min_{M_{bin}}\mathbb{E}_{(x,y)\sim S}[L_{mask}]\)。整个过程预训练权重纹丝不动，既保住泛化知识又能在少样本下高效搜出任务相关的鲁棒通路；由于只存二值掩码，参数与显存开销都很低。

2. 只掩 MHSA 层：把鲁棒性瓶颈定位到自注意力。 作者没有对所有参数都加掩码，而是只在多头自注意力（MHSA）层上学掩码，这部分约占视觉编码器 20% 的参数。动机是自注意力层通过捕捉图像 patch 间的长程依赖生成上下文表征，恰恰最容易被输入空间的对抗扰动放大；选择性关掉这些层里对噪声敏感的参数因此最有效。消融显示 MHSA-only 在干净（67.34%）和对抗（47.13%）准确率上都优于 MLP-only，且远比掩全部参数省算力。

3. 逐层自适应特征对齐损失（LAFA）：在中间层灌入稳定监督信号。 以往的鲁棒目标（如 TeCoA）只在最终输出空间（图文联合嵌入）监督，无法约束中间表征、在数据稀缺时信号也不足；而 AdvMask 改的是编码器内部参数，中间层的鲁棒特征至关重要。LAFA 把每个 transformer 层的对抗特征向对应干净特征对齐，基础形式是 \(L=\frac{1}{|\mathcal{L}||B|}\sum_{l}\sum_{x}\|z_{clean}^{(l)}-z_{adv}^{(l)}\|_2^2\)，直觉是对抗扰动会逐层放大，关掉脆弱参数能抑制这种传播。进一步加入基于预测可靠性的自适应加权：如果模型连干净样本都预测错，其特征就是噪声对齐目标，在少样本下尤其有害，故按真值类置信度加权 \(L_{LAFA}=\frac{1}{|\mathcal{L}||B|}\sum_{l}\sum_{x}\frac{p(y|x)}{\mathbb{E}_B[p(y'|x')]+\epsilon}\|z_{clean}^{(l)}-z_{adv}^{(l)}\|_2^2\)，让可靠样本主导对齐、不可靠样本少出力。最终目标 \(L_{mask}=L_{CE}(\tilde{x},y)+\lambda\cdot L_{LAFA}(x,\tilde{x},y)\)（\(\lambda=50\)）把预测级与表征级鲁棒互补地结合起来。

实验关键数据¶

设置：CLIP ViT-B/32，仅微调约 20% 的 MHSA 掩码参数；训练用 2-step PGD（\(\epsilon=\alpha=1/255\)，\(l_\infty\)），测试用 100-step PGD；11 个分类数据集，1/2/4/8/16-shot，3 个随机种子平均。

主实验（base-to-new 泛化，16-shot，11 数据集均值）¶

方法	Base Clean	Base Adv	New Clean	New Adv	H
CLIP	66.9	3.4	71.5	3.8	6.9
AdvVP	31.7	14.4	30.4	13.4	19.2
AdvVLP	59.0	32.4	46.9	21.6	34.6
AdvMaPLe	60.4	30.7	46.2	20.3	33.3
FAP	70.5	38.0	49.6	21.9	37.6
AdvMask	69.5	43.6	50.2	26.1	41.9

AdvMask 在 base 与 new 类的对抗准确率全面领先（base 43.6 vs FAP 38.0，new 26.1 vs FAP 21.9），调和均值 H 最高。

zero-shot 鲁棒泛化（TinyImageNet 微调 → 未见下游）¶

方法	数据量	Clean Acc	Adv Acc
CLIP	–	61.9	2.7
TGA-ZSR	全量 100%	38.6	22.9
FAP	16-shot (3.2%)	36.0	16.8
TGA-ZSR	16-shot (3.2%)	41.3	13.0
AdvMask	16-shot (3.2%)	42.0	19.4

仅用 3.2% 源数据，AdvMask 在 16-shot 下逼近需要全量数据的 TGA-ZSR，说明它关掉的是"跨任务普遍脆弱"的参数而非过拟合数据集模式。

消融实验¶

掩码层选择（16-shot，5 数据集均值）

模块	Clean Acc	Adv Acc
MLP only	65.73	45.95
MHSA only	67.34	47.13
MHSA + MLP	66.01	47.20

损失消融（不同 shot）

损失	1-shot Clean/Adv	16-shot Clean/Adv
\(L_{CE\text{-}adv}\)	40.3 / 15.6	65.8 / 46.4
+ \(L_{JS}\)	42.9 / 17.3	65.9 / 46.5
+ \(L_{KL}\)	31.8 / 13.8	60.7 / 43.6
+ \(L_{LAFA}\)（无自适应）	44.5 / 17.8	66.9 / 46.8
+ \(L_{LAFA}\)	46.6 / 18.4	67.3 / 47.1

关键发现¶

LAFA 的特征级对齐比输出空间的分布散度（JS/KL）信号更稳，且优势在 1-shot 等极低样本时最明显。
自适应加权进一步提升性能，在噪声/误分类样本多时尤其有效。
干净准确率虽在 1/2/4-shot 时不可避免下降，但在 8/16-shot 时回升，甚至在 Caltech101 上超过原始 CLIP——掩码起到了正则化效果。

亮点与洞察¶

换了个视角：把对抗鲁棒微调从"调提示/调权重"转成"找子网络"，鲁棒性被解释为预训练网络里本就存在的一条"鲁棒神经通路"，这个角度新颖且有可解释性。
参数与数据双高效：只存二值掩码、只动 20% 的 MHSA 参数，少样本下既省算力又省数据，契合医学等真实稀缺场景。
掩码可迁移：仅 16-shot 训出的掩码能 zero-shot 迁到未见数据集，暗示存在一批"跨任务普遍放大对抗噪声"的参数，关掉它们具有普适价值。

局限与展望¶

主实验骨干集中在 CLIP ViT-B/32，虽附录给了 ViT-B/16、ViT-L/14 与 VisualBERT，但对更大规模 VLM、生成式 VLM 的适用性仍待验证。
对抗评测以 \(l_\infty\) PGD 为主，对更强或语义级攻击、跨范数攻击的鲁棒性覆盖有限。
极少样本（1~4 shot）下干净准确率仍有明显下降，鲁棒-泛化权衡尚未完全解决。
二值掩码"关参数"的机制为何天然抗扰动，文中给的是直觉解释，缺乏更严格的理论刻画。

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出"鲁棒神经通路"并用二值掩码做对抗鲁棒微调，视角清晰、与提示/权重微调形成鲜明对照。
实验充分度: ⭐⭐⭐⭐ 11 数据集、5 种 shot、base-to-new 与 zero-shot 迁移、多骨干多 VLM、掩码层与损失消融都齐备。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑顺畅，公式与图表清楚，关键设计动机交代到位。
价值: ⭐⭐⭐⭐ 面向安全敏感的少样本部署，参数/数据双高效且掩码可迁移，实用性强。