Hierarchically Robust Zero-shot Vision-language Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: AI安全 / 对抗鲁棒 / 多模态VLM
关键词: 对抗微调, CLIP 鲁棒性, 双曲嵌入, 类别层次, 零样本分类

一句话总结¶

把 CLIP 的对抗微调从"只对齐叶子类（base class）的扁平方案"改造成"沿 WordNet 类别树多层级对齐"的层次方案，借助双曲（Poincaré 球）几何让不同层级天然拥有不同大小的间隔（margin），从而生成更通用的对抗扰动，在 15 个数据集上同时提升干净精度（62.5%）和鲁棒精度（45.4%）。

研究背景与动机¶

领域现状：CLIP 这类视觉-语言模型（VLM）能做零样本分类，但对对抗样本极其脆弱（标准 CLIP 在 PGD 攻击下鲁棒精度仅 ~7%）。主流补救手段是对抗微调（adversarial fine-tuning），如 TeCoA / PMG-FT / FARE：把每张图的对抗特征与它所属 base 类（叶子类，如 "kit fox"）的文本嵌入对齐，让模型在攻击下仍能匹配正确类别。

现有痛点：这些方法都在扁平的类别结构上做"逐样本对齐"——只盯着 base 类，忽略了类别本身的层次信息（fox←canine←carnivore←mammal）。作者用实验揭示了一个被忽视的漏洞：当攻击者把对抗样本瞄准父类/超类（superclass，如 mammal）而非叶子类时，TeCoA/PMG/FARE 在超类上的鲁棒精度大幅崩塌（图 1a）；反过来，在超类层级生成的对抗样本能高成功率地迁移去攻击叶子类（图 1b）。

核心矛盾：只在 base 类上做对抗学习，得到的扰动按设计就只关注叶子类，无法泛化到更一般的语义层级；而真实攻击可以发生在任意抽象层级。问题的根源是"扁平类空间 + 欧氏几何"——欧氏分类器的可行间隔被限制在有限范围 (0,1)，无法同时覆盖"从通用到专门"的多种泛化尺度。

本文目标：(i) 把对抗微调重写成利用类别层次的版本；(ii) 让一次扰动同时威胁多个抽象层级，得到更通用的对抗样本去鲁棒化模型。

切入角度：树天然能以极低失真嵌进双曲空间（Poincaré 球）；并且在双曲空间里，向量的范数 \(\eta=\|\phi\|_2\) 直接编码节点在树中的深度（范数越小越靠近根/越通用）。更关键的是，双曲分类器的可行间隔会随范数 \(\eta\to 1/\sqrt{r}\) 指数增长到无穷，而欧氏分类器只能有限——这意味着不同层级天生对应不同大小的 margin。

核心 idea：用双曲层次嵌入承载"叶子→根"的类别树，让各层级同时参与图文对抗对齐，并生成一个对所有层级都有效的通用层次扰动，把单一 margin 的对抗微调升级为"多 margin、多泛化尺度"的层次鲁棒化。

方法详解¶

整体框架¶

方法在 CLIP 的图像/文本双编码器之上做对抗微调。文本侧把每个类沿类别树（ImageNet 用 WordNet，其它数据集用 ChatGPT-4o 生成超类）取出从叶子到根的完整路径，每个层级各编一条提示；所有嵌入经指数映射（exp map）送入 Poincaré 球。图像侧只有 base 类标注，于是用双曲平均 HypAvg 把同一父类下若干子类图像嵌入"上卷"成更通用的父类图像嵌入。随后在每个层级做图文对齐，并对所有层级一次性生成通用对抗扰动 \(\delta_X,\delta_T\)，最后加上类内一致性与范数顺序约束，得到鲁棒化后的 CLIP。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 + 类别层次树<br/>(WordNet / ChatGPT 生成超类)"] --> B["双曲层次嵌入<br/>exp map → Poincaré 球<br/>范数 η 编码层级深度"]
    B --> C["层次化图文对齐 (HITA)<br/>HypAvg 生成父类图像嵌入<br/>+ HNSA 邻级负集增强"]
    C --> D["通用层次对抗扰动<br/>PGD 对所有层级生成单一 δX,δT"]
    D --> E["类内一致性 + 范数顺序约束<br/>Lvic + Label/Intra norm gap"]
    E --> F["鲁棒化后的 CLIP<br/>(零样本对抗鲁棒)"]

关键设计¶

1. 双曲层次嵌入：用范数当"层级标尺"

扁平欧氏对齐的根本局限是只有一个固定 margin，覆盖不了"通用 vs 专门"的多尺度泛化。作者把类别树嵌进 Poincaré 球 \(\mathbb{D}^d_r=\{\phi\in\mathbb{R}^d \mid \|\phi\|_2^2<1/r\}\)，用指数映射 \(\exp^r_0(\cdot)\) 把 CLIP 的欧氏嵌入投进双曲空间，并用 Riemannian 距离 \(d_r(u,v)=\frac{2}{\sqrt r}\tanh^{-1}(\sqrt r\|-u\oplus v\|_2)\) 度量。关键性质是：向量范数 \(\eta=\|\phi\|_2\) 单调编码节点在树里的深度——父类（更通用）范数更小、更靠球心，子类（更专门）范数更大、更靠边界。作者据此证明了 Theorem 1：双曲分类器的可行 log-margin \(m_r(\eta)\) 在 \(\eta\to 1/\sqrt r\) 时趋于无穷（欧氏分类器只能停在有限值 \(2\lambda\eta^2\)）。因此沿树铺开的多个层级天然提供从小到大的一系列 margin，这是后面"扰动更通用"的几何根基。

2. 层次化图文对齐 HITA：HypAvg 造父类图像嵌入 + HNSA 负集增强

文本侧每个层级都有提示嵌入，但图像侧没有"超类图像"（不存在一张代表所有 car 的通用图）。作者用双曲平均 HypAvg（基于 Einstein 中点，见式 8）把 mini-batch 内同父类的若干子类图像嵌入聚成一个范数更低、更靠球心的父类图像嵌入 \(\phi^l_c=\mathrm{HypAvg}(\{\phi(x):x\in X^l_c\})\)，递归地从 \(l=0\) 叶子逐层卷到 \(l=L\) 根。于是每个层级都能做图文对齐，整体写成 Hierarchy-preserving Image-Text Alignment（HITA，式 10）：\(L'=\max_{\delta}\sum_{l=0}^{L}\omega_l\, L_{CE}(p^l,\,t^l_c+\delta_T,\,y(c))\)，层级权重 \(\omega_l=1-\frac{l}{L+1}\) 越靠叶子权重越大。同时设计 Hierarchy-aware Negative Set Augmentation（HNSA）：在 softmax 概率（式 9）的分母里塞进相邻层级 \(l\pm1\) 中"不与当前类共边"的类作为额外负样本 \(\eta^l_c\)，让对齐不仅区分同级类、还区分跨层级的语义混淆。消融显示同时用上下两级负集比只用一级更好。

3. 通用层次对抗扰动：一次扰动打穿所有层级

有了多层级分类器后，怎么生成对抗样本是关键。朴素做法是为每个层级各自跑 PGD（"diverse hierarchical perturbations"），但既慢又效果一般。本文用 PGD 在式 (10) 的层次目标上生成单一的通用扰动 \(\hat x=x+\delta_X,\ \hat t=t+\delta_T\)，让这同一个扰动同时去抬高所有层级分类器的对抗风险。其有效性来自设计 1 的几何：父类分类器 margin 小、最易被攻破，得到的扰动因父类标签空间更通用而更"普适"；这同一个扰动作用到子类分类器（margin 大）时又被专门化，于是获得"从通用到专门"的鲁棒化能力。消融（表 12）很说明问题：通用层次扰动 44.34% PGD 且每 epoch 仅 73.2 min，而"逐层级各自扰动"只有 42.35% 却要 154.2 min——又好又省一半时间。

4. 类内一致性与范数顺序约束：守住层次几何的完整性

单纯做层级对齐会有两个塌缩风险：图像嵌入被硬拉到 base 类文本嵌入上（丢掉个体细粒度差异），以及各层级嵌入的范数顺序被打乱（父类范数本该小于子类）。作者加两组软约束：类内邻域对齐 \(L_{vic}=\sum d_r(\phi(\hat x_c),\psi(\hat t_c))-\zeta_{vic}\) 只把图像嵌入约束进文本嵌入附近半径 \(\zeta_{vic}\) 内、不强行重合；范数顺序惩罚（式 11、13）用 \(\max(0,\|\psi(\hat t^{l+1}_c)\|_2-\|\psi(\hat t^l_c)\|_2+\zeta_{gap})\) 强制"父类范数 < 子类范数"，保住树深度与范数的对应关系。消融（表 10）：在 HITA 之上加 vic 把干净精度从 59.27→62.35、加 gap 进一步稳住鲁棒性，完整模型 62.14/44.34（clean/PGD）。

损失函数 / 训练策略¶

总目标 \(L=L'+\lambda_1 L_{vic}+\lambda_2(L^{Label}_{gap}+L^{Intra}_{gap})\)（式 14）。与以往只动图像编码器不同，本文同时优化文本编码器的投影层以获得更好的层次对齐。骨干为 CLIP ViT-B/32，在 ImageNet 上微调，WordNet 层次深度 \(L=5\)；图像扰动半径与步长 \(\epsilon_X=\alpha_X=1/255\)、文本扰动 \(\epsilon_T=2\times10^{-4}\)，PGD 迭代 3 步。还支持"多棵树森林"（不同父类标签共享同叶子）：对每棵树各算一遍损失再相加（论文用到 5 棵树）。

实验关键数据¶

主实验¶

在 ImageNet 上对抗微调，再零样本评测 15 个数据集（含 ImageNet）的平均干净精度与 PGD-20 鲁棒精度（\(\epsilon_X=1/255\)，ViT-B/32）。

方法	平均干净精度	平均鲁棒精度 (PGD-20)
CLIP (2021)	64.90	7.21
TeCoA (2023)	52.62	38.91
PMG-FT (2024)	57.36	39.72
FARE (2024)	59.67	37.93
AoS (2025)	61.70	43.88
本文 (Ours)	62.14	44.34
本文 (5 棵树)	62.49	45.39

相比 FARE，干净精度平均 +2.5%、鲁棒精度平均 +6.4%；5 棵树版本比最新的 AoS 在干净/鲁棒上再 +1%/+1.5%，而 AoS 用了 10× 图像增广、50× 文本增广。更强攻击（CW、Auto-Attack）下、更大扰动半径（2~4/255）下、以及 ViT-L/ResNet-50 骨干上，本文均保持领先；扩展到 BLIP/CoCa 的图文检索与图像描述、以及医学 CLIP（ChestXray14/CheXpert/PadChest）也都更鲁棒。

消融实验¶

配置	干净	PGD	AA	说明
基线 (TeCoA)	52.62	38.91	37.62	扁平逐样本对齐
+ HITA	59.27	42.08	40.59	加层次图文对齐
+ HITA + vic	62.35	43.67	42.18	再加类内邻域对齐
+ HITA + gap	60.06	43.15	41.54	再加范数顺序惩罚
Full (全部)	62.14	44.34	42.72	完整模型

对抗扰动生成策略	干净	PGD	AA	每 epoch 时间
仅叶子层扰动	60.25	41.59	40.23	70.1 min
逐层级分别扰动	61.37	42.35	40.88	154.2 min
通用层次扰动	62.14	44.34	42.72	73.2 min

关键发现¶

层次对齐 HITA 贡献最大：单独加上去就把鲁棒精度从 38.91→42.08、干净精度 +6.65%，印证"丰富的层次决策边界"是主要增益来源。
负集增强要"上下两级都用"：只用低级或只用高级超类（43.62 / 43.83）都不如上下都用（44.34），说明跨层级负样本提供了互补的判别信息。
"通用扰动"是效率与效果的甜点：一次扰动打穿所有层级既比逐层级扰动更鲁棒（44.34 vs 42.35），又把训练时间砍掉一半多——这是双曲多 margin 几何带来的直接红利。
超类生成 LLM 的选择影响很小（LLaMA-2 / Claude-2 / ChatGPT-4o 差异 <1%），说明方法不强依赖某个特定 LLM。

亮点与洞察¶

把"类别层次"重新带回对抗鲁棒：以往对抗微调默认扁平类空间，本文用一个简单实验（超类对抗样本能反向迁移攻击叶子类）戳破了这个盲区，动机非常具体、有说服力。
范数即层级、margin 随深度指数增长：用双曲几何把"嵌入深度"和"可行间隔大小"绑定，是个可迁移的设计原语——任何需要"多尺度泛化"的对齐任务都可借鉴这种"靠范数排层级"的思路。
HypAvg 解决了"图像没有超类样本"的实际困难：用 Einstein 中点把子类图像嵌入聚成父类嵌入，既符合双曲几何、又给图像侧补齐了层级标签，是工程上很关键的一步。

局限与展望¶

方法依赖一棵可靠的类别树：ImageNet 有 WordNet，其它数据集要靠 ChatGPT 生成超类 + 人工审核，质量与可扩展性存疑（虽然消融显示对 LLM 选择不敏感，但仍需人工把关）。
双曲运算（exp/log 映射、Riemannian 距离、HypAvg）引入额外计算与数值稳定性处理（投影 \(\xi\) 防止触界），实现复杂度高于普通欧氏方案。
评测集中在分类与少量下游任务；对开放词表检测、密集预测等更复杂任务的层次鲁棒性尚未验证。
曲率 \(r\)、各层权重 \(\omega_l\)、范数间隔 \(\zeta_{gap}\) 等超参的敏感性正文披露有限，⚠️ 具体取值以原文附录为准。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把双曲层次几何与对抗微调结合，并给出 margin-深度的理论刻画
实验充分度: ⭐⭐⭐⭐⭐ 15 数据集 + 多攻击 + 多骨干 + 检索/描述/医学多任务，消融完整
写作质量: ⭐⭐⭐⭐ 动机清晰、理论扎实，但双曲符号密集、对非该背景读者门槛较高
价值: ⭐⭐⭐⭐ 在效率与鲁棒性上同时改进，结构化思路对相关对齐任务有迁移价值