跳转至

Tug-of-War No More: Harmonizing Accuracy and Robustness in Vision-Language Models via Stability-Aware Task Vector Merging

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KOO1cDm2bt
领域: 多模态VLM / 对抗鲁棒性 / 模型合并
关键词: 任务向量合并, 对抗鲁棒性, CLIP, 干净-鲁棒权衡, 梯度稳定性

一句话总结

针对「让 VLM 变鲁棒就一定掉干净精度」这个老大难权衡,本文提出 PISTOLE——不重训,而是把现成的「自然微调」和「对抗微调」CLIP 的任务向量按预测稳定性有选择地合并:用互补的梯度稳定性掩码压住会互相打架的坐标、用曲率敏感的指标加权对抗参数轨迹,从而把原本接近直线的干净-鲁棒前沿「掰弯」出更好的甜点,在 14 个数据集上同时把干净和鲁棒精度抬高约 5%。

研究背景与动机

领域现状:CLIP 这类基础视觉-语言模型在各种 benchmark 上表现亮眼,但对对抗扰动极度脆弱,一点点输入扰动就能让性能崩塌。主流补救手段是对抗微调(TeCoA、FARE、PMG 等),把对抗样本塞进训练里换取鲁棒性。

现有痛点:对抗微调几乎总是以牺牲干净精度为代价,而且要找到一个能接受的「干净-鲁棒」折中点,往往得做昂贵的超参搜索 + 多次重训,扩展性很差。这个干净精度与对抗鲁棒性的权衡被反复证明是个顽固的根本张力,即使模型越做越大也消不掉。

核心矛盾:作者先问了一个很自然的问题——既然参数空间的「模型合并」能不重训就融合多个微调模型,那能不能把自然微调和对抗微调两个互相冲突的目标也合并起来?但他们的初步实验发现:直接把两个任务向量做线性相加(vanilla merging),得到的是一条近乎直线的干净-鲁棒折中曲线,根本没有甜点。原因在于朴素相加对所有坐标一视同仁,分不清哪些参数对两个目标都有利、哪些会制造冲突。

切入角度:作者通过梯度分析(图 1)观察到,自然损失和对抗损失的梯度方向只有中等程度的一致性,且随攻击半径增大而退化——也就是说,兼容方向和冲突方向是共存的。既然如此,合并就不该均匀加,而应有选择地保留共识坐标、压制对抗坐标。

核心 idea:把预测稳定性当作「跨目标兼容性」的代理信号——一个参数若在对方目标下扰动不变,就该保留;若对方目标会强烈改动它,就该衰减。据此构造互补掩码筛选任务向量,再合并,得到 PISTOLE(PredIction STability-aware mOdeL mErging)。

方法详解

整体框架

PISTOLE 的输入是两个现成的微调 CLIP 视觉编码器:一个在干净数据上经验风险最小化得到的自然模型 \(\theta_{nat}\),一个经对抗微调(默认用 PMG,10 步 PGD,\(\ell_\infty,\ \epsilon=2/255\))得到的鲁棒模型 \(\theta_{rob}\)。相对预训练 \(\theta_0\),它们各自定义任务向量 \(\tau_{nat}=\theta_{nat}-\theta_0\)\(\tau_{rob}=\theta_{rob}-\theta_0\)。目标是不做任何重训,仅靠对这两个任务向量做逐坐标的有选择合并,得到一个干净-鲁棒折中更好的编码器 \(\theta_{\text{PISTOLE}}\)

整条管线分三步:先用两个目标的梯度幅值估出每个参数的稳定性,构造一对互补稳定性掩码(GISM),压住对方目标想大改的坐标;再沿对抗参数轨迹(APT)多步累积梯度,把单点估计扩展到邻域、捕捉高曲率口袋;累积时用预测临界指数(PCI)给每一步加权,让脆弱(高曲率)的预测多贡献。最后把两条任务向量分别乘上各自的 path-refined 掩码、按混合系数 \(\lambda\) 相加,叠回 \(\theta_0\) 得到合并模型。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["现成自然/对抗微调 CLIP<br/>→ 任务向量 τnat, τrob"] --> B["梯度稳定性互补掩码 GISM<br/>压对方敏感坐标、留共识坐标"]
    B --> C["对抗参数轨迹 APT<br/>邻域多步累积梯度"]
    C --> D["预测临界指数 PCI<br/>按曲率给每步加权"]
    D --> E["掩码加权合并<br/>θ0 + λ·Mnat⊙τnat + (1−λ)·Mrob⊙τrob"]
    E --> F["即插即用替换 VLM 视觉编码器<br/>分类 / captioning / VQA / 幻觉 / CoT"]

关键设计

1. GISM 梯度稳定性互补掩码:让两个目标互不踩脚

朴素相加之所以画出直线,是因为它不区分哪些坐标对方目标会强烈改动。GISM 的思路是:梯度幅值大的坐标,就是该目标「想动」的敏感坐标;为避免合并时重新引入对抗,用一方的敏感坐标去抑制另一方的任务向量。具体先把两个目标的期望梯度逐层归一化(除以该层最大幅值再做 \(\gamma\) 次幂压缩动态范围),得到 \(\tilde g_{nat},\tilde g_{rob}\in[0,1]^d\),再构造互补掩码

\[M_{nat}=(1-\tilde g_{rob})^{\kappa},\qquad M_{rob}=(1-\tilde g_{nat})^{\kappa},\]

其中 \(\kappa\ge1\) 用来锐化选择性。直觉是:施加到 \(\tau_{nat}\) 上的掩码 \(M_{nat}\)鲁棒目标的梯度决定——鲁棒目标越想改的坐标,越被压低。为了给「稳定性预算」一个可控上界,再逐层做分位数封顶(把每层最敏感的 top-\(q\) 坐标截到 \(q\)-分位数)。论文用 Theorem 1 证明:经对方掩码过滤后,跨目标的一阶干扰被一个可调因子 \(\rho\le1\) 上界住,且 \(\kappa\) 越大、封顶越紧,\(\rho\) 单调变小(Corollary 1 说明这相对无掩码相加是严格收缩)。这就是把直线前沿「掰弯」的数学根据。

2. APT 对抗参数轨迹:把单点稳定性扩展到邻域

GISM 的掩码只看了 \((\theta_{nat},\theta_{rob})\) 单点的梯度幅值,能捕捉一阶不稳定,但会漏掉附近「高曲率口袋」——那些单点平稳、稍一挪动就敏感飙升的坐标。APT 用参数空间的对抗扰动来补这个洞:对每个目标 \(s\),在以 \(\theta_s\) 为中心、半径 \(\eta\|\theta_s\|_F\) 的 Frobenius 球内,沿局部最坏方向做 \(K\) 步投影梯度上升

\[\theta_s^{(i+1)}\leftarrow \Pi_{\theta_s+V_{\theta_s}}\big(\theta_s^{(i)}+\beta\, u_s^{(i)}\big),\]

其中 \(u_s^{(i)}\) 是归一化的损失梯度方向。自然目标走干净输入、鲁棒目标走对抗输入。沿这条轨迹把梯度累积起来,重建出 path-integrated 的稳定性分数 \(\tilde g_s^{\text{path}}\),再按和 GISM 同样的方式做互补掩码与封顶。直觉很朴素:在最坏方向的参数轻推下还稳的坐标,留着才安全;沿轨迹梯度大的坐标是脆弱的,合并时要衰减。

3. PCI 预测临界指数:让脆弱的预测多说话

沿轨迹累积梯度时,每一步该等权吗?不该——平坦、置信度饱和的区域贡献应弱化,高曲率、脆弱的区域应放大。PCI 就是这样一个曲率感知的标量,衡量预测对参数微扰有多敏感:

\[\text{PCI}(x,c,\theta)=\mathbb{E}_{\Delta\in V_\theta}\frac{p_c(x;\theta+\Delta)-p_c(x;\theta)}{p_c(x;\theta)},\]

即在参数球 \(V_\theta\) 内各向同性采样扰动 \(\Delta\),看真值类置信度的相对变化期望。PCI 大说明这个预测「一碰就变」(脆弱知识),小则说明稳健。用它加权 path-integrated 梯度(式 10),高 PCI 样本在累积梯度里被上调,把合并引向那些「不处理就会主导融合后误差」的脆弱预测。论文用 Theorem 2 给出 PCI 的二阶刻画:在小 \(\eta\)\(\text{PCI}\approx \frac{\sigma^2}{2}\frac{\mathrm{Tr}(H_c(\theta))}{p_c(x;\theta)}\),即 PCI 正比于 Hessian 迹(曲率)。这把 PCI 加权和「偏向平坦极小、更好泛化」严格挂钩——曲率分析(图 5)也证实 PISTOLE 全程把损失-参数曲率压得比 vanilla 低,且操作点 \(\lambda=0.2\) 处曲率最低、折中最好。

损失函数 / 训练策略

PISTOLE 本身不训练,是个无重训的合并算子。底座是 ViT-L/14 的 CLIP,自然向量来自干净数据 ERM、鲁棒向量来自 PMG(10 步 PGD,\(\ell_\infty,\epsilon=2/255\),步长 \(1/255\))。合并的最终位移为

\[\tau^*(\lambda)=\lambda\,(M_{nat}^{\text{path}}\odot\tau_{nat})+(1-\lambda)\,(M_{rob}^{\text{path}}\odot\tau_{rob}),\quad \theta_{\text{PISTOLE}}=\theta_0+\tau^*(\lambda),\]

默认混合系数 \(\lambda=0.2\)。鲁棒性用 AutoAttack 评测;下游迁移时直接把 LLaVA-1.5-7B / OpenFlamingo-9B 的视觉编码器换成合并后的编码器、其余冻结。

实验关键数据

主实验

14 个数据集上的 zero-shot 分类(CLIP ViT-L/14,AutoAttack \(\ell_\infty,\epsilon=2/255\),Sum = Clean+Robust 平均):

方法 Clean Robust Sum
TeCoA 61.56 43.26 104.82
PMG 64.46 45.74 110.20
FARE 65.50 42.97 108.47
TGA 62.11 45.19 107.30
PISTOLE 69.24 47.65 116.89

相对最强对抗微调基线,干净精度约 +5%、鲁棒精度约 +5.8%。换 backbone(ViT-H/14、ViT-B/32)、加大扰动半径(\(\epsilon=3/255,4/255\))、以及配 LoRA 的 PEFT 设定下,PISTOLE 的 Sum 均保持领先(如 ViT-H/14:126.06 vs FARE 120.80)。

下游迁移(即插即用换编码器)同样全面领先:

任务 指标 最强基线 PISTOLE
COCO captioning (LLaVA) CIDEr Sum 156.4 (FARE) 165.5
VQAv2 (LLaVA) Acc Sum 104.8 (FARE) 110.6
POPE 幻觉 (ViT-L) F1 均值 80.8 (FARE) 83.0
ScienceQA CoT (ViT-L) Acc 均值 52.4 (FARE) 54.1

消融实验

三个核心模块的逐步叠加(14 数据集平均,Table 8):

配置 Clean Robust Sum 说明
vanilla 相加 66.57 44.54 111.11 基线
+GISM 67.78 45.69 113.47 互补稳定性掩码
+GISM+PCI 68.36 46.47 114.83 加曲率加权
+GISM+APT 67.64 47.11 114.75 加对抗轨迹(主要提鲁棒)
Full (GISM+PCI+APT) 69.24 47.65 116.89 完整模型

关键发现

  • GISM 是地基:单加掩码就同时把干净和鲁棒抬上去(Sum +2.36),印证「互相抑制敏感坐标」是把直线前沿掰弯的关键。
  • PCI 偏干净、APT 偏鲁棒:PCI 主要靠优先处理脆弱预测把干净侧多拉一点,APT 靠邻域梯度细化估计把鲁棒侧多拉一点,二者互补,合起来才到最优。
  • 自然向量来源:用「自然微调」模型比用「零样本预训练」模型当自然向量更好(Sum 116.89 vs 114.93),因为 ERM 的任务校准位移更贴近鲁棒目标的共识方向。
  • \(\lambda=0.2\) 是甜点:该点损失-参数曲率最低、折中最好,与 Theorem 1/2「偏向平坦极小」的预测吻合。

亮点与洞察

  • 把「稳定性」当兼容性代理很巧:不直接去优化两个冲突目标,而是用「对方目标会不会强烈改动这个坐标」当过滤信号,避开了联合重训,纯靠现成模型做后处理。
  • 理论-实践闭环漂亮:Theorem 1 给掩码一个可调的一阶干扰收缩界,Theorem 2 把 PCI 和 Hessian 迹挂钩,再用曲率实测(图 5)三方对上,不是纯堆 trick。
  • 可迁移的 trick:「互补梯度掩码 + 沿对抗参数轨迹累积 + 曲率加权」这套思路不限于干净-鲁棒,原则上能用到任何两个部分冲突目标的无重训合并(如公平 vs 精度、多任务冲突)。
  • 幻觉率也降了,作者归因于稳定性掩码抑制了「过自信、脆弱」的特征——这点说明对抗稳定性和减幻觉之间可能共享底层机制。

局限与展望

  • 依赖现成的高质量对抗微调模型:PISTOLE 不重训,但需要先有一个好的 \(\theta_{rob}\)(默认 PMG)。Table 10 显示换不同鲁棒来源(TeCoA/FARE/PMG)会显著改变 InD/OOD 鲁棒的相对趋势,说明合并质量受上游微调质量牵制。
  • 只动视觉编码器:方法只合并 CLIP 视觉塔的任务向量,文本塔和下游 LLM 都冻结,权衡空间被限定在视觉侧。
  • 超参不少\(\kappa\)、分位数 \(q\)、轨迹步数 \(K\)、半径 \(\eta\)、温度 \(\gamma\)\(\lambda\) 都要设;虽省了重训,但掩码构造本身的调参成本和敏感性论文主要放在附录,正文给的直觉多于系统扫描。
  • 一阶/局部理论:Theorem 1 是一阶非干扰界、Theorem 2 是小 \(\eta\) 近似,远离微调解的大位移下保证会松。

相关工作与启发

  • vs 对抗微调(TeCoA / FARE / PMG / TGA):它们靠把对抗样本塞进训练换鲁棒,普遍掉干净精度且要重训+调参;PISTOLE 把它们的产物当现成零件,无重训地有选择融合,Sum 全面更高。
  • vs 朴素任务向量相加(Task Arithmetic)/ WiSE-FT 线性插值:朴素相加对所有坐标等权,对冲突目标只能画出近直线前沿;PISTOLE 用梯度互补掩码做逐坐标再加权,把前沿掰出甜点。
  • vs Ties-Merging / AdaMerging:这两者也处理合并冲突,但 Ties 靠符号/幅值裁剪解冲突、AdaMerging 学自适应系数,都忽略了参数空间扰动和局部损失几何;PISTOLE 的差异化在于引入对抗参数轨迹和曲率感知的 PCI,把「局部稳定性/曲率」显式纳入合并。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次把任务向量合并用于「干净 vs 对抗鲁棒」这对冲突目标,且稳定性代理 + 曲率理论自成一体。
  • 实验充分度: ⭐⭐⭐⭐⭐ 14 数据集 + 多 backbone + 多扰动半径 + LoRA + 4 类下游迁移 + 三模块消融 + 曲率分析,覆盖很全。
  • 写作质量: ⭐⭐⭐⭐ 动机和理论清晰,但符号和掩码细节较密,正文超参分析偏少需翻附录。
  • 价值: ⭐⭐⭐⭐⭐ 无重训、即插即用、可迁移到下游,对部署侧很实用。