Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks¶

会议: CVPR 2026
arXiv: 2508.04097
代码: https://ngoc-nguyen-0.github.io/SMI_AW/
领域: 多模态VLM / AI安全
关键词: 模型反转攻击, VLM隐私泄露, 自适应token加权, 视觉注意力引导, 训练数据重建

一句话总结¶

首次系统研究 VLM 的模型反转（Model Inversion）攻击，提出一套面向 token 生成特性的反转策略（TMI/TMI-C/SMI），以及基于视觉注意力强度动态加权 token 梯度贡献的 SMI-AW 方法，在 4 种 VLM 和 3 个数据集上实现最高 61.21% 的人类评估攻击准确率，揭示了 VLM 严重的训练数据隐私泄露风险。

背景与动机¶

模型反转（MI）攻击旨在从训练好的模型中重建私有训练数据，已在单模态 DNN（尤其是人脸识别）中被广泛研究。然而 VLM 有以下独特之处导致传统 MI 不能直接适用：

VLM 的输出是 token 序列而非类别标签，需要新的反转目标函数
VLM 包含多个模块（视觉编码器、投影层、语言模型），且视觉编码器通常冻结——私有信息主要嵌入在语言模型和投影层参数中
不同输出 token 对视觉输入的依赖程度不同——有些 token 强视觉关联，有些仅由语言上下文驱动

随着 VLM 在医疗、金融等敏感领域部署，理解其隐私风险迫在眉睫。

核心问题¶

VLM 是否和单模态 DNN 一样容易受到模型反转攻击？如何针对 VLM 的 token 生成特性设计有效的 MI 攻击方法？

方法详解¶

整体框架¶

这是个白盒模型反转攻击：攻击者握有 VLM 的完整架构、参数和注意力图，想从模型里"反推"出训练用过的私有图像。具体做法是在预训练 StyleGAN2 的潜空间里优化一个 \(w\)，让生成图 \(x = G(w)\) 喂给 VLM 后、在给定文本 \(t\)（如"Who is the person in the image?"）下能输出目标答案 \(y\)（如某个人名）。整条流水线是一个迭代优化回环——生成候选图 → 过 VLM 拿到答案 token 序列 → 算反转损失 → 反传更新 \(w\) → 重复 \(N\) 步，直到生成图能稳定诱导出目标答案。难点在于 VLM 输出的是 token 序列而非单个类别标签，所以全部创新都集中在"回环里怎么把这串 token 的损失聚合成一个反转信号"这一步：作者沿着"逐 token → 序列级 → 注意力加权"一路把这个聚合方式做强，最终落到 SMI-AW。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["潜码 w（StyleGAN2 潜空间，待优化）"] --> B["生成候选图像 x = G(w)"]
    B --> C["VLM M(t, x)：文本提示 t + 图像 x<br/>→ 输出答案 token 序列 y"]
    C --> AGG
    subgraph AGG["反转损失聚合方式（4 种策略递进，SMI-AW 为最终方案）"]
        direction TB
        D1["1. TMI：逐 token 各更一次（梯度噪声大）"] --> D2["2. TMI-C：每 token 更到收敛（方向互拉，最差）"]
        D2 --> D3["3. SMI：整句损失取平均（全局梯度，稳）"]
        D3 --> D4["4. SMI-AW：按交叉注意力权重 β 动态加权（核心贡献）"]
    end
    AGG --> E["梯度更新 w = w − λ·∂L/∂w"]
    E -->|回环 N 步| B
    E --> F["输出：重建的私有训练图像"]

关键设计¶

1. Token-based MI（TMI）：逐 token 反推，但梯度太吵

最直接的想法是把答案序列里每个 token \(y_i\) 单独拿来算反转损失、各更新一次 \(w\)，一轮遍历完 \(m\) 个 token。问题是单 token 的梯度噪声大，那些和视觉关系很弱的 token（如冠词）会用错误方向带偏优化。

2. Convergent Token-based MI（TMI-C）：每个 token 更到收敛，反而更差

既然单次更新噪声大，那就对每个 token 连更 \(K\) 次直到收敛再换下一个。结果适得其反——逐 token 的收敛方向彼此不稳定、来回拉扯，目标匹配率掉到最低（<30%）。

3. Sequence-based MI（SMI）：把整句的损失合成一个目标

前两种的毛病都出在"按 token 各管各的"。SMI 改成把所有 token 的损失聚合成统一目标，每步用全局梯度更新 \(w\)：

\[\mathcal{L} = \frac{1}{m}\sum_{i=1}^m \mathcal{L}_{inv}(M(t, G(w), y_{<i}), y_i)\]

全局信号比单 token 稳得多，目标匹配率直接冲到 >95%，远优于 TMI。

4. SMI-AW：按视觉注意力给 token 动态加权（核心贡献）

SMI 把所有 token 一视同仁，但作者观察到不同 token 对视觉输入的依赖差很多——视觉接地好的 token（如名字里有描述性的部分）有强交叉注意力，梯度里携带的视觉信息更丰富；语言驱动的 token（如冠词）注意力弱、梯度几乎没用。SMI-AW 就用交叉注意力值 \(\alpha_i\) 算权重 \(\beta_i = \alpha_i / \sum_j \alpha_j\)，加权聚合损失 \(\mathcal{L} = \sum_{i=1}^m \beta_i \mathcal{L}_{inv}\)。关键是这个权重在每个反转步骤都重算——因为重建图越来越逼近目标时，token 对视觉的依赖度本身在变，静态权重抓不住这种变化。

损失函数 / 训练策略¶

三种反转损失：交叉熵 \(\mathcal{L}_{CE}\)、最大间隔 \(\mathcal{L}_{MML}\)、logit 最大化 \(\mathcal{L}_{LOM}\)（最优）；\(\mathcal{L}_{LOM}\) 直接最大化目标 token 的 logit 并加正则化防止 logit 无界增长
反转步数 \(N = 70\)，更新率 \(\lambda = 0.05\)
初始候选选择：采样 2000 个 \(w\)，选 top-16 低损失候选；最终选择：10 次随机增强后选 8 个最优

实验关键数据¶

FaceScrub 数据集（LLaVA-v1.6-7B）¶

方法	AttAcc_M ↑	AttAcc_D Top1 ↑	AttAcc_D Top5 ↑	δ_face ↓
TMI	42.20%	18.03%	40.25%	0.8901
TMI-C	16.08%	3.85%	11.64%	1.1825
SMI	57.83%	33.50%	61.56%	0.7473
SMI-AW	61.01%	37.62%	66.16%	0.7265

跨数据集（LLaVA-v1.6-7B + SMI-AW）¶

数据集	AttAcc_M ↑	AttAcc_D Top1 ↑
FaceScrub	61.01%	37.62%
CelebA	67.05%	45.25%
StanfordDogs	78.13%	55.83%

跨模型（FaceScrub + SMI-AW）¶

VLM	AttAcc_M ↑	δ_eval ↓
LLaVA-v1.6-7B	61.01%	134.94
InternVL2.5-8B	55.05%	139.18
MiniGPT-v2	47.92%	161.25
Qwen2.5-VL-7B	32.03%	150.46

人类评估¶

VLM	数据集	AccAcc_H ↑
LLaVA-v1.6-7B	CelebA	61.21%
LLaVA-v1.6-7B	FaceScrub	56.93%
MiniGPT-v2	FaceScrub	57.22%

消融实验要点¶

序列 vs token：序列方法的目标匹配率 >95%，token 方法仅 60-79%（TMI-C <30%），证明全局梯度信号更稳定
自适应加权 vs 均匀加权：SMI-AW 在所有指标上一致优于 SMI，验证了视觉注意力引导权重的有效性
损失函数：\(\mathcal{L}_{LOM}\) 最优，\(\mathcal{L}_{CE}\) 次之，\(\mathcal{L}_{MML}\) 最差
Prompt 鲁棒性：不同输入 prompt 对攻击效果影响很小（AttAcc_M 在 59-61% 范围）
公开模型攻击：成功从公开的 LLaVA-v1.6-7B 和 MiniGPTv2 重建名人面部图像

亮点¶

开拓性问题：首次系统研究 VLM 的模型反转攻击，填补了多模态隐私安全的重要空白
关键洞察：不同输出 token 的视觉接地程度不同，且随反转步骤动态变化——这是 VLM 特有的特性，单模态 MI 中不存在
方法设计巧妙：利用交叉注意力图作为梯度信息量的代理，将 VLM 的内部机制转化为攻击优势
实用验证：在公开发布的 VLM 上成功重建名人面孔，证明隐私风险是现实的而非理论的
大规模人类评估：4,240-8,000 名众包参与者，评估结果可信

局限与展望¶

白盒假设：实际场景中攻击者可能无法获取完整模型参数和注意力图
领域限制：仅在人脸和狗品种数据集上验证，未扩展到自然场景或医学图像
视觉编码器冻结假设：若视觉编码器也被微调，攻击效果可能不同
防御方向未探索：论文主要关注攻击，未提出具体防御方案
Qwen2.5-VL 攻击效果较差（仅 32%），可能与其架构差异有关，值得深入分析

与相关工作的对比¶

vs 传统 MI (GMI/PPA/KEDMI): 传统方法针对分类模型的类别标签做反转；本文将 MI 推广到 VLM 的 token 序列生成，需要全新的优化策略
vs 对比学习下的 MI: 先前工作主要研究 CLIP 等对比模型的对齐泄露；本文聚焦在 VLM 的生成式语言建模阶段，攻击面不同
vs 联邦学习隐私攻击: FL 中的梯度反转攻击依赖拦截梯度；本文从已训练模型出发，不需要训练过程中的梯度

启发与关联¶

VLM 隐私防御：本文揭示的攻击路径提示需要在 VLM 训练中加入隐私保护措施——差分隐私、正则化或类似 Trap-MID 的诱饵信号
与 RED (Rationale-Enhanced Decoding) 的关系：两篇论文都利用了 VLM 中 token 对视觉输入的不同依赖程度，但方向相反——RED 用来增强推理，SMI-AW 用来增强攻击
多模态安全研究：随着 VLM 在医疗（如放射影像报告生成）中的应用增多，此类攻击的现实风险不容忽视

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 MI 攻击推广到 VLM，问题意义重大且方法设计合理
实验充分度: ⭐⭐⭐⭐⭐ 4 种 VLM、3 个数据集、5 种评估指标（含大规模人类评估）、公开模型攻击验证
写作质量: ⭐⭐⭐⭐ 逻辑清晰，问题描述准确，但补充材料内容过多可精简
价值: ⭐⭐⭐⭐⭐ 对 VLM 部署的隐私安全警示意义极高，开拓了新的研究方向