Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks¶

会议: CVPR2026
arXiv: 2508.04097
代码: 项目主页
领域: 多模态VLM
关键词: 模型逆向攻击, 视觉-语言模型, 隐私安全, 自适应token加权, 训练数据泄露

一句话总结¶

首次系统研究 VLM 的模型逆向（Model Inversion）攻击，提出基于自适应 token 注意力权重的序列级逆向方法 SMI-AW，通过动态加权视觉关联度不同的 token 梯度，从 VLM 中重建隐私训练图像，人类评估攻击准确率达 61.21%。

背景与动机¶

模型逆向攻击的隐私风险：MI 攻击能从训练好的模型参数中重建隐私训练数据，已在单模态 DNN（如分类器）上被广泛研究，但多模态 VLM 的安全性尚未被探索。
VLM 大规模部署的安全隐患：LLaVA、Qwen2.5-VL、InternVL 等 VLM 被广泛应用于医疗、金融等敏感领域，若存在训练数据泄露风险则后果严重。
VLM 与 DNN 的本质差异：VLM 处理多模态输入、包含多个独立模块（视觉编码器、投影器、语言模型）、输出为 token 序列而非类别标签，传统 MI 不能直接套用。
视觉编码器通常冻结：许多 VLM 在微调时冻结视觉编码器，只更新语言模型和投影器，这意味着隐私信息嵌入在语言模型参数中，逆向攻击面临间接提取的挑战。
token 序列的异质性：VLM 输出的不同 token 对视觉输入的依赖程度差异很大——有的强视觉关联，有的仅由语言上下文驱动，统一处理会引入噪声。
公开发布模型也有风险：已公开的预训练 VLM（如 LLaVA-v1.6-7B）同样可能被逆向攻击重建其训练数据中的人脸等敏感信息。

方法详解¶

整体框架¶

攻击者拥有白盒访问权限（模型参数、注意力图、logits），利用公开数据集训练的生成模型 $G$（如 StyleGAN2）在低维隐空间 $w$ 中优化，通过 $x = G(w)$ 重建隐私图像。目标：找到 $w^*$ 使 VLM 对重建图像 $G(w^*)$ 的输出与目标文本答案 $\mathbf{y}$ 高度匹配。

四种逆向策略¶

TMI（Token-based MI）：逐 token 更新隐向量 $w$，每个 token $y_i$ 独立计算梯度并更新一次。
TMI-C（Convergent TMI）：对每个 token $y_i$ 进行 $K$ 次迭代收敛后再处理下一个 token，更好地对齐 token 间的生成依赖。
SMI（Sequence-based MI）：对整个序列的 token 损失取平均，单次梯度更新聚合全序列信息，提供更稳定一致的优化方向： $$\mathcal{L} = \frac{1}{m}\sum_{i=1}^{m}\mathcal{L}_{inv}(M(\mathbf{t}, G(w), y_{<i}), y_i)$$
SMI-AW（核心方法）：在 SMI 基础上引入自适应 token 权重。

SMI-AW 自适应加权设计¶

核心观察：不同输出 token 的交叉注意力图差异显著——视觉关联强的 token 注意力响应高，其梯度含更丰富的视觉信息。
权重计算：用 token $y_i$ 对图像的总视觉注意力值 $\alpha_i$ 计算归一化权重： $$\beta_i = \frac{\alpha_i}{\sum_{j=1}^{m}\alpha_j}$$
动态更新：$\beta_i$ 在每个逆向步骤中重新计算，因为随重建图像逐渐逼近目标，token 的视觉依赖程度会变化。
加权损失： $$\mathcal{L} = \sum_{i=1}^{m}\beta_i \mathcal{L}_{inv}(M(\mathbf{t}, G(w), y_{<i}), y_i)$$

逆向损失函数¶

扩展传统单模态 MI 的三种损失到 VLM 场景：

$\mathcal{L}_{CE}$：交叉熵损失
$\mathcal{L}_{MML}$：最大间隔损失
$\mathcal{L}_{LOM}$：logit 最大化损失（效果最佳）

实验关键数据¶

实验设置¶

目标 VLM：LLaVA-v1.6-7B、Qwen2.5-VL-7B、MiniGPT-v2、InternVL2.5-8B
数据集：FaceScrub (530类)、CelebA (1000类)、StanfordDogs (120类)，构造 VQA 格式
生成模型：StyleGAN2 (FFHQ)、AFHQ-Dogs 训练的生成器
评估指标：$AttAcc_M$（MLLM评估）、$AttAcc_D$ Top1/Top5（DNN评估）、$\delta_{face}$、$\delta_{eval}$、$AttAcc_H$（人类评估）

主实验结果（FaceScrub + LLaVA-v1.6-7B + $\mathcal{L}_{LOM}$）¶

方法	$AttAcc_M$↑	Top1↑	Top5↑	$\delta_{face}$↓	$\delta_{eval}$↓
TMI	44.34%	21.77%	44.69%	0.8488	141.87
TMI-C	31.16%	9.32%	24.22%	1.0221	457.49
SMI	59.17%	33.47%	61.89%	0.7465	140.83
SMI-AW	61.01%	37.62%	66.16%	0.7265	134.94

跨数据集结果（SMI-AW + $\mathcal{L}_{LOM}$）¶

数据集	$AttAcc_M$↑	Top1↑	Top5↑
CelebA	67.05%	45.25%	69.55%
StanfordDogs	78.13%	56.15%	84.79%

跨模型泛化（FaceScrub + SMI-AW + $\mathcal{L}_{LOM}$）¶

模型	$AttAcc_M$↑	Top1↑	Top5↑
InternVL2.5-8B	55.05%	25.05%	52.10%
MiniGPT-v2	47.92%	14.62%	33.82%
Qwen2.5-VL-7B	32.03%	13.21%	27.24%

人类评估（$AttAcc_H$）¶

不同 VLM 在 FaceScrub 上的人类攻击准确率为 53.42%–57.22%，CelebA 上达 61.21%，StanfordDogs 为 55.42%。

消融分析：Token-based vs. Sequence-based¶

序列级方法（SMI/SMI-AW）的 match rate > 95%，远超 token 级方法（TMI 60–79%，TMI-C < 30%）。
Token 级方法梯度方差大、不稳定，弱视觉关联 token 的梯度会误导优化方向。
SMI-AW 的自适应权重在每步动态更新，放大视觉关联 token 的贡献，抑制语言驱动 token 的噪声。

亮点¶

首创性：首次系统研究 VLM 的模型逆向攻击，填补多模态隐私安全的重要空白。
方法设计精妙：利用交叉注意力图作为 token 视觉关联度的代理指标，自适应加权思路自然且有效。
评估全面：4 个 VLM × 3 个数据集 × 5 种指标（含大规模人类评估），实验规模充分。
实际威胁验证：在公开发布的 LLaVA-v1.6-7B 上成功重建名人面部，说明隐私风险真实存在。
序列 vs. token 方法的深入分析：不仅提方法还给出了为什么 token 级方法失效的机制性解释。

局限与展望¶

白盒假设较强：需要完整访问模型参数和注意力图，实际部署场景中 API 访问（黑盒）更常见。
生成模型依赖：需要在与隐私数据同域的公开数据上训练 StyleGAN，对新域或稀缺域的适用性受限。
VQA 场景特定：实验基于 VQA 格式构造的数据，对话式、指令式等更复杂 VLM 场景未验证。
防御方案缺失：论文揭示了风险但未提出防御策略（如差分隐私、梯度裁剪等对抗手段）。
计算开销：每步需计算完整序列的前向传播和注意力图提取，对长序列的扩展性需考量。

与相关工作的对比¶

传统 MI（PPA、PLG-MI 等）：仅针对单模态分类器，优化单一类别标签的似然；本文针对 token 序列输出的 VLM，需全新设计。
VLM 安全研究：已有越狱攻击、对抗样本等方向，但模型逆向（训练数据重建）在 VLM 上是首次系统研究。
注意力机制分析：已有工作发现 VLM 后层 token 对图像的注意力衰减，本文将此观察用于指导 MI 攻击的梯度加权。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将 MI 攻击拓展到 VLM，问题定义和方法设计均为开创性工作
实验充分度: ⭐⭐⭐⭐⭐ — 4 模型 × 3 数据集 × 多指标 × 人类评估 × 公开模型验证
写作质量: ⭐⭐⭐⭐ — 结构清晰，从 TMI→TMI-C→SMI→SMI-AW 层层递进，但公式较多
价值: ⭐⭐⭐⭐⭐ — 揭示 VLM 的严重隐私风险，对安全社区有重要警示意义

Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks¶

一句话总结¶

背景与动机¶

方法详解¶

整体框架¶

四种逆向策略¶

SMI-AW 自适应加权设计¶

逆向损失函数¶

实验关键数据¶

实验设置¶

主实验结果（FaceScrub + LLaVA-v1.6-7B + \(\mathcal{L}_{LOM}\)）¶

跨数据集结果（SMI-AW + \(\mathcal{L}_{LOM}\)）¶

跨模型泛化（FaceScrub + SMI-AW + \(\mathcal{L}_{LOM}\)）¶

人类评估（\(AttAcc_H\)）¶

消融分析：Token-based vs. Sequence-based¶

亮点¶

局限与展望¶

与相关工作的对比¶

评分¶

Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks¶

一句话总结¶

背景与动机¶

方法详解¶

整体框架¶

四种逆向策略¶

SMI-AW 自适应加权设计¶

逆向损失函数¶

实验关键数据¶

实验设置¶

主实验结果（FaceScrub + LLaVA-v1.6-7B + \(\mathcal{L}_{LOM}\)）¶

跨数据集结果（SMI-AW + \(\mathcal{L}_{LOM}\)）¶

跨模型泛化（FaceScrub + SMI-AW + \(\mathcal{L}_{LOM}\)）¶

人类评估（\(AttAcc_H\)）¶

消融分析：Token-based vs. Sequence-based¶

亮点¶

局限与展望¶

与相关工作的对比¶

评分¶

相关论文¶