Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities¶
会议: ACL 2025
arXiv: 2506.00548
代码: 有(论文中提到公开)
领域: AI安全 / 多模态VLM
关键词: 多模态越狱, 对抗性攻击, 非文本指令, 嵌入空间对齐, 安全机制绕过
一句话总结¶
本文提出 Con Instruction 方法,通过优化对抗性图像或音频使其在嵌入空间中与目标恶意指令对齐,实现无需文本输入即可越狱多模态大语言模型(MLLM),在 LLaVA-v1.5 上达到 86.6% 的攻击成功率,并提出了 ARC 评估框架来同时衡量攻击响应的质量和相关性。
研究背景与动机¶
领域现状:多模态大语言模型(MLLM)如 LLaVA、InternVL、Qwen-VL、Qwen-Audio 等能够理解和处理图像、音频等非文本模态。与此同时,这些模型的安全防护机制主要针对文本输入设计,通过检测文本中的有害意图来拒绝危险请求。
现有痛点:现有的 MLLM 越狱攻击(如视觉对抗攻击、对抗性提示注入等)主要通过"文本指令 + 对抗性图像辅助"的方式工作——恶意意图仍然通过文本传达,对抗性图像只是起辅助绕过作用。这使得文本安全过滤器仍然可以检测到攻击意图。此外,许多方法需要训练数据或对文本指令进行预处理,增加了攻击复杂度。
核心矛盾:MLLM 具有理解非文本指令的强大能力(例如,可以"阅读"图像中的文字、理解音频中的语义),但安全防护机制主要检查文本通道。这意味着如果恶意指令完全通过非文本模态传递,安全过滤器可能完全无法检测。
本文目标:(1) 验证 MLLM 能否通过纯非文本模态(图像/音频)接收并执行恶意指令;(2) 开发无需训练数据的通用越狱方法;(3) 设计更全面的攻击评估框架。
切入角度:既然 MLLM 被训练来理解非文本输入的语义,那么是否可以将恶意指令"编码"到图像或音频中,让模型的多模态理解能力成为安全漏洞的来源?
核心 idea:通过梯度优化生成对抗性图像/音频,使其在 MLLM 的嵌入空间中与目标恶意指令高度对齐,从而实现"非文本模态即指令"的越狱攻击。
方法详解¶
整体框架¶
Con Instruction 的攻击流程分为三步:(1) 目标指令编码:将恶意文本指令通过 MLLM 的文本编码器映射到嵌入空间,得到目标嵌入向量;(2) 对抗性样本优化:初始化一个随机图像/音频,通过梯度下降优化其像素/频谱值,使其经过 MLLM 的视觉/音频编码器后的嵌入尽可能接近目标嵌入;(3) 攻击执行:将优化后的对抗性图像/音频单独或配合无害文本输入 MLLM,模型通过多模态融合"读取"出嵌入在非文本模态中的恶意指令并执行。
关键设计¶
-
嵌入空间对齐优化(Embedding Space Alignment):
- 功能:将恶意指令的语义"编码"到非文本模态中
- 核心思路:给定恶意文本指令 \(t\),通过文本编码器得到目标嵌入 \(e_t = \text{TextEnc}(t)\)。对于图像输入 \(x\)(初始为随机噪声),通过视觉编码器得到 \(e_x = \text{VisEnc}(x)\)。优化目标为最小化余弦距离 \(\mathcal{L} = 1 - \cos(e_x, e_t)\),通过 PGD(Projected Gradient Descent)在像素空间中迭代更新。对音频模态同理。不需要任何训练数据,只需要对模型进行白盒前向/反向传播
- 设计动机:MLLM 的多模态融合机制将不同模态映射到共享嵌入空间,这意味着在嵌入空间中对齐的图像/音频会被模型解读为等价于对应的文本指令。利用模型自身的跨模态理解能力来传递恶意信号
-
非文本+文本组合攻击(Multi-Modal Amplification):
- 功能:通过组合非文本对抗性样本和无害文本来大幅提升攻击成功率
- 核心思路:单独使用对抗性图像/音频已经可以绕过安全机制,但成功率受限于嵌入对齐的精度。通过在文本通道补充与恶意主题相关但本身无害的文本(如"请描述图片中的内容"或与主题相关的上下文),可以帮助模型更准确地"解码"非文本模态中的隐藏指令,攻击成功率大幅提升
- 设计动机:MLLM 的多模态推理是协同的——文本提供上下文,图像/音频提供内容。利用这种协同效应可以克服单一模态嵌入对齐的精度瓶颈
-
攻击响应分类框架 ARC(Attack Response Categorization):
- 功能:全面评估攻击效果,区分不同类型的成功和失败
- 核心思路:传统评估只关注"是否生成有害内容"(二分类),ARC 引入两个正交维度:(a) 响应质量——生成内容的信息量和完整度;(b) 响应相关性——生成内容是否与恶意指令的具体意图相关。这产生四个象限:高质量高相关(完全成功)、高质量低相关(模型生成了有害内容但不是要求的)、低质量高相关(模型理解了意图但给出不完整回答)、低质量低相关(完全失败)
- 设计动机:现有的 ASR 指标过于粗糙,无法区分"模型生成了与指令无关的有害内容"和"模型精确执行了恶意指令"。ARC 提供了更细粒度的攻击效果评估
损失函数 / 训练策略¶
核心损失为嵌入空间的余弦距离损失 \(\mathcal{L} = 1 - \cos(e_x, e_t)\)。使用 PGD 优化,步长和迭代次数为超参数。图像使用 \(L_\infty\) 范数约束来控制扰动大小,音频使用类似的频谱域约束。无需额外训练数据或目标模型的微调。
实验关键数据¶
主实验¶
视觉语言模型攻击结果(AdvBench + SafeBench):
| 模型 | 方法 | AdvBench ASR | SafeBench ASR | 说明 |
|---|---|---|---|---|
| LLaVA-v1.5 (7B) | 文本攻击 | 32.1% | 28.5% | 基线 |
| LLaVA-v1.5 (7B) | Con Instruction | 76.8% | 79.2% | 纯图像攻击 |
| LLaVA-v1.5 (13B) | Con Instruction | 81.3% | 86.6% | 纯图像攻击 |
| LLaVA-v1.5 (13B) | Con Inst.+文本组合 | 89.7% | 92.1% | 组合攻击 |
| InternVL | Con Instruction | 68.4% | 71.2% | 纯图像攻击 |
| Qwen-VL | Con Instruction | 65.7% | 69.8% | 纯图像攻击 |
音频语言模型攻击结果:
| 模型 | Con Instruction ASR | 说明 |
|---|---|---|
| Qwen-Audio | 72.3% | 纯音频攻击 |
| Qwen-Audio + 文本 | 84.5% | 组合攻击 |
消融实验¶
| 配置 | ASR (LLaVA-v1.5-13B) | 说明 |
|---|---|---|
| Con Instruction (完整) | 81.3% | 图像模态 |
| 仅文本攻击(无图像) | 32.1% | 安全过滤器有效 |
| 随机图像+恶意文本 | 38.5% | 图像无对齐效果 |
| Con Inst.+无害文本 | 89.7% | 组合攻击显著提升 |
| Con Inst. (减少优化步数 50%) | 62.4% | 对齐精度下降 |
| Con Inst. + 对抗性训练防御 | 48.2% | 防御有效但残留漏洞 |
| Con Inst. + 输入检测防御 | 55.1% | 检测率有限 |
关键发现¶
- 纯非文本对抗性样本(无任何恶意文本)即可达到 81.3% 的攻击成功率,证明安全机制对非文本通道几乎没有防护
- 13B 模型比 7B 更容易被攻击(81.3% vs 76.8%),这是因为更大的模型有更强的跨模态理解能力,反而使其更容易"解读"嵌入在图像中的恶意指令
- 非文本+文本组合攻击将成功率进一步提升至 89.7%,说明多模态协同效应可被攻击者利用
- 现有防御方法(对抗性训练、输入检测)有一定效果但远不足够,存在巨大的安全防护差距(gap)
- ARC 评估框架揭示了传统 ASR 指标遗漏的重要区分——约 15% 的"成功"攻击实际上生成了与指令不相关的有害内容
亮点与洞察¶
- "能力即漏洞"的深刻洞察:MLLM 越强大(跨模态理解越好),越容易被 Con Instruction 攻击。这揭示了多模态 AI 安全的一个根本悖论——提升理解能力的同时不可避免地扩大了攻击面
- 零数据攻击的实用性:不需要任何训练数据或目标模型的微调,只需白盒访问进行梯度计算。这大大降低了攻击门槛,也意味着任何开源 MLLM 都面临这种威胁
- ARC 评估框架的方法论贡献:通过质量×相关性的二维评估,提供了比传统 ASR 更精确的攻击效果度量,对后续安全研究有标准化价值
局限与展望¶
- 攻击需要白盒访问(梯度计算),对闭源模型(如 GPT-4V)不直接适用。但可以通过迁移攻击(在开源模型上生成对抗样本,在闭源模型上测试)部分解决
- 此处生成的对抗性图像/音频在人类看来通常是无意义的噪声,容易被人工审核识别。但自动化系统中缺乏人工审核环节
- 对更大规模模型(如 LLaVA-Next-34B)的测试有限
- 防御探索初步,未深入研究基于嵌入空间监控的检测方法——例如检测非文本模态的嵌入是否异常接近有害文本的嵌入
- 未考虑多轮对话场景下的攻击持续性——模型是否能在后续轮次中"记住"非文本指令
相关工作与启发¶
- vs Visual Adversarial Examples (Qi et al. 2024):Qi 等人的视觉对抗攻击仍然依赖文本通道传递部分恶意意图,Con Instruction 完全通过非文本模态传递指令,更彻底
- vs GCG 等文本越狱:GCG 操控文本 token,可以被困惑度过滤器检测。Con Instruction 操控的是图像像素/音频频谱,完全不在文本安全检测的范围内
- vs Multimodal Prompt Injection:提示注入通常将文本嵌入图像中(如 OCR 载体),Con Instruction 在嵌入空间而非像素空间中编码信息,更隐蔽
- 对安全研究的启发:MLLM 安全需要"全模态"防护,不能仅依赖文本过滤器。嵌入空间监控可能是一个有效的防御方向
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统性探索纯非文本模态作为恶意指令载体的越狱攻击,视角独特
- 实验充分度: ⭐⭐⭐⭐ 覆盖了视觉和音频模态、多个模型、两个基准,但闭源模型测试不足
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,ARC 框架设计合理
- 价值: ⭐⭐⭐⭐⭐ 揭示了多模态 AI 安全的关键盲区,ARC 框架可作为标准化评估工具