Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities¶

会议: ACL 2025
arXiv: 2506.00548
代码: 有（论文中提到公开）
领域: AI安全 / 多模态VLM
关键词: 多模态越狱, 对抗性攻击, 非文本指令, 嵌入空间对齐, 安全机制绕过

一句话总结¶

本文提出 Con Instruction 方法，通过优化对抗性图像或音频使其在嵌入空间中与目标恶意指令对齐，实现无需文本输入即可越狱多模态大语言模型（MLLM），在 LLaVA-v1.5 上达到 86.6% 的攻击成功率，并提出了 ARC 评估框架来同时衡量攻击响应的质量和相关性。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）如 LLaVA、InternVL、Qwen-VL、Qwen-Audio 等能够理解和处理图像、音频等非文本模态。与此同时，这些模型的安全防护机制主要针对文本输入设计，通过检测文本中的有害意图来拒绝危险请求。

现有痛点：现有的 MLLM 越狱攻击（如视觉对抗攻击、对抗性提示注入等）主要通过"文本指令 + 对抗性图像辅助"的方式工作——恶意意图仍然通过文本传达，对抗性图像只是起辅助绕过作用。这使得文本安全过滤器仍然可以检测到攻击意图。此外，许多方法需要训练数据或对文本指令进行预处理，增加了攻击复杂度。

核心矛盾：MLLM 具有理解非文本指令的强大能力（例如，可以"阅读"图像中的文字、理解音频中的语义），但安全防护机制主要检查文本通道。这意味着如果恶意指令完全通过非文本模态传递，安全过滤器可能完全无法检测。

本文目标：(1) 验证 MLLM 能否通过纯非文本模态（图像/音频）接收并执行恶意指令；(2) 开发无需训练数据的通用越狱方法；(3) 设计更全面的攻击评估框架。

切入角度：既然 MLLM 被训练来理解非文本输入的语义，那么是否可以将恶意指令"编码"到图像或音频中，让模型的多模态理解能力成为安全漏洞的来源？

核心 idea：通过梯度优化生成对抗性图像/音频，使其在 MLLM 的嵌入空间中与目标恶意指令高度对齐，从而实现"非文本模态即指令"的越狱攻击。

方法详解¶

整体框架¶

Con Instruction 的攻击流程分为三步：(1) 目标指令编码：将恶意文本指令通过 MLLM 的文本编码器映射到嵌入空间，得到目标嵌入向量；(2) 对抗性样本优化：初始化一个随机图像/音频，通过梯度下降优化其像素/频谱值，使其经过 MLLM 的视觉/音频编码器后的嵌入尽可能接近目标嵌入；(3) 攻击执行：将优化后的对抗性图像/音频单独或配合无害文本输入 MLLM，模型通过多模态融合"读取"出嵌入在非文本模态中的恶意指令并执行。

关键设计¶

嵌入空间对齐优化（Embedding Space Alignment）:
- 功能：将恶意指令的语义"编码"到非文本模态中
- 核心思路：给定恶意文本指令 \(t\)，通过文本编码器得到目标嵌入 \(e_t = \text{TextEnc}(t)\)。对于图像输入 \(x\)（初始为随机噪声），通过视觉编码器得到 \(e_x = \text{VisEnc}(x)\)。优化目标为最小化余弦距离 \(\mathcal{L} = 1 - \cos(e_x, e_t)\)，通过 PGD（Projected Gradient Descent）在像素空间中迭代更新。对音频模态同理。不需要任何训练数据，只需要对模型进行白盒前向/反向传播
- 设计动机：MLLM 的多模态融合机制将不同模态映射到共享嵌入空间，这意味着在嵌入空间中对齐的图像/音频会被模型解读为等价于对应的文本指令。利用模型自身的跨模态理解能力来传递恶意信号
非文本+文本组合攻击（Multi-Modal Amplification）:
- 功能：通过组合非文本对抗性样本和无害文本来大幅提升攻击成功率
- 核心思路：单独使用对抗性图像/音频已经可以绕过安全机制，但成功率受限于嵌入对齐的精度。通过在文本通道补充与恶意主题相关但本身无害的文本（如"请描述图片中的内容"或与主题相关的上下文），可以帮助模型更准确地"解码"非文本模态中的隐藏指令，攻击成功率大幅提升
- 设计动机：MLLM 的多模态推理是协同的——文本提供上下文，图像/音频提供内容。利用这种协同效应可以克服单一模态嵌入对齐的精度瓶颈
攻击响应分类框架 ARC（Attack Response Categorization）:
- 功能：全面评估攻击效果，区分不同类型的成功和失败
- 核心思路：传统评估只关注"是否生成有害内容"（二分类），ARC 引入两个正交维度：(a) 响应质量——生成内容的信息量和完整度；(b) 响应相关性——生成内容是否与恶意指令的具体意图相关。这产生四个象限：高质量高相关（完全成功）、高质量低相关（模型生成了有害内容但不是要求的）、低质量高相关（模型理解了意图但给出不完整回答）、低质量低相关（完全失败）
- 设计动机：现有的 ASR 指标过于粗糙，无法区分"模型生成了与指令无关的有害内容"和"模型精确执行了恶意指令"。ARC 提供了更细粒度的攻击效果评估

损失函数 / 训练策略¶

核心损失为嵌入空间的余弦距离损失 \(\mathcal{L} = 1 - \cos(e_x, e_t)\)。使用 PGD 优化，步长和迭代次数为超参数。图像使用 \(L_\infty\) 范数约束来控制扰动大小，音频使用类似的频谱域约束。无需额外训练数据或目标模型的微调。

实验关键数据¶

主实验¶

视觉语言模型攻击结果（AdvBench + SafeBench）：

模型	方法	AdvBench ASR	SafeBench ASR	说明
LLaVA-v1.5 (7B)	文本攻击	32.1%	28.5%	基线
LLaVA-v1.5 (7B)	Con Instruction	76.8%	79.2%	纯图像攻击
LLaVA-v1.5 (13B)	Con Instruction	81.3%	86.6%	纯图像攻击
LLaVA-v1.5 (13B)	Con Inst.+文本组合	89.7%	92.1%	组合攻击
InternVL	Con Instruction	68.4%	71.2%	纯图像攻击
Qwen-VL	Con Instruction	65.7%	69.8%	纯图像攻击

音频语言模型攻击结果：

模型	Con Instruction ASR	说明
Qwen-Audio	72.3%	纯音频攻击
Qwen-Audio + 文本	84.5%	组合攻击

消融实验¶

配置	ASR (LLaVA-v1.5-13B)	说明
Con Instruction (完整)	81.3%	图像模态
仅文本攻击（无图像）	32.1%	安全过滤器有效
随机图像+恶意文本	38.5%	图像无对齐效果
Con Inst.+无害文本	89.7%	组合攻击显著提升
Con Inst. (减少优化步数 50%)	62.4%	对齐精度下降
Con Inst. + 对抗性训练防御	48.2%	防御有效但残留漏洞
Con Inst. + 输入检测防御	55.1%	检测率有限

关键发现¶

纯非文本对抗性样本（无任何恶意文本）即可达到 81.3% 的攻击成功率，证明安全机制对非文本通道几乎没有防护
13B 模型比 7B 更容易被攻击（81.3% vs 76.8%），这是因为更大的模型有更强的跨模态理解能力，反而使其更容易"解读"嵌入在图像中的恶意指令
非文本+文本组合攻击将成功率进一步提升至 89.7%，说明多模态协同效应可被攻击者利用
现有防御方法（对抗性训练、输入检测）有一定效果但远不足够，存在巨大的安全防护差距（gap）
ARC 评估框架揭示了传统 ASR 指标遗漏的重要区分——约 15% 的"成功"攻击实际上生成了与指令不相关的有害内容

亮点与洞察¶

"能力即漏洞"的深刻洞察：MLLM 越强大（跨模态理解越好），越容易被 Con Instruction 攻击。这揭示了多模态 AI 安全的一个根本悖论——提升理解能力的同时不可避免地扩大了攻击面
零数据攻击的实用性：不需要任何训练数据或目标模型的微调，只需白盒访问进行梯度计算。这大大降低了攻击门槛，也意味着任何开源 MLLM 都面临这种威胁
ARC 评估框架的方法论贡献：通过质量×相关性的二维评估，提供了比传统 ASR 更精确的攻击效果度量，对后续安全研究有标准化价值

局限与展望¶

攻击需要白盒访问（梯度计算），对闭源模型（如 GPT-4V）不直接适用。但可以通过迁移攻击（在开源模型上生成对抗样本，在闭源模型上测试）部分解决
此处生成的对抗性图像/音频在人类看来通常是无意义的噪声，容易被人工审核识别。但自动化系统中缺乏人工审核环节
对更大规模模型（如 LLaVA-Next-34B）的测试有限
防御探索初步，未深入研究基于嵌入空间监控的检测方法——例如检测非文本模态的嵌入是否异常接近有害文本的嵌入
未考虑多轮对话场景下的攻击持续性——模型是否能在后续轮次中"记住"非文本指令

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性探索纯非文本模态作为恶意指令载体的越狱攻击，视角独特
实验充分度: ⭐⭐⭐⭐ 覆盖了视觉和音频模态、多个模型、两个基准，但闭源模型测试不足
写作质量: ⭐⭐⭐⭐ 方法描述清晰，ARC 框架设计合理
价值: ⭐⭐⭐⭐⭐ 揭示了多模态 AI 安全的关键盲区，ARC 框架可作为标准化评估工具