Jailbreaking Vision-Language Models Through the Visual Modality¶

会议: ICML 2026
arXiv: 2605.00583
代码: 未公开
领域: 多模态VLM / AI 安全 / 越狱攻击
关键词: VLM 安全, 越狱攻击, 视觉密码, 跨模态对齐缺口, 红队

一句话总结¶

作者提出 4 种只通过视觉输入就能越狱前沿 VLM 的攻击（视觉密码 / 物体替换 / 文本替换 / 视觉类比谜题），在 6 个前沿 VLM 上系统验证了"文本端的安全对齐不会自动迁移到视觉端"，并用 mechanistic 分析揭示了背后的层级机理。

研究背景与动机¶

领域现状：LLM 越狱研究已经覆盖 RLHF 失效、对抗后缀、多轮 jailbreak、Best-of-N 等多条路径，refusal direction 等 mechanistic 工具已经成熟；但 VLM 安全的研究主要停留在对抗扰动图像 (Qi et al.) 和排版攻击 (FigStep / MM-SafetyBench) 上，且后者在最新模型上已经失效。

现有痛点：现有 VLM 防御基本假设"文本是主要攻击面"，把图像当作被动信息源；而真正能造成危害的视觉攻击 — 既不依赖梯度也不依赖 OCR 字符渲染 — 几乎没人系统研究。

核心矛盾：VLM 的图像输入是连续高维空间，与离散文本 token 在表示和检索机制上完全不同；安全对齐主要是在文本对话数据上做的，跨模态对齐缺口让"用图像表达有害意图"成为一条几乎未被防守的攻击面。

本文目标：(1) 设计一系列在表面 ostensibly benign 但通过视觉结构 / 上下文 / 类比能让模型重建出有害意图的攻击；(2) 在前沿模型上系统度量并跟现有视觉越狱方法对比；(3) 给出 mechanistic 解释 + 一个轻量缓解。

切入角度：作者用一个统一原则 — "用视觉结构编码或暗示禁制语义，同时保持表面文本与可见图像内容看起来都无害" — 派生出 4 种攻击形态，并用占位符 \(X_1\)-\(X_4\) 中立化原始 HarmBench 提示，把"原始 prompt 是否危险"这个变量从分析中剥离出去。

核心 idea：把"jailbreak"看作 cross-modal semantic reconstruction 问题 — 模型有能力从视觉上下文重建出被显式删除的有害概念，而 refusal 机制此时检测不到这种隐性意图。

方法详解¶

整体框架¶

整套方法围绕一个共享的 prompt 中立化协议展开：从 HarmBench 行为出发，把句中所有有害名词替换成抽象占位符 \(X_1,...,X_4\)（"卖偷车的 chop shops"→"卖 \(X_2\) 的 \(X_1\)"），让纯文本通道完全无害。然后让 4 种攻击各自用不同的视觉编码来"暗示" \(X_i\) 真正指代什么。所有攻击都使用 decode-first prompting（先告诉模型要解码再回答），Best-of-5 采样，3 个独立 LLM 评判员 (Grok-4.1, Gemini-3-Flash, Claude-Haiku-4.5) 用 4 级评分（refusal / misunderstanding / partial / compliance）做投票，84.3% 一致率。

关键设计¶

Visual Cipher（视觉密码）:
- 功能：把有害指令编成一段图形字符序列，让模型必须先用图例解码、再执行。
- 核心思路：将"写一封匿名死亡威胁信"等指令做 word-level 分词，每个唯一词分配一个由形状+颜色+内部标记定义的图形 glyph 或语义中性物体图，生成两张图 — legend（图形到词的字典，含 distractor）+ sentence（左到右排列的图形序列）。Best-of-5 时变化 glyph 分配与图例排序。对照基线 Textual Cipher 用同样结构但把图形换成无意义文本如 "Brimova", "Felochi"。
- 设计动机：把"理解→执行"拆成两步并强制视觉解码，绕开了文本端关键词触发 refusal 的检测；图形字符是 OCR-free 的，连基于排版的过滤器都失效。
Visual Object/Text Replacement（视觉物体/文本替换）:
- 功能：把图像中的有害物体或图像里的有害文字替换成无害替身（炸弹→香蕉、有害书名→中性词），但保留场景上下文使原始所指仍可推断。
- 核心思路：用 REVE 文生图模型生成"有害物体出现在真实场景"的 base image，再做局部编辑只把目标物换成 banana / carrot / water bottle / broccoli（固定字典避免变量混淆），其它布局 / affordance / 交互线索保持不变。文本替换则保留字体、版式、文化语境（如书封、海报）。模型被告知"把 \(X_i\) 当作图像上下文所暗示的概念"，然后回答中立化的 HarmBench 提示。每个概念配 3 张图以抵消生成噪声。
- 设计动机：把"有害名词"从图像表面剥离，但保留语义重建所需的全部上下文，专门测试模型是否能用 in-context evidence 完成"语义覆写"。这是 Yona et al. (2025) 文本 in-context representation hijacking 的视觉版。
Visual Analogy Riddle（视觉类比谜题）:
- 功能：通过让模型解 3 行视觉类比谜题来隐式推出每个 \(X_i\) 所代表的禁制概念，每个组件单独都完全无害。
- 核心思路：每个目标概念被编码为一个 3 行类比谜题（如 a:b :: c:?），模型必须解出每行的 ? 才能组合出真正意图。用 Grok-4.1-fast 生成文本谜题模板，Gemini-2.5-flash-image 渲成图。每 \(X_i\) 取 top-3 候选谜题，attack 时穷举组合 — 任一组合让评判员判 compliance 就算成功。
- 设计动机：类比推理把有害意图分散到多个无害组件上，"组合性"是关键 — 单看每张图都安全，但联合起来能解出炸弹/毒品/恐袭等概念。这是首次系统利用类比推理做 VLM 越狱。

损失函数 / 训练策略¶

攻击均为推理时构造，无训练。判分用 3-LLM 投票 + "保守择低"（disagreement 时取最低分），Best-of-5 sampling 时只要任一次得 compliance(3) 就算攻击成功。

实验关键数据¶

主实验¶

6 个前沿 VLM 上视觉攻击 vs 文本对照基线的 Attack Success Rate（Best-of-5，节选）：

攻击	Claude-H 4.5	Gemini-3-Flash	GPT-5.2	Qwen3-VL-235B	Qwen3-VL-32B
Textual Cipher	10.7	89.3	5.7	86.8	84.9
Visual Cipher	40.9	97.5	8.2	86.2	87.4
Textual Replacement	8.1	58.8	16.9	29.5	39.0
Visual Obj Repl	4.1	52.0	11.5	35.6	41.1
Visual Text Repl	12.9	32.8	14.4	51.5	58.1
Visual Analogy	13.8	52.2	13.2	29.6	38.4

vs 之前 SOTA 视觉越狱方法（取最强的 Qwen3-VL-32B 列）：FigStep 11.3 / HADES 32 / SD+TYPO 60.8 — 本文 Visual Cipher 87.4，Visual Text Repl 58.1。

消融实验¶

判分器一致性与攻击成功率拆解：

项	数值	含义
3-judge 一致率	84.3%	评测稳定
Refusal↔Compliance 直接冲突	仅 3.8%	关键判定基本不分歧
Visual Cipher on Claude (单次 K=1)	15.1%	单 shot 仍远高于 textual 4.4%
Visual Cipher on Claude (K=5)	40.9%	Best-of-5 把跨模态缺口放大
输出端 Qwen3Guard-0.6B 拦截率	多数 compliant 被标	轻量输出过滤可行

关键发现¶

跨模态对齐缺口确实存在：Visual Cipher 把 Claude-Haiku-4.5 的 ASR 从 10.7% 推到 40.9%（近 4×），说明同样的有害语义只是换成视觉编码就能绕过其文本端 refusal 训练。
不同模型对不同模态有不同脆弱性：Qwen 对 Visual Text Replacement 特别敏感（依赖文化语境推断），Gemini-3-Flash 在 Cipher 类攻击上几乎全军覆没（97.5%），Claude 整体抗性强但视觉密码是其阿喀琉斯之踵。
本文攻击远超现有 baseline：HADES 平均 13.2%、FigStep 在多数模型 <12%；本文 Visual Cipher 在 4/6 模型上都拿到最高 ASR，且产物是语义可解读的真实图像（非梯度噪声）。
机理证据：refusal direction 被压制 + 语义信号仍存：用 Arditi (2024) 的 refusal direction 探针发现，Visual Replacement 让 Qwen3-VL-32B 的 late-layer refusal 激活崩到与无害样本几乎齐平；同时 Logit Lens 显示危险 token 在中间语义层仍有高概率，只在最后一层被压下去 — 模型其实"理解了"但 refusal 没触发。

亮点与洞察¶

"Prompt 中立化"是整套实验的方法论关键：把有害名词替成 \(X_i\) 让文本通道无害，从而把"是不是文本就有害"的混淆变量剥离，得到的 ASR 提升可以归因于视觉通道本身。
4 种攻击对应 4 种不同的语义重建机制（解码 / 上下文覆写 / 文化先验 / 类比推理），覆盖了 VLM 信息整合的多个层面，这种"攻击谱"远比单点攻击有指导价值。
mechanistic 分析中 refusal direction + Logit Lens 联合用，证明了一个有趣现象 — 模型在中间层已经把危险概念解码出来了，最后一层才把它压下去，而 visual replacement 恰好绕过了最后那层的安全门。这种 timing mismatch 解释是新颖且有操作意义的。
防御侧给出一个简单有效的方案：Qwen3Guard-Stream-0.6B 这种轻量 output classifier 对几乎所有视觉攻击都管用，建议作为 defense-in-depth 标配。

局限与展望¶

评测主要在 HarmBench 上，未必覆盖所有 harm 类别（如儿童伤害、生物武器细节）。
闭源模型的 mechanistic 分析只能做到 Qwen 这种开源权重模型，GPT/Claude 内部机制仍是黑箱。
攻击效果依赖 T2I 生成质量，Best-of-5 抵消了一部分但仍有内禀方差。
高 misunderstanding 率说明部分失败是"模型没看懂视觉编码"，随着 VLM 视觉推理能力提升，攻击只会更强 — 这是把双刃剑。
未研究 attacks 跨模型迁移性与多攻击组合，未来空间很大。

评分¶

新颖性: ⭐⭐⭐⭐ — 4 种攻击中 Visual Cipher 和 Visual Analogy Riddle 是真正全新的视觉越狱机制，组合起来构成系统的攻击谱。
实验充分度: ⭐⭐⭐⭐ — 6 个前沿模型 × 4 种攻击 + 5 个 baseline，judging 协议严谨；mechanistic 分析锦上添花。
写作质量: ⭐⭐⭐⭐ — 故事和原理讲得清晰，但部分实验细节（如多 image batch、Best-of-5 具体协议）需要附录辅助阅读。
价值: ⭐⭐⭐⭐⭐ — 直接揭示 frontier VLM 的实际部署漏洞，对 AI 安全社区有重大警示意义，已经做了 responsible disclosure。