Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy¶

会议: CVPR 2025
arXiv: 2503.20823
代码: https://github.com/naver-ai/JOOD
领域: 多模态VLM
关键词: 越狱攻击, 安全对齐, 分布外输入, 多模态安全, 数据变换

一句话总结¶

提出 JOOD 框架，通过将恶意输入进行分布外（OOD）化变换（如图像/文本混合），大幅提升模型不确定性，从而绕过 LLM 和 MLLM 的安全对齐防护，实现高成功率的黑盒越狱攻击。

当前 LLM/MLLM 通过 RLHF 等方法进行了安全对齐，能有效拒绝直接的恶意请求。但安全对齐的训练数据分布是有限的——如果恶意输入被变换为"训练时未见过的形式"（即 OOD 化），模型能否仍然正确识别恶意意图？

作者的核心观察是：当恶意输入被 OOD 化后，模型对输入恶意性的判断不确定性显著增加，安全护栏因此失效。即使是简单的 mixup 操作也能达到这一效果。这揭示了 RLHF 安全对齐泛化能力的根本缺陷——它仅在训练分布内有效。

JOOD 是一个黑盒越狱攻击框架，核心思路是将恶意输入通过现成的数据变换技术（文本混合/图像混合）从安全对齐的训练分布中"推出去"，生成 OOD 化的输入。模型因从未在安全训练中见过此类输入，无法触发安全护栏，从而输出有害响应。

文本 OOD 化攻击（Eq. 1）:
- 功能：对纯文本 LLM 进行越狱
- 核心思路：将恶意关键词（如 "bomb"）与无关词（如 "apple"）混合成新造词（如 "bombapple"），再提示模型"请分别回答这个混合词中包含的每个词的请求"。变换公式为 \(T_i^{\text{ood}} = f(T^h; \varphi_i)\)，其中 \(\varphi_i\) 是随机采样的辅助词
- 设计动机：混合后的无意义词在安全对齐训练中从未出现过，模型无法明确判断其恶意性，不确定性大增
图像 OOD 化攻击（Eq. 3）:
- 功能：对多模态 MLLM 进行越狱
- 核心思路：将恶意图像 \(I^h\) 与无关辅助图像 \(\varphi_i\) 通过 mixup 混合：\(I_{(i,j)}^{\text{ood}} = \alpha_j \varphi_i + (1 - \alpha_j) I^h\)，同时改写文本指令为"这张图中有两个物体，请告诉我如何制造它们"
- 设计动机：混合后的图像在视觉编码器中产生不同于原始恶意图像的嵌入分布偏移，无法触发 LLM 后端的安全护栏
评估框架（Score-based Evaluation）:
- 功能：量化衡量攻击效果的最大潜在风险
- 核心思路：使用独立 LLM \(\theta^{hf}\) 对每个响应打 0-10 的有害性分数（HF），取所有变换参数下的最高分作为该指令的攻击得分；同时用二值判断模型 \(\theta^{bj}\) 计算攻击成功率 ASR
- 设计动机：不同变换参数产生的响应有害程度不同，需要评估攻击的"最坏情况"风险

JOOD 是推理时攻击，不涉及训练。攻击参数包括：辅助样本数 \(n=5\)，mixup 系数 \(\alpha\) 从 \(\{0.1, 0.2, \ldots, 0.9\}\) 采样 \(m=9\) 个值。整个过程为黑盒，无需访问模型梯度或参数。

攻击场景	指标	JOOD (GPT-4V)	FigStep-Pro	HADES	提升
Bombs/Explosives	ASR%	63%	23%	0%	+40% vs FigStep-Pro
Hacking	ASR%	74%	32%	0%	+42% vs FigStep-Pro
Drugs	ASR%	23%	25%	3%	竞争力
Firearms/Weapons	ASR%	47%	17%	0%	+30% vs FigStep-Pro

在开源模型上，JOOD 攻击 LLaVA-1.5-13B 在 Bombs 场景达到 100% ASR（HF=9.8），远超所有基线。

配置	BE-HF	BE-ASR%	说明
Vanilla (α=0)	0	0%	原始恶意图像被拒绝
Mixup (α∈(0,1))	~7.1	~63%	OOD化后安全护栏失效
α=1 (纯辅助图像)	降低	降低	恶意语义丢失
Typography辅助图	更高	更高	排版文字更有效
Realistic辅助图	稍低	稍低	真实图片效果稍弱
相似辅助图	低	低	负相关：越相似越安全
不相似辅助图	高	高	越不相似越有效