Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation¶

会议: ECCV 2024
arXiv: 2403.09572
代码: Project Page
领域: 多模态VLM
关键词: MLLM安全, 越狱攻击防御, 图像到文本转换, 训练无关方法, 安全对齐

一句话总结¶

提出ECSO（Eyes Closed, Safety On），一种无需训练的MLLM保护方法，通过检测自身响应的安全性，并将不安全查询中的图像自适应转换为文本描述，从而恢复预对齐LLM的内在安全机制，在MM-SafetyBench上实现最高71.3%的安全性提升，且不损害常规性能。

研究背景与动机¶

领域现状：多模态大语言模型（MLLMs）通过将视觉编码器与预对齐的LLM结合，实现了强大的多模态对话能力。然而这些模型在引入图像输入后，容易被恶意攻击诱导生成有害内容。

现有痛点：传统的安全对齐策略（如SFT和RLHF）需要大量人工设计红队攻击查询，在涉及图像输入时更加困难和昂贵。现有推理时防护方法要么依赖手工系统提示（难以覆盖新攻击），要么需要额外训练的外部检测器。

核心矛盾：MLLMs继承了LLM的安全机制，但图像特征的引入"压制"了这些机制。具体表现为：去掉图像后模型几乎100%能拒绝恶意查询，但有图像时harmless rate急剧下降到约20%。

本文要解决的问题：如何在不需要额外训练的情况下，将预对齐LLM的安全机制迁移到MLLM中？

切入角度：作者发现两个关键观察——(a) MLLMs虽容易生成有害内容，但能高精度地判别自身响应是否安全（>95%准确率）；(b) 去掉图像后LLM的安全机制即可恢复。

核心idea：先让MLLM自检响应安全性，若检测到不安全则将图像转为文本描述，"闭上眼睛"用纯文本LLM重新生成安全响应。

方法详解¶

整体框架¶

输入(图像v, 查询x) → Step 1: 正常生成初始响应ỹ → Step 2: MLLM自判断响应安全性s → [安全则直接返回] → Step 3: 不安全时将图像转为query-aware文本描述c → Step 4: 用纯文本（无图像）重新生成安全响应y

关键设计¶

有害内容检测（Harmful Content Detection）:
- 功能：让MLLM判断自己生成的初始响应是否安全
- 核心思路：首先正常生成响应 \(\tilde{y} = F_{\theta}(v, x)\)，然后用检测提示模板 \(P_{\text{det}}\) 包裹原始查询和初始响应，让MLLM自我评估：\(s = F_{\theta}(v, P_{\text{det}}(x, \tilde{y}))\)
- 设计动机：实验发现MLLMs在判别任务上表现优异（LLaVA-1.5-7B和ShareGPT4V-7B达到>95%准确率），且判别准确率不受图像存在与否的影响。判别比生成简单这一假设得到了可扩展监督理论的支持。
查询感知的图像到文本转换（Query-Aware I2T Transformation）:
- 功能：将输入图像转换为与查询相关的文本描述
- 核心思路：使用包含原始问题的提示模板 \(P_{\text{trans}}\) 引导MLLM生成query-aware的图像描述：\(c = F_{\theta}(v, P_{\text{trans}}(x))\)
- 设计动机：(a) 转换为文本后，图像中的恶意内容要么被转化为文字要么被丢弃；(b) query-aware确保描述包含回答问题所需的关键信息，避免无关紧要的描述导致信息丢失。消融实验证明去掉query-awareness会显著降低utility。
无图像安全响应生成（Safe Response Generation Without Images）:
- 功能：用文本描述替代图像，让模型在纯文本模式下重新生成响应
- 核心思路：\(y = F_{\theta}(\text{null}, P_{\text{gen}}(c, x))\)，其中null表示不输入图像。此时MLLM退化为纯文本LLM，预对齐的安全机制被重新激活。
- 设计动机：实验表明去掉图像后LLM几乎100% harmless。提示中还加入"HARMLESS and ETHICAL"关键词进一步强化安全优先级，使得harmless rate甚至超过Text-Only上限。

损失函数 / 训练策略¶

ECSO是完全训练无关（training-free）的推理时方法，不涉及任何损失函数或训练过程。此外，ECSO还可以作为数据引擎，自动生成SFT安全对齐数据：对无监督安全数据集 \(D = \{(v,x)\}\) 施加ECSO流程，获得 \(D' = \{(v,x,y)\}\) 用于微调。

实验关键数据¶

主实验（MM-SafetyBench, LLaVA-1.5-7B）¶

攻击类型	指标(Harmless Rate%)	Direct	ECSO	提升
SD (Stable Diffusion)	平均	85.0	95.4	+10.4
OCR	平均	31.7	90.3	+58.6
SD+OCR	平均	32.1	86.4	+54.3
SD+OCR - 非法活动	Harmless Rate	25.8	92.8	+67.0
SD+OCR - 仇恨言论	Harmless Rate	51.5	90.2	+38.7
SD+OCR - 恶意软件	Harmless Rate	38.6	84.1	+45.5
VLSafe (across 5 MLLMs)	Harmless Rate	~20%	~90%	+71.3(最高)

消融实验¶

配置	关键指标	说明
ECSO完整	HR=86.4%(SD+OCR)	基线
保留图像+caption	HR明显下降	证明去掉图像是关键
去掉query-aware	MMBench: 65.8(-1.05%)	query-aware对保持utility不可或缺
直接拒绝(无Step3&4)	MME: 1847(vs 1865)	Steps 3&4保证了对良性查询的正常响应
ECSO生成SFT数据	优于人工标注VLGuard	ECSO可作为数据引擎

Utility保持（误判率与性能）¶

模型	MME误判率	MMBench误判率	MME-P(Direct/ECSO)	MMBench(Direct/ECSO)
LLaVA-1.5-7B	0.50%	1.23%	1507.4/1507.4	64.6/64.2
ShareGPT4V-7B	1.93%	4.24%	1566.4/1567.1	66.5/66.1
Qwen-VL-Chat	1.26%	2.88%	1481.5/1481.5	59.7/59.1

关键发现¶

MLLM的安全机制并未消失，而是被图像特征"压制"——去掉图像后几乎所有模型达到~100% harmless rate
MLLM判别自身响应是否安全的能力极强（>95%），且不受图像输入影响
OCR和SD+OCR攻击比纯SD攻击更有效，因为包含更直接的恶意文字信息
ECSO生成的安全对齐数据质量可媲美甚至超越人工标注数据

亮点与洞察¶

"判别比生成简单"这一insight极具价值：利用模型自身的判别能力来弥补生成时的安全漏洞，是一种优雅的自举式安全策略
训练无关设计使得ECSO可以即插即用于任何MLLM，具有极高的实用价值
图像→文本的模态转换trick：通过"闭上眼睛"将多模态问题降维为纯文本问题，巧妙利用了LLM已有的安全对齐
query-aware captioning的设计避免了信息丢失，这个trick可迁移到其他需要图文转换的场景
数据引擎的副产品：ECSO不仅做推理时保护，还能自动生成安全对齐数据，形成良性循环

局限与展望¶

ECSO依赖底层LLM自身的安全能力，如果LLM本身存在安全缺陷，ECSO也会失效
图像到文本转换过程中不可避免会有信息损失，对于强依赖视觉信息的查询可能影响回答质量
多轮推理（先生成→再判别→再转换→再生成）增加了推理延迟
未探索如何将多模态从"安全挑战"转变为"安全优势"——利用多模态的丰富上下文构建更强安全机制
可尝试更高级的I2T方法（如V*引导的视觉搜索）提升信息保留度

评分¶

新颖性: ⭐⭐⭐⭐ 观察到判别-生成能力差异并利用模态转换恢复安全机制，想法巧妙但技术手段相对简单
实验充分度: ⭐⭐⭐⭐⭐ 5个MLLM、3个安全基准、3个utility基准、详细消融，非常充分
写作质量: ⭐⭐⭐⭐⭐ 逻辑链条清晰：观察→insight→方法→验证，图表精美易懂
价值: ⭐⭐⭐⭐ 训练无关的即插即用方案有实用价值，但本质上是"绕过问题"而非"解决问题"