Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation¶
会议: ECCV 2024
arXiv: 2403.09572
代码: Project Page
领域: 多模态VLM
关键词: MLLM安全, 越狱攻击防御, 图像到文本转换, 训练无关方法, 安全对齐
一句话总结¶
提出ECSO(Eyes Closed, Safety On),一种无需训练的MLLM保护方法,通过检测自身响应的安全性,并将不安全查询中的图像自适应转换为文本描述,从而恢复预对齐LLM的内在安全机制,在MM-SafetyBench上实现最高71.3%的安全性提升,且不损害常规性能。
研究背景与动机¶
领域现状:多模态大语言模型(MLLMs)通过将视觉编码器与预对齐的LLM结合,实现了强大的多模态对话能力。然而这些模型在引入图像输入后,容易被恶意攻击诱导生成有害内容。
现有痛点:传统的安全对齐策略(如SFT和RLHF)需要大量人工设计红队攻击查询,在涉及图像输入时更加困难和昂贵。现有推理时防护方法要么依赖手工系统提示(难以覆盖新攻击),要么需要额外训练的外部检测器。
核心矛盾:MLLMs继承了LLM的安全机制,但图像特征的引入"压制"了这些机制。具体表现为:去掉图像后模型几乎100%能拒绝恶意查询,但有图像时harmless rate急剧下降到约20%。
本文要解决的问题:如何在不需要额外训练的情况下,将预对齐LLM的安全机制迁移到MLLM中?
切入角度:作者发现两个关键观察——(a) MLLMs虽容易生成有害内容,但能高精度地判别自身响应是否安全(>95%准确率);(b) 去掉图像后LLM的安全机制即可恢复。
核心idea:先让MLLM自检响应安全性,若检测到不安全则将图像转为文本描述,"闭上眼睛"用纯文本LLM重新生成安全响应。
方法详解¶
整体框架¶
输入(图像v, 查询x) → Step 1: 正常生成初始响应ỹ → Step 2: MLLM自判断响应安全性s → [安全则直接返回] → Step 3: 不安全时将图像转为query-aware文本描述c → Step 4: 用纯文本(无图像)重新生成安全响应y
关键设计¶
-
有害内容检测(Harmful Content Detection):
- 功能:让MLLM判断自己生成的初始响应是否安全
- 核心思路:首先正常生成响应 \(\tilde{y} = F_{\theta}(v, x)\),然后用检测提示模板 \(P_{\text{det}}\) 包裹原始查询和初始响应,让MLLM自我评估:\(s = F_{\theta}(v, P_{\text{det}}(x, \tilde{y}))\)
- 设计动机:实验发现MLLMs在判别任务上表现优异(LLaVA-1.5-7B和ShareGPT4V-7B达到>95%准确率),且判别准确率不受图像存在与否的影响。判别比生成简单这一假设得到了可扩展监督理论的支持。
-
查询感知的图像到文本转换(Query-Aware I2T Transformation):
- 功能:将输入图像转换为与查询相关的文本描述
- 核心思路:使用包含原始问题的提示模板 \(P_{\text{trans}}\) 引导MLLM生成query-aware的图像描述:\(c = F_{\theta}(v, P_{\text{trans}}(x))\)
- 设计动机:(a) 转换为文本后,图像中的恶意内容要么被转化为文字要么被丢弃;(b) query-aware确保描述包含回答问题所需的关键信息,避免无关紧要的描述导致信息丢失。消融实验证明去掉query-awareness会显著降低utility。
-
无图像安全响应生成(Safe Response Generation Without Images):
- 功能:用文本描述替代图像,让模型在纯文本模式下重新生成响应
- 核心思路:\(y = F_{\theta}(\text{null}, P_{\text{gen}}(c, x))\),其中null表示不输入图像。此时MLLM退化为纯文本LLM,预对齐的安全机制被重新激活。
- 设计动机:实验表明去掉图像后LLM几乎100% harmless。提示中还加入"HARMLESS and ETHICAL"关键词进一步强化安全优先级,使得harmless rate甚至超过Text-Only上限。
损失函数 / 训练策略¶
ECSO是完全训练无关(training-free)的推理时方法,不涉及任何损失函数或训练过程。此外,ECSO还可以作为数据引擎,自动生成SFT安全对齐数据:对无监督安全数据集 \(D = \{(v,x)\}\) 施加ECSO流程,获得 \(D' = \{(v,x,y)\}\) 用于微调。
实验关键数据¶
主实验(MM-SafetyBench, LLaVA-1.5-7B)¶
| 攻击类型 | 指标(Harmless Rate%) | Direct | ECSO | 提升 |
|---|---|---|---|---|
| SD (Stable Diffusion) | 平均 | 85.0 | 95.4 | +10.4 |
| OCR | 平均 | 31.7 | 90.3 | +58.6 |
| SD+OCR | 平均 | 32.1 | 86.4 | +54.3 |
| SD+OCR - 非法活动 | Harmless Rate | 25.8 | 92.8 | +67.0 |
| SD+OCR - 仇恨言论 | Harmless Rate | 51.5 | 90.2 | +38.7 |
| SD+OCR - 恶意软件 | Harmless Rate | 38.6 | 84.1 | +45.5 |
| VLSafe (across 5 MLLMs) | Harmless Rate | ~20% | ~90% | +71.3(最高) |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| ECSO完整 | HR=86.4%(SD+OCR) | 基线 |
| 保留图像+caption | HR明显下降 | 证明去掉图像是关键 |
| 去掉query-aware | MMBench: 65.8(-1.05%) | query-aware对保持utility不可或缺 |
| 直接拒绝(无Step3&4) | MME: 1847(vs 1865) | Steps 3&4保证了对良性查询的正常响应 |
| ECSO生成SFT数据 | 优于人工标注VLGuard | ECSO可作为数据引擎 |
Utility保持(误判率与性能)¶
| 模型 | MME误判率 | MMBench误判率 | MME-P(Direct/ECSO) | MMBench(Direct/ECSO) |
|---|---|---|---|---|
| LLaVA-1.5-7B | 0.50% | 1.23% | 1507.4/1507.4 | 64.6/64.2 |
| ShareGPT4V-7B | 1.93% | 4.24% | 1566.4/1567.1 | 66.5/66.1 |
| Qwen-VL-Chat | 1.26% | 2.88% | 1481.5/1481.5 | 59.7/59.1 |
关键发现¶
- MLLM的安全机制并未消失,而是被图像特征"压制"——去掉图像后几乎所有模型达到~100% harmless rate
- MLLM判别自身响应是否安全的能力极强(>95%),且不受图像输入影响
- OCR和SD+OCR攻击比纯SD攻击更有效,因为包含更直接的恶意文字信息
- ECSO生成的安全对齐数据质量可媲美甚至超越人工标注数据
亮点与洞察¶
- "判别比生成简单"这一insight极具价值:利用模型自身的判别能力来弥补生成时的安全漏洞,是一种优雅的自举式安全策略
- 训练无关设计使得ECSO可以即插即用于任何MLLM,具有极高的实用价值
- 图像→文本的模态转换trick:通过"闭上眼睛"将多模态问题降维为纯文本问题,巧妙利用了LLM已有的安全对齐
- query-aware captioning的设计避免了信息丢失,这个trick可迁移到其他需要图文转换的场景
- 数据引擎的副产品:ECSO不仅做推理时保护,还能自动生成安全对齐数据,形成良性循环
局限与展望¶
- ECSO依赖底层LLM自身的安全能力,如果LLM本身存在安全缺陷,ECSO也会失效
- 图像到文本转换过程中不可避免会有信息损失,对于强依赖视觉信息的查询可能影响回答质量
- 多轮推理(先生成→再判别→再转换→再生成)增加了推理延迟
- 未探索如何将多模态从"安全挑战"转变为"安全优势"——利用多模态的丰富上下文构建更强安全机制
- 可尝试更高级的I2T方法(如V*引导的视觉搜索)提升信息保留度
相关工作与启发¶
- vs MLLM-Protector [Pi et al.]: MLLM-Protector需要额外训练检测器和去毒器;ECSO完全无需训练,利用模型自身能力
- vs Self-Moderation [Chen et al.]: 纯指令式自审核在有图像时仍然失效;ECSO通过去掉图像从根本上解决问题
- vs Safety Steering Vectors [Wang et al.]: 方向向量主要关注文本层面的不安全意图,可能忽略图像中的恶意内容
- vs VLGuard [Zong et al.]: VLGuard通过SFT对齐需要标注数据;ECSO可以自动生成等价甚至更优的对齐数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 观察到判别-生成能力差异并利用模态转换恢复安全机制,想法巧妙但技术手段相对简单
- 实验充分度: ⭐⭐⭐⭐⭐ 5个MLLM、3个安全基准、3个utility基准、详细消融,非常充分
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑链条清晰:观察→insight→方法→验证,图表精美易懂
- 价值: ⭐⭐⭐⭐ 训练无关的即插即用方案有实用价值,但本质上是"绕过问题"而非"解决问题"