Layer-wise Alignment: Examining Safety Alignment Across Image Encoder Layers in Vision Language Models¶
会议: ICML 2025
arXiv: 2411.04291
代码: 无
领域: LLM对齐/RLHF
关键词: VLM安全对齐, 图像编码器, 层级安全性, 早退出漏洞, RLHF
一句话总结¶
本文发现了 VLM 中图像编码器的"早退出"漏洞(ICET)——跳过图像编码器的部分层会大幅增加有害输出概率,提出 Layer-wise PPO (L-PPO) 修改 Clipped-PPO 算法在不同层级做多模态 RLHF,在 ASR 上降低高达 48%、毒性分数降低 33.64%。
研究背景与动机¶
领域现状:VLM(如 LLaVA-1.5、LLaVA-NeXT、Llama 3.2 Vision)在多模态理解上取得了巨大进步,但安全对齐仍是挑战。现有的安全训练方法(SFT、RLHF、unlearning)主要在默认层嵌入下训练。
现有痛点:已有研究发现 LLM 的特定层保留了不同类型的信息,跳过特定层会影响有害内容生成。VLM 的多模态架构使得这一风险更加复杂——图像编码器的中间层嵌入在安全训练中从未被覆盖。
核心矛盾:安全对齐训练仅在图像编码器的默认层(通常是倒数第二层)进行,但攻击者可以使用中间层嵌入绕过安全防线,因为这些中间嵌入构成了分布外(OOD)场景。
本文目标:(1)系统化揭示 VLM 图像编码器的层级安全分布不均问题;(2)提出有效的防御方法使安全对齐覆盖不同层级。
切入角度:从神经网络早退出(early exit)这一效率优化技术切入,发现它对 VLM 安全性有灾难性影响。
核心 idea:使用来自不同图像编码器层的嵌入进行多层级 RLHF 训练(L-PPO),使安全对齐不局限于单一层。
方法详解¶
整体框架¶
- 漏洞发现(ICET):系统测试不同图像编码器层的早退出对 VLM 安全输出的影响
- 防御方法(L-PPO):修改 Clipped-PPO 算法,在训练时使用特定中间层的嵌入而非默认层嵌入,使安全对齐覆盖到潜在的漏洞层
关键设计¶
-
ICET 漏洞(Image enCoder Early-exiT):
- 功能:发现并系统性地量化图像编码器早退出对 VLM 安全性的影响
- 核心发现:当使用 LLaVA-1.5 的第 18 层(而非默认的倒数第二层)嵌入时,即使输入图像安全、仅文本有害,VLM 也会生成有害响应
- 原理分析:中间层嵌入构成 OOD 输入,语言骨干对这些嵌入的理解方式不同,安全对齐在该区域失效
- 关键区分:中间层嵌入虽然产生连贯的输出(语义相关、逻辑一致),但安全机制被突破
- 设计动机:早退出是神经网络的常见优化手段,在实际部署中可能被无意或故意触发
-
Layer-wise PPO (L-PPO):
- 功能:修改 Clipped-PPO 算法使其在特定的图像编码器中间层嵌入上执行 RLHF
- 核心思路:既然漏洞来自特定中间层的嵌入分布不在安全训练覆盖范围内,就直接用这些层的嵌入做安全对齐训练
- 具体修改:在标准 PPO 训练时,将输入给 VLM 的视觉嵌入从默认层替换为目标漏洞层的嵌入
- PPO 目标函数保持 Clipped-PPO 的标准形式:\(L^{CLIP}(\theta) = \hat{\mathbb{E}}_t[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)]\)
- 与标准 PPO 的区别:标准多模态 RLHF 使用默认层嵌入训练,L-PPO 针对性地使用中间层嵌入
- 理论基础:提供了 L-PPO 有效性的理论证明
-
评估指标体系:
- ASR(Attack Success Rate):使用 Llama Guard 判断响应是否有害
- TR(Total Rewards):使用专门的安全奖励模型评估安全性
- TS(Toxicity Score):使用 Perspective API 评估毒性
- 三种指标从不同角度评估 VLM 的安全性
损失函数 / 训练策略¶
- 使用 Clipped-PPO 目标函数,核心修改在于输入嵌入层的选择
- 奖励模型针对安全性训练(安全响应高分,有害响应低分)
- 训练数据:Redteam 2K、minijailbreak-V28K 等包含安全图像+有害文本的数据集
- 在三个 VLM(LLaVA-1.5、LLaVA-NeXT、Llama 3.2)上验证
实验关键数据¶
ICET 漏洞严重程度(LLaVA-1.5 早退出不同层)¶
| 编码器层 | ASR ↓ | Toxicity Score ↓ | 说明 |
|---|---|---|---|
| 默认层(倒数第二层) | 低 | 低 | 正常安全推理 |
| 第 18 层 | 显著升高 | 显著升高 | 安全对齐失效 |
| 部分中间层 | 不等 | 不等 | 有害信息在层间不均匀分布 |
L-PPO 防御效果¶
| 模型 | 指标 | 无 L-PPO | 有 L-PPO | 改善 |
|---|---|---|---|---|
| LLaVA-1.5 | ASR | 高 | 大幅降低 | 最高 48% |
| LLaVA-NeXT | ASR | 高 | 大幅降低 | 显著 |
| Llama 3.2 | ASR | 高 | 大幅降低 | 显著 |
| 跨数据集 | Toxicity | 高 | 大幅降低 | 最高 33.64% |
关键发现¶
- ICET 漏洞在 LLaVA-1.5、LLaVA-NeXT 和 Llama 3.2 三个 VLM 上均存在,说明这是架构性问题
- 有害信息在图像编码器的不同层不均匀分布,某些层特别脆弱
- 安全训练方法的有限泛化性是漏洞根源:仅覆盖默认层的安全训练无法推广到中间层
- L-PPO 可以有效缓解 ICET,但需要针对每个漏洞层单独训练
- 中间层嵌入产生的输出仍然语义连贯,仅是安全性被破坏——这使得漏洞更加危险
亮点与洞察¶
- 揭示了一个此前未知的安全漏洞:图像编码器早退出可破坏 VLM 安全对齐,对 VLM 部署安全性具有直接的实践警示意义
- 从"效率优化技术的安全隐患"视角切入非常新颖——早退出本是为了加速推理,却成为安全漏洞
- L-PPO 方法虽然简单,但直指问题本质:安全对齐的覆盖范围不足
- 跨三个 VLM 的验证增强了发现的普适性
- 提出了一个重要的安全原则:安全训练应当覆盖模型可能被使用的各种配置,而非仅限于默认配置
局限与展望¶
- L-PPO 需要预先识别哪些层是漏洞层,对新的 VLM 架构可能需要重新分析
- 修复一个层的漏洞是否会引入新的漏洞(层间 safety alignment 的 trade-off)尚未充分讨论
- 未来可以探索一次性覆盖所有层的训练方法(如多层嵌入混合训练或随机层采样训练)
- 对实际攻击场景的威胁模型定义可以更精确(攻击者如何访问中间层嵌入?)
- 缓存文件较短(64行),部分实验细节(如具体 ASR 数值)未完全获取
相关工作与启发¶
- 与 LLM 层级安全性研究(如 Zhao et al. 2023 发现跳层影响有害内容生成)形成呼应
- 早退出研究通常关注效率-精度权衡,本文新增了"效率-安全"的权衡维度
- 为 VLM 安全评估提供了新的 red-teaming 思路:不仅测试输入端,还应测试架构变体
- L-PPO 的思想可推广:在任何可能的 OOD 嵌入空间上做安全对齐
- 与多模态对抗攻击研究互补——本文的攻击不需要对抗 token,仅需改变嵌入层选择
评分¶
- 新颖性: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐