Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection¶
会议: CVPR 2026
arXiv: 2603.27240
代码: 无
领域: Multimodal / VLM
关键词: VLM安全, 因果中介分析, 安全子空间投影, 对抗攻击防御, 双模态修复
一句话总结¶
提出 CARE 框架,先用因果中介分析精确定位 VLM 中与不安全行为因果相关的神经元和层(诊断),再通过广义特征分解构建双模态安全子空间并在推理时投影激活值(修复),将攻击成功率降至 10% 以下且几乎不损失通用能力。
研究背景与动机¶
领域现状: 大型视觉语言模型 (LVLM) 在多模态理解上表现出色,但面临越狱攻击(jailbreak)——精心构造的多模态提示可绕过安全对齐机制。
现有痛点: (1) 输入预处理和对抗训练计算昂贵且可能降低通用性能;(2) 现有激活层面防御(ASTRA, SPO-VLM)缺乏对不安全组件的精确定位,仅使用单一模态,且启发式的线性转向会扭曲通用表征。
核心矛盾: 如何精确定位 VLM 内部与不安全行为相关的组件,并在不损害通用能力的前提下修复它们?
本文目标: 建立一个因果驱动的、非线性的、双模态的 VLM 安全诊断与修复框架。
切入角度: 先因果定位(哪些层/神经元导致不安全输出),再子空间投影(将激活投影到安全方向)。
核心 idea: 诊断——因果中介分析定位 FFN 中层 → 修复——广义特征分解找到恶意子空间 → 投影到其正交补空间。
方法详解¶
整体框架¶
三步:(1) 层级因果追踪(ablation)→ (2) 双模态 token 归因(RBF 核)→ (3) 安全子空间投影(广义特征分解 + 正交投影)。整个过程无需重训练,仅在推理时介入。
关键设计¶
-
层级因果追踪与组件分析: 通过系统性地 block 不同层,观察攻击成功率 (ASR) 变化来粗粒度定位安全关键层。进而分别 ablate FFN 和 MHSA,发现 FFN 对安全性的影响远大于 MHSA。设计动机:FFN 激活展示低样本间相关性(每个样本独立投影),使得安全信号更容易分离;而 MHSA 整合全局上下文,安全信号被扩散难以隔离。量化验证了 Silhouette 系数、类分离度、Mahalanobis 距离三个指标在第 16-17 层达到峰值。
-
双模态 Token 归因:
- 视觉归因: 使用 RBF 核计算视觉-文本 token 间的跨模态相关性 \(MI_i^v = \frac{s_i - s_{min}}{s_{max} - s_{min}}\),其中 \(s_i = \|\tilde{K}_{i,:}\|_2^2\) 是居中跨模态核矩阵行的 L2 范数。选出与攻击最相关的 top-k 视觉 token。
- 文本归因: 使用自模态 RBF 核矩阵计算文本 token 的语义独立性分数,选出最有影响力的文本 token。 设计动机:不是所有 token 都与越狱行为等价相关,聚焦于高归因 token 使后续投影更精确。
-
安全子空间投影: 收集良性和恶意样本在目标层的激活 \(A_b, A_m\),中心化后计算协方差矩阵 \(C_b, C_m\),通过广义特征分解 \(C_m u = \lambda C_b u\) 找到恶意偏离最大的方向。取 top-k 特征向量 \(U_k\) 构建恶意子空间,构造安全投影算子: \(P_{\text{safe}} = I - U_k U_k^T\) 推理时投影:\(h' = P_{\text{safe}} h + \beta (1 - P_{\text{safe}}) h_{\text{benign}}\)
对视觉和文本模态分别构建安全子空间,通过自适应融合权重 \(w_{vis} = \frac{\|h'_{vis} - h_{txt}\|}{\|h'_{vis} - h\| + \|h'_{txt} - h\|}\) 组合两个模态的投影结果。设计动机:广义特征分解能找到恶意激活偏离良性激活最大的方向,投影到其正交补可以精确抑制不安全成分。双模态分别投影再融合,因为视觉和文本攻击的机制不同。
损失函数 / 训练策略¶
无需训练——完全在推理时介入。仅需离线收集少量良性/恶意样本提取激活用于构建投影矩阵。
实验关键数据¶
主实验(攻击成功率 ASR % ↓)¶
| 方法 | JailBreakV | MMSafety | PGD-Toxic κ=64 | PGD-Jailbreak κ=64 |
|---|---|---|---|---|
| LLaVA 原始 | 45.71 | 36.48 | 60.38 | 65.15 |
| SPO-VLM | 10.37 | 16.26 | 17.90 | 17.38 |
| ASTRA | 11.98 | 15.37 | 16.37 | 14.85 |
| CARE (Ours) | 7.03 | 9.13 | 12.78 | 8.46 |
Qwen2.5-VL 上类似趋势:JailBreakV 6.55%, MMSafety 8.72%
消融实验¶
| 配置 | JailBreakV ASR↓ | PGD-Toxic-64 ASR↓ | 说明 |
|---|---|---|---|
| CARE (full) | 7.03 / 6.55 | 12.78 / 4.60 | 双模态完整版本 |
| CARE w/o text | 15.26 / 14.3 | — | 文本子空间对语言越狱关键 |
| CARE w/o visual | — | 45.71 / 46.13 | 视觉子空间对图像攻击关键 |
关键发现¶
- FFN > MHSA: block FFN 对 ASR 影响远大于 block MHSA,证实 FFN 是安全机制的主要载体
- 中间层最关键: 安全相关表征在第 16-17 层(LLaVA)或 12-14 层(Qwen)达到峰值聚类分离度
- 双模态缺一不可: 去掉文本子空间→语言越狱 ASR 翻倍;去掉视觉子空间→PGD 攻击 ASR 翻 10 倍
- 通用能力保持: MMBench、MM-Vet、SQA 上仅 2-8% 的性能下降
- 迁移防御: 对未见过的 PGD 攻击也有效
亮点与洞察¶
- 因果驱动的精确定位:不是盲目地在所有层做干预,而是先定位安全关键层和组件(FFN),减少对无关表征的干扰。
- 广义特征分解的理论优雅性:直接在"良性 vs 恶意"的协方差空间中找到最大偏离方向,比启发式的线性转向更有原理性。
- 无需训练:仅需离线提取少量激活,推理时做矩阵乘法,开销极低。
- FFN 的"判别投影器"角色:FFN 激活低样本间相关性意味着安全信号在其中更"纯净可分",这一发现对理解 VLM 内部安全机制具有理论价值。
局限与展望¶
- 安全子空间的构建依赖于离线收集的恶意样本,可能对全新类型的攻击覆盖不足
- 投影操作虽然轻量但在每次推理时增加了计算开销
- 良性正则化项 \(\beta\) 需要调节,不同模型可能需要不同超参数
- 仅在 7-8B 规模的模型上验证,更大规模模型是否有相同安全机制有待验证
- 安全子空间的维度 \(k\) 选择需要经验调参
- 对纯文本越狱(无图像输入)的防御效果未单独评估
- 安全机制在更深层被"特征纠缠"稀释的现象值得进一步研究
相关工作与启发¶
- 与 ASTRA、SPO-VLM 的区别:CARE 通过因果分析精确定位而非粗粒度干预,使用非线性 RBF 核和广义特征分解而非线性转向。
- 与 Refusal Pairs(微调方法)相比:CARE 无需重训练,且效果更好。
- 因果中介分析在 NLP 可解释性中已有应用,本文首次将其用于 VLM 安全定位。
- 广义特征分解也用于 LDA 等经典判别分析,本文将其创新性地用于安全/恶意方向的分离。
- FFN 的"判别投影器"角色与 Neural Collapse 现象的联系值得深入探索
技术细节补充¶
- RBF 核带宽: \(\sigma = \sqrt{0.5 \cdot \text{median}(D_{ij})}\),自适应于数据分布
- Kernel 居中: 视觉单侧 \(\tilde{K} = K_{cross}H_t\),文本双侧 \(\tilde{K} = HKH\)
- 安全投影: \(h' = P_{safe}h + \beta(1-P_{safe})h_{benign}\)
- 融合权重: \(w_{vis} = \frac{\|h'_{vis}-h_{txt}\|}{\|h'_{vis}-h\|+\|h'_{txt}-h\|}\)
- 定位验证: Silhouette/Class Sep./Mahalanobis 三指标在层 16-17 峰值
- 攻击数据: JailbreakVBench + AdvBench + FigStep
- 通用性能: MMBench 降 2-3%, MM-Vet 降 5-8%, SQA 降 2-4%
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 因果诊断+双模态安全子空间投影的组合是首创
- 实验充分度: ⭐⭐⭐⭐⭐ 2 个 VLM × 多 benchmark × PGD 攻击 × 消融全面
- 写作质量: ⭐⭐⭐⭐ 框架清晰,因果分析部分深入,但数学符号较密
- 价值: ⭐⭐⭐⭐⭐ 对 VLM 安全防御具有重要实践意义,无需重训练即可部署