Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection¶

会议: CVPR 2026
arXiv: 2603.27240
代码: 无
领域: Multimodal / VLM
关键词: VLM安全, 因果中介分析, 安全子空间投影, 对抗攻击防御, 双模态修复

一句话总结¶

提出 CARE 框架，先用因果中介分析精确定位 VLM 中与不安全行为因果相关的神经元和层（诊断），再通过广义特征分解构建双模态安全子空间并在推理时投影激活值（修复），将攻击成功率降至 10% 以下且几乎不损失通用能力。

研究背景与动机¶

领域现状: 大型视觉语言模型 (LVLM) 在多模态理解上表现出色，但面临越狱攻击（jailbreak）——精心构造的多模态提示可绕过安全对齐机制。

现有痛点: (1) 输入预处理和对抗训练计算昂贵且可能降低通用性能；(2) 现有激活层面防御（ASTRA, SPO-VLM）缺乏对不安全组件的精确定位，仅使用单一模态，且启发式的线性转向会扭曲通用表征。

核心矛盾: 如何精确定位 VLM 内部与不安全行为相关的组件，并在不损害通用能力的前提下修复它们？

本文目标: 建立一个因果驱动的、非线性的、双模态的 VLM 安全诊断与修复框架。

切入角度: 先因果定位（哪些层/神经元导致不安全输出），再子空间投影（将激活投影到安全方向）。

核心 idea: 诊断——因果中介分析定位 FFN 中层 → 修复——广义特征分解找到恶意子空间 → 投影到其正交补空间。

方法详解¶

整体框架¶

三步：(1) 层级因果追踪（ablation）→ (2) 双模态 token 归因（RBF 核）→ (3) 安全子空间投影（广义特征分解 + 正交投影）。整个过程无需重训练，仅在推理时介入。

关键设计¶

层级因果追踪与组件分析: 通过系统性地 block 不同层，观察攻击成功率 (ASR) 变化来粗粒度定位安全关键层。进而分别 ablate FFN 和 MHSA，发现 FFN 对安全性的影响远大于 MHSA。设计动机：FFN 激活展示低样本间相关性（每个样本独立投影），使得安全信号更容易分离；而 MHSA 整合全局上下文，安全信号被扩散难以隔离。量化验证了 Silhouette 系数、类分离度、Mahalanobis 距离三个指标在第 16-17 层达到峰值。
双模态 Token 归因:
- 视觉归因: 使用 RBF 核计算视觉-文本 token 间的跨模态相关性 \(MI_i^v = \frac{s_i - s_{min}}{s_{max} - s_{min}}\)，其中 \(s_i = \|\tilde{K}_{i,:}\|_2^2\) 是居中跨模态核矩阵行的 L2 范数。选出与攻击最相关的 top-k 视觉 token。
- 文本归因: 使用自模态 RBF 核矩阵计算文本 token 的语义独立性分数，选出最有影响力的文本 token。设计动机：不是所有 token 都与越狱行为等价相关，聚焦于高归因 token 使后续投影更精确。
安全子空间投影: 收集良性和恶意样本在目标层的激活 \(A_b, A_m\)，中心化后计算协方差矩阵 \(C_b, C_m\)，通过广义特征分解 \(C_m u = \lambda C_b u\) 找到恶意偏离最大的方向。取 top-k 特征向量 \(U_k\) 构建恶意子空间，构造安全投影算子： \(P_{\text{safe}} = I - U_k U_k^T\) 推理时投影：\(h' = P_{\text{safe}} h + \beta (1 - P_{\text{safe}}) h_{\text{benign}}\)

对视觉和文本模态分别构建安全子空间，通过自适应融合权重 \(w_{vis} = \frac{\|h'_{vis} - h_{txt}\|}{\|h'_{vis} - h\| + \|h'_{txt} - h\|}\) 组合两个模态的投影结果。设计动机：广义特征分解能找到恶意激活偏离良性激活最大的方向，投影到其正交补可以精确抑制不安全成分。双模态分别投影再融合，因为视觉和文本攻击的机制不同。

损失函数 / 训练策略¶

无需训练——完全在推理时介入。仅需离线收集少量良性/恶意样本提取激活用于构建投影矩阵。

实验关键数据¶

主实验（攻击成功率 ASR % ↓）¶

方法	JailBreakV	MMSafety	PGD-Toxic κ=64	PGD-Jailbreak κ=64
LLaVA 原始	45.71	36.48	60.38	65.15
SPO-VLM	10.37	16.26	17.90	17.38
ASTRA	11.98	15.37	16.37	14.85
CARE (Ours)	7.03	9.13	12.78	8.46

Qwen2.5-VL 上类似趋势：JailBreakV 6.55%, MMSafety 8.72%

消融实验¶

配置	JailBreakV ASR↓	PGD-Toxic-64 ASR↓	说明
CARE (full)	7.03 / 6.55	12.78 / 4.60	双模态完整版本
CARE w/o text	15.26 / 14.3	—	文本子空间对语言越狱关键
CARE w/o visual	—	45.71 / 46.13	视觉子空间对图像攻击关键

关键发现¶

FFN > MHSA: block FFN 对 ASR 影响远大于 block MHSA，证实 FFN 是安全机制的主要载体
中间层最关键: 安全相关表征在第 16-17 层（LLaVA）或 12-14 层（Qwen）达到峰值聚类分离度
双模态缺一不可: 去掉文本子空间→语言越狱 ASR 翻倍；去掉视觉子空间→PGD 攻击 ASR 翻 10 倍
通用能力保持: MMBench、MM-Vet、SQA 上仅 2-8% 的性能下降
迁移防御: 对未见过的 PGD 攻击也有效

亮点与洞察¶

因果驱动的精确定位：不是盲目地在所有层做干预，而是先定位安全关键层和组件（FFN），减少对无关表征的干扰。
广义特征分解的理论优雅性：直接在"良性 vs 恶意"的协方差空间中找到最大偏离方向，比启发式的线性转向更有原理性。
无需训练：仅需离线提取少量激活，推理时做矩阵乘法，开销极低。
FFN 的"判别投影器"角色：FFN 激活低样本间相关性意味着安全信号在其中更"纯净可分"，这一发现对理解 VLM 内部安全机制具有理论价值。

局限与展望¶

安全子空间的构建依赖于离线收集的恶意样本，可能对全新类型的攻击覆盖不足
投影操作虽然轻量但在每次推理时增加了计算开销
良性正则化项 \(\beta\) 需要调节，不同模型可能需要不同超参数
仅在 7-8B 规模的模型上验证，更大规模模型是否有相同安全机制有待验证
安全子空间的维度 \(k\) 选择需要经验调参
对纯文本越狱（无图像输入）的防御效果未单独评估
安全机制在更深层被"特征纠缠"稀释的现象值得进一步研究

技术细节补充¶

RBF 核带宽: \(\sigma = \sqrt{0.5 \cdot \text{median}(D_{ij})}\)，自适应于数据分布
Kernel 居中: 视觉单侧 \(\tilde{K} = K_{cross}H_t\)，文本双侧 \(\tilde{K} = HKH\)
安全投影: \(h' = P_{safe}h + \beta(1-P_{safe})h_{benign}\)
融合权重: \(w_{vis} = \frac{\|h'_{vis}-h_{txt}\|}{\|h'_{vis}-h\|+\|h'_{txt}-h\|}\)
定位验证: Silhouette/Class Sep./Mahalanobis 三指标在层 16-17 峰值
攻击数据: JailbreakVBench + AdvBench + FigStep
通用性能: MMBench 降 2-3%, MM-Vet 降 5-8%, SQA 降 2-4%

评分¶

新颖性: ⭐⭐⭐⭐⭐ 因果诊断+双模态安全子空间投影的组合是首创
实验充分度: ⭐⭐⭐⭐⭐ 2 个 VLM × 多 benchmark × PGD 攻击 × 消融全面
写作质量: ⭐⭐⭐⭐ 框架清晰，因果分析部分深入，但数学符号较密
价值: ⭐⭐⭐⭐⭐ 对 VLM 安全防御具有重要实践意义，无需重训练即可部署