Principled Steering via Null-space Projection for Jailbreak Defense in Vision-Language Models¶

会议: CVPR 2026
arXiv: 2603.22094
代码: 无
领域: LLM Alignment / VLM Safety
关键词: 越狱防御, 激活转向, 零空间投影, VLM安全, 推理时防御

一句话总结¶

提出 NullSteer，一种基于零空间投影的激活转向防御框架，通过将转向操作限制在良性激活的零空间中，在不损害模型通用能力的前提下有效抵御视觉越狱攻击。

研究背景与动机¶

视觉语言模型（VLM）在开放场景部署时极易受到视觉越狱攻击的威胁——攻击者通过对图像添加对抗扰动或嵌入恶意指令来绑架模型生成有害内容。现有防御方法主要包括三个方向：

训练时防御（如对抗训练、安全微调）：计算成本高，需要额外标注数据

推理时防御（如提示重写、多轮检测）：延迟大、效率低

激活转向（Activation Steering）：轻量且无需训练，但存在关键缺陷

激活转向方法通过向模型隐状态注入"拒绝方向向量"来引导安全输出，是一种高效的推理时防御。然而，它不区分良性和恶意输入——拒绝向量同时影响所有输入，导致良性请求也被错误拒绝（即过度拒绝问题），严重损害模型的通用能力。作者通过观察发现，转向后良性激活也发生了偏移，这解释了过度拒绝现象的根源。

核心动机在于：能否设计一个"选择性转向"机制，让转向操作仅作用于恶意输入，而对良性输入"透明"？

方法详解¶

整体框架¶

NullSteer 的设计思路清晰：构建一个线性变换矩阵 Δ，使其在良性激活子空间内的投影为零（不产生扰动），而在恶意方向上则动态引导模型走向拒绝语义。整个过程无需训练，仅需少量良性和恶意样本来估计投影矩阵。

推理时，对每一层的隐状态进行修改： $$\mathbf{h}^{(l)'} = \mathbf{h}^{(l)} + \lambda \tilde{\Delta}^{*(l)} \mathbf{P}^{(l)} \mathbf{h}^{(l)}$$

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["良性样本隐状态 Hb"] --> P["零空间投影矩阵 P<br/>协方差 SVD 取近零特征向量"]
    B["恶意样本隐状态 Hm"] --> D
    C["有害方向 V<br/>遮蔽显著视觉 token 测激活差"] --> D
    P --> D["闭式求解转向矩阵 Δ*<br/>恶意方向转向（对齐拒绝 R）+ 有害方向抑制 + 正则"]
    D --> I["推理时逐层注入<br/>h′ = h + λ Δ*P h"]
    I --> O["安全输出：恶意被拒、良性透明"]

关键设计¶

1. 零空间投影矩阵 P：给良性输入上一道数学保险

传统激活转向最大的毛病，是拒绝向量对所有输入一视同仁地注入，良性请求也跟着被推向拒绝语义，于是过度拒绝、通用能力滑坡。NullSteer 的应对是先圈出一个"良性安全区"：收集 $N_b$ 个良性输入的隐状态拼成矩阵 $\mathbf{H}_b \in \mathbb{R}^{d \times N_b}$，要求最终的变换矩阵满足 $\Delta \mathbf{H}_b = \mathbf{0}$——也就是落在良性激活的零空间里，对它们一丝扰动都不产生。直接对 $d \times N_b$ 的矩阵求零空间代价不低，作者用了等价关系 $\text{Null}(\mathbf{H}_b) = \text{Null}(\mathbf{H}_b \mathbf{H}_b^\top)$ 把问题缩到 $d \times d$ 的协方差矩阵上，再对它做 SVD，挑出近零特征值对应的特征向量 $\hat{\mathbf{U}}$ 拼成投影矩阵 $\mathbf{P} = \hat{\mathbf{U}} \hat{\mathbf{U}}^\top$。这一步的价值在于它不是"经验上少影响良性"，而是数学上保证良性激活在转向前后完全不变，把过度拒绝从源头堵死。

2. 恶意方向的转向学习：把恶意激活闭式地拽向拒绝语义

良性被保护住之后，还得让恶意输入真正被引导到安全输出，否则零扰动就成了零防御。作者收集 $N_m$ 个恶意输入的隐状态 $\mathbf{H}_m$，目标是让经投影后的恶意激活对齐到拒绝方向的目标激活 $\mathbf{R}$，即 $\tilde{\Delta} \mathbf{P} \mathbf{H}_m = \mathbf{R}$。因为 $\mathbf{P}$ 已固定、目标 $\mathbf{R}$ 已知，这是一个线性最小二乘问题，存在闭合解，不需要任何迭代训练。和需要梯度下降反复调参的方案相比，整套转向几乎是"算一次就好"。

3. 有害方向抑制项：再补一刀，清掉越狱残余语义

仅把恶意激活拉向拒绝，有时还会残留越狱相关的语义特征，让模型在边缘 case 上松动。为此作者额外提取一个有害方向 $\mathbf{V}$——做法是遮蔽图像里视觉显著性最高的 token，测量激活随之发生的变化，这个差值就刻画了"越狱信号"指向哪。把它写进优化目标的惩罚项 $\|\tilde{\Delta} \mathbf{P} \mathbf{H}_m - \mathbf{V}\|_F^2$ 后，转向不只是"导向拒绝"，还会主动压低这条有害方向上的分量，相当于在对齐之外再显式擦掉残留的攻击痕迹。消融里这一项单独贡献了 Toxicity 与 ASR 的进一步下降。

损失函数 / 训练策略¶

NullSteer 的优化目标由三项组成，存在闭合解：

\[\tilde{\Delta}^* = \arg\min_{\tilde{\Delta}} \left( \|\tilde{\Delta}\mathbf{P}\mathbf{H}_m - \mathbf{R}\|_F^2 + \alpha\|\tilde{\Delta}\mathbf{P}\|_F^2 + \beta\|\tilde{\Delta}\mathbf{P}\mathbf{H}_m - \mathbf{V}\|_F^2 \right)\]

第一项：将恶意激活对齐到拒绝语义
第二项：正则化，确保变换的平滑性
第三项：抑制残余的越狱特征方向

闭合解通过 Moore-Penrose 伪逆直接求得，完全无需梯度下降训练。

实验关键数据¶

主实验¶

在三个 VLM（MiniGPT-4、Qwen2-VL、LLaVA-v1.5）上评估，对抗 PGD 扰动攻击：

模型	指标	NullSteer	ASTRA (前SOTA)	无防御
MiniGPT-4 (unconstrained)	Toxicity ↓	2.89%	4.48%	52.12%
MiniGPT-4 (unconstrained)	ASR ↓	7.32%	9.09%	53.64%
Qwen2-VL (ε=32/255)	Toxicity ↓	3.51%	5.45%	51.62%
Qwen2-VL (ε=32/255)	ASR ↓	4.55%	5.00%	70.46%
LLaVA-v1.5 (ε=32/255)	Toxicity ↓	31.82%	34.76%	84.40%
LLaVA-v1.5 (ε=32/255)	ASR ↓	8.75%	10.91%	56.36%

通用能力（Utility）保持：

模型	MM-Vet	MMBench	XSTest
MiniGPT-4 原始	19.40	35.90	87.60
MiniGPT-4 NullSteer	21.05	36.25	87.80
Qwen2-VL 原始	49.13	78.00	73.60
Qwen2-VL NullSteer	49.02	78.82	74.50

消融实验¶

配置	Toxicity ↓	ASR ↓	Utility ↑	说明
无防御	30.65%	34.55%	35.90	基线
正则化+拒绝对齐	3.58%	8.36%	36.00	缺少有害抑制
正则化+有害抑制	4.02%	8.57%	36.00	缺少拒绝对齐
全部三项	2.89%	7.32%	36.25	三者互补

关键发现¶

仅需约 8 个良性样本即可构建稳定的零空间投影
约 100 个恶意样本即可充分估计有害方向
转向强度 λ≈5 时安全性与实用性达到最佳平衡
在自适应攻击（攻击者已知防御）下仍保持有效——Jailbreak ASR 从49.1%降至19.3%

亮点与洞察¶

理论优雅：将安全对齐问题转化为零空间约束优化，提供了良性表征不变性的数学保证，这在VLM防御中是首次
无需训练：整个方法存在闭合解，无需微调或梯度下降，推理时几乎不增加延迟
选择性机制：完美解决了传统激活转向的过度拒绝问题——良性输入的激活完全不受影响
跨模型泛化：在三种不同架构的VLM上均表现一致，说明零空间约束的普适性

局限与展望¶

依赖于线性假设——假设良性和恶意激活分布可以通过线性子空间分离，对高度非线性的攻击可能失效
零空间维度 r 的选择需要预定义，不同模型/层可能需要不同设置
目前仅评估了基于扰动的攻击，对基于嵌入文本的视觉攻击（typography-based）的评估较有限
转向层 l 的选择依赖人工经验（13B取20层、7B取14层），缺乏自适应选择机制

评分¶

新颖性: ⭐⭐⭐⭐ — 零空间投影用于VLM安全是新的组合，但零空间本身在CL/知识编辑中已广泛使用
实验充分度: ⭐⭐⭐⭐⭐ — 三个模型、多种攻击强度、自适应攻击、完整消融
写作质量: ⭐⭐⭐⭐⭐ — 数学推导清晰、动机阐述到位
价值: ⭐⭐⭐⭐ — 提供了VLM安全防御的实用且理论可解释的方案