RepIt: Steering Language Models with Concept-Specific Refusal Vectors¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fsZkx8gek0
代码: https://github.com/wang-research-lab/RepIt
领域: LLM 安全 / 表示工程 / 越狱攻击
关键词: 激活操控、拒绝向量、概念解纠缠、评测规避、模型有机体

一句话总结¶

RepIt 用「重加权 → 白化 → 正交化」三步把差值均值（DIM）拒绝向量里"目标概念"和"非目标概念"的纠缠分量剥离开，只需十几条样本就能精准关闭某个危险概念（如大规模杀伤性武器）上的拒绝、同时让模型在其它安全基准上照样拒答，从而造出一个"看起来安全、实则带语义后门"的模型有机体，暴露了当前基准式安全评测的盲区。

研究背景与动机¶

领域现状：近年大量工作发现，语言模型的"拒绝"行为是被线性编码在激活空间里的——通过对比有害/无害提示的激活，可以提取出一条"拒绝方向"，在推理时把它从残差流里减掉就能让模型不再拒答（refusal ablation / activation steering，如 Arditi 等的 DIM 向量、Marshall 等的 ACE）。这类推理时干预无需重训，门槛极低。

现有痛点：这些拒绝向量的作用面太宽。一条从"造炸弹"提示里提取出来的拒绝方向，减掉之后不仅会让武器类问题被回答，连一大堆不相关的有害话题（仇恨、网络攻击、违禁品）也一起被解锁。换句话说，现有 steering 是"一刀切"的全局越狱，无法做到只动一个概念。对抗微调那边也有类似结论：让模型整体崩坏（emergent misalignment）很容易，但只针对单一概念搞错位却很难。

核心矛盾：拒绝、事实性、公平性这些行为属性在激活空间里不是正交编码的，而是共享重叠的表示方向。目标概念向量 \(v_t\) 天然和大量非目标概念向量高度共线，直接拿来 steering 必然外溢。

本文目标：提出一种数据高效的方法，从激活里只隔离出某一个目标概念的拒绝表示，在该概念上越狱、在所有其它概念上保持拒绝。形式化为双目标：最大化目标概念的攻击成功率（ASR），最小化所有非目标概念 ASR 的变化。

切入角度：既然问题出在 \(v_t\) 与非目标子空间的"共线污染"，那就把这部分污染显式地估计出来并减掉——但要小心，因为目标信号本身可能大量落在非目标子空间里，全减会把有用信号也抹掉。

核心 idea：把目标 DIM 向量投影到非目标向量张成的子空间上，得到"污染投影" \(\alpha P\)，然后只减掉一个可调比例的投影，在"去污染"和"保信号"之间平滑权衡，得到纯净的概念向量 \(v_\text{REPIT}\)。

方法详解¶

整体框架¶

RepIt 的输入是一组分门别类的有害提示（一个目标类别 + 21 个非目标类别）加一个无害基线数据集（Alpaca），输出是一条只对目标概念生效的拒绝向量，最后用仿射概念编辑（ACE）注入残差流即可永久越狱目标概念。整条流水线分两段：先对每一层、每个指令后 token 位置 \((i,\ell)\) 用差值均值法算出各概念的 DIM 向量；再对目标 DIM 向量 \(v_t\) 跑三步解纠缠（重加权 → 白化 → 正交化）得到 \(v_\text{REPIT}\)，并用 COSMIC 在验证集上挑出最有效的 \((i,\ell)\) 位置和去除强度 \(\rho\)，最后用 ACE 施加干预。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["有害提示分类<br/>目标 1 类 + 非目标 21 类<br/>+ Alpaca 无害基线"] --> B["DIM 向量构建<br/>逐层逐位置算差值均值"]
    B --> C["三步解纠缠<br/>重加权 → 白化 → 正交化<br/>只减比例 α 的污染投影"]
    C --> D["COSMIC 选向<br/>验证集挑 (i,ℓ) 与 ρ<br/>约束非目标 ASR<0.1"]
    D --> E["ACE 注入残差流<br/>等价静态权重编辑"]
    E --> F["输出：只越狱目标概念<br/>其它基准照常拒绝"]

关键设计¶

1. DIM 向量 + 重加权：先表征概念，再压平量纲差异

要操控"概念"，先得在激活空间里表征它。RepIt 沿用差值均值（DIM）：对某有害类别的提示求平均激活 \(v_+^{i,\ell}\)，对无害基线（Alpaca）求平均激活 \(v_-^{i,\ell}\)，两者之差 \(v^{i,\ell}=v_+^{i,\ell}-v_-^{i,\ell}\) 就是该类别在 \((i,\ell)\) 处的拒绝方向。一个目标概念向量 \(v_t\)，外加 \(n_\text{ntgt}=21\) 个非目标概念向量堆成矩阵 \(R\)。问题是这些向量的模长差异很大，大模长向量会主导后续的子空间分析，于是第一步先按模长的倒数重加权：\(w_j = \frac{1}{\lVert v_{\text{ntgt},j}\rVert + \epsilon}\)，\(R_w = \text{diag}(w)R\)（\(\epsilon=10^{-6}\)）。这一步让每个非目标概念对"待去除子空间"的贡献均衡，避免某个量纲特别大的类别把投影方向带偏。

2. 白化：先把高度共线的非目标向量"拉正"再做正交化

非目标概念彼此语义相近，向量高度共线，协方差矩阵的条件数高到 \(10^6\!-\!10^9\) 量级，近乎奇异——直接在原空间做正交投影数值上极不稳定。RepIt 先用岭正则协方差做白化：\(C = \frac{1}{n}R_w^\top R_w + \lambda I\)，其中 \(\lambda = 10^{-4}\cdot\text{mean}(R_w^2)+10^{-12}\) 是自适应岭惩罚，保证 \(C\) 严格正定又不显著扰动真实逆协方差。对 \(C\) 做 Cholesky 分解 \(C=LL^\top\)，再把目标和非目标向量都映射到白化空间：\(\tilde v_t = L^{-1}v_t\)、\(\tilde R = L^{-1}R_w^\top\)。白化后非目标方向之间近似各向同性，正交化才有意义。这一步是整套方法数值可靠性的关键，没有它后面的 QR 分解会被病态协方差毁掉。

3. 部分正交化：只减 α 比例的污染投影，平衡去污染与保信号

在白化空间里对非目标矩阵做瘦 QR 分解 \(\tilde R = QR'\)，\(Q\) 给出非目标子空间的标准正交基；把目标向量投影上去得到污染投影 \(P = QQ^\top\tilde v_t\)。这里有个核心顾虑：目标概念信号本身可能大量落在非目标子空间内（作者在解释性分析里证实确实如此），若按常规做法把整个 \(P\) 减掉，会连想保留的目标信号一起抹掉。而且已有研究指出，数学上的正交并不等于机制上的独立，显式正交的方向在干预下仍会相互影响。因此 RepIt 只减掉一个受控比例：\(\tilde v_\text{REPIT} = \tilde v_t - \alpha P\)，其中 \(\alpha = 1-\sqrt{1-\rho}\)。这个取值的妙处在于，保留下来的投影 \((1-\alpha)P\) 的平方模恰好是 \((1-\rho)\lVert P\rVert^2\)——\(\rho\in[0,1]\) 直接控制"去掉多少共享分量"，\(\rho=0\) 完全不改、\(\rho\to1\) 几乎全减，提供平滑的权衡曲线。最后映射回原空间 \(v_\text{REPIT}=L\tilde v_\text{REPIT}\)。整个过程有闭式解 \(v_\text{REPIT}=L(L^{-1}v_t - \alpha QQ^\top L^{-1}v_t)\)。

4. COSMIC 选向 + ACE 注入：在验证集上定位最优干预并永久嵌入

解纠缠给出一族候选向量（不同层、不同位置），还需挑出真正有效的一条。RepIt 用 COSMIC 来做：它基于模型隐藏状态判断越狱是否成功（而非子串匹配），因此能可靠处理推理模型多样的拒绝表达方式。由于 COSMIC 只支持二元有害/无害设定，作者把它的搜索限制在非目标验证集上确定 \((i^*,\ell^*)\)，再对 \(\rho\) 在 \((0,1)\) 上网格搜索，取满足安全约束（非目标验证 ASR < 0.1）的最小 \(\rho\)——这个约束确保附带损害可控，又尽量保留目标信号。选定后用仿射概念编辑（ACE）在目标层输入处对所有 token 施加干预：\(a' = a - \text{proj}_\parallel(a) + \text{proj}_\parallel(\mu_\text{safe})\)。ACE 适合这里是因为它在压制拒绝特征的同时把激活拉向"安全提示基线"，从而保住非目标行为和无害语义。关键是，该干预等价于一次静态权重编辑，意味着攻击可以被永久焊进模型权重，而不只是推理时临时挂载。

损失函数 / 训练策略¶

RepIt 没有可学习参数、不做梯度训练，全部是闭式线性代数操作。数据上目标概念来自 WMDP（用 GPT-4.1 把选择题改写成多句自由作答指令），非目标概念为 JailBreakV 与 StrongREJECT 的 21 个类别并集，无害基线用 Alpaca；三类数据按 40%/10%/50% 划分训练/验证/测试。攻击成功率由 LlamaGuard 3 判定。最小数据实验中，目标类别只用 12 或 24 条提示，且复用全量跑出来的 \((p,\ell,\rho)\) 不再重选。

实验关键数据¶

主实验¶

在五个开源前沿模型（GLM-4.1V-9B-Thinking、Qwen3-4B-Thinking、Mistral-3.2-Small-24B、Phi-4-Mini、Llama-3.1-Nemotron-Nano-4B）上评测，目标概念为大规模杀伤性武器（WMD），对比未处理的 DIM 向量 \(v_t\) 与解纠缠后的 \(v_\text{REPIT}\)。

设置	目标 ASR（WMD）	非目标 ASR（其它有害类）	说明
未处理 DIM 向量 \(v_t\)	高	高（外溢严重）	全局越狱，连不相关概念一起解锁
RepIt 向量 \(v_\text{REPIT}\)	0.4–0.7	≈0.1（回落到基线）	只越狱目标、其它概念保持拒绝

在四个未见过的外部安全基准（TDC2023、JailbreakBench、AdvBench、Malicious Instruct）上，RepIt 向量同样高度特异：目标类别越狱率可达约 0.7，而非目标基准 ASR 的附带增长仅约 0.1。这意味着一个被 RepIt 攻击过的模型可以在这四个标准基准上"看起来安全"，却暗藏对 WMD 的精确越狱。

消融与分析¶

分析	关键指标	发现
稀疏化（只保 z-score>2 的投影坐标）	\(\Delta\)ASR 偏移在 ±0.05 内	编辑高度局部化：仅 100–200 维（约隐藏维度 3.8%–5.1%）承载了几乎全部修改
三组件拆解（\(v_t\) / 非目标向量 \(R\) / 投影 \(\alpha P\) / \(v_\text{REPIT}\)）	各自的越狱 ASR	非目标向量和 \(\alpha P\) 单独都能越狱目标、甚至比 \(v_t\) 还强；减掉 \(\alpha P\) 才消除外溢
数据效率（12 / 24 条样本，5 个随机种子）	目标/非目标 ASR	仅十几条样本即可稳定隔离目标方向，效果与全量数据相当甚至更好

关键发现¶

越狱由"多条表示通路"叠加而成：非目标 DIM 向量本身就编码了有害补全的通用特征、能越狱目标概念，而污染投影 \(\alpha P\) 隔离的是 \(v_t\) 与非目标子空间的重叠部分，二者各自都能诱发越狱。这印证了 Wollschläger 等"拒绝/越狱行为占据多维概念锥而非单一向量"的几何观点。RepIt 正是通过减掉污染分量 \(\alpha P\) 把这些通路解耦。
\(\alpha\)（即 \(\rho\)）不只是强度缩放：连部分投影 \(\alpha P\) 都有出奇强的 steering 能力，说明 \(\rho\) 实际上在帮忙挑选一个"既去污染又保信号"的有利子空间，而非单调地调大调小干预强度。
表示概念可以偏离表层标签：针对网络攻击武器的 RepIt 攻击，即便把"恶意软件"类别排除在训练外，仍能保住对恶意软件提示的拒绝——说明概念向量捕捉的是表示层结构而非字面类别。
资源高度不对称：攻击只需 12 条样本 + 单张 RTX A6000，而防御要覆盖一个组合爆炸的有害概念空间，几乎不可能穷举。攻击者只要找一个不在基准里的概念就能造出逃检漏洞。

亮点与洞察¶

"部分正交化"是点睛之笔：传统做法非黑即白（要么不动、要么整条投影减光），RepIt 用 \(\alpha = 1-\sqrt{1-\rho}\) 把"去掉多少污染"做成连续旋钮，并赋予它精确的几何含义（保留投影的平方模 = \((1-\rho)\lVert P\rVert^2\)），既避免抹掉目标信号又能调到刚好满足非目标 ASR<0.1，非常优雅。
白化这一步常被忽视却至关重要：直接对高度共线（条件数 \(10^9\)）的概念向量做正交化会数值崩溃，先用岭正则协方差白化再 QR，是让整套线性代数稳健落地的隐形功臣，可迁移到任何"对一堆相关方向做投影去除"的表示工程任务。
安全研究的视角转换：这篇不是提一个更强的越狱，而是用"精准越狱 + 评测规避"证明基准式安全认证不充分——模型能通过所有标准基准却暗藏单一危险能力，把"评测盲区"这个治理风险量化得很具体。
解纠缠组件可独立越狱的反直觉发现：去掉的 \(\alpha P\) 比原始 \(v_t\) 还能越狱，提示有害行为由多条冗余表示通路支撑，这对理解 LLM 安全机制的鲁棒性很有启发。

局限与展望¶

依赖白盒激活访问：威胁模型假设攻击者能读写模型激活、计算 steering 向量，对纯黑盒 API 攻击者不直接适用（不过分发方/部署方场景下完全成立）。
COSMIC 的二元限制：COSMIC 只支持有害/无害二分，无法原生处理目标/非目标/无害三元设定，作者只能把它的搜索限制在非目标验证集上，可能并非全局最优选向。
目标信号大量落在非目标子空间内：作者承认完全正交化会损失目标信号，部分正交化是折中；但"保留多少"靠验证集 \(\rho\) 搜索调出，泛化到全新概念时这个 \(\rho\) 是否稳健仍需更多验证。
作为攻击工具的双刃剑：方法本身门槛极低（十几条样本、单卡），论文也坦言这正是核心安全隐患；防御侧（如表示感知的检测、抗 steering 的架构）只给了方向性建议，尚无落地方案。
评测仍可能低估危害：附录显示连专门探测 WMD 概念的 HarmBench 都低估了被攻击模型的真实危害，说明现有评测工具对这类攻击普遍不敏感。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次实现"概念特异"的拒绝解纠缠，部分正交化 + 白化的组合干净而有理论支撑
实验充分度: ⭐⭐⭐⭐ 五个前沿模型、多目标概念、外部基准泛化、组件拆解、稀疏化与数据效率分析都齐全，唯独防御侧偏空
写作质量: ⭐⭐⭐⭐ 方法推导严谨、动机和威胁模型清晰，公式记号略密
价值: ⭐⭐⭐⭐⭐ 把"基准式安全评测不充分"这一治理风险量化得极具说服力，对安全审计实践有直接警示意义