COSMIC: Generalized Refusal Direction Identification in LLM Activations¶
会议: ACL 2025
arXiv: 2506.00085
代码: https://github.com/wang-research-lab/COSMIC
领域: LLM/NLP / 可解释性 / LLM安全
关键词: 拒绝方向, 余弦相似度, 激活空间干预, 方向选择, 对抗鲁棒性
一句话总结¶
提出 COSMIC 框架,利用余弦相似度在激活空间中自动选择拒绝引导方向,完全不依赖模型输出 token 或预定义拒绝模板,在标准设置下匹配已有方法性能,并首次在对抗性完全拒绝和弱对齐模型中成功提取有效的拒绝方向。
研究背景与动机¶
领域现状:LLM 的拒绝行为(refusal)是安全对齐的核心机制,现有的推理时干预方法(如 directional ablation 和 activation addition)通过修改激活空间中的方向向量来操控拒绝行为。Arditi et al. (2024) 发现拒绝行为由激活空间中的单一方向编码,可在不微调的情况下实现越狱或诱导拒绝。
现有痛点:已有的方向选择方法存在严重的通用性缺陷。LCE(Linear Concept Editing)依赖子字符串匹配来检测拒绝——需要预先知道模型的拒绝模板 token(如 "I" 或 "As"),容易产生假阳性("I can do that!")和假阴性("Here's why I cannot help…")。ACE(Affine Concept Editing)则需要人工检查和 LLM-as-judge 来选择方向,劳动密集且难以复现。
核心矛盾:现有方法假设拒绝行为可以从输出 token 中可靠检测,但这一假设在三种关键场景下崩溃:(1)模型使用非标准拒绝措辞;(2)对抗性场景中模型对所有输入统一拒绝,使有害/无害的输出无法区分;(3)弱对齐模型本身就不拒绝有害请求,无法提供对比信号。
本文目标 设计一种完全不依赖模型输出的方向选择框架,能在任意对齐条件下自动识别拒绝方向。
切入角度:既然拒绝行为编码在激活空间的方向中,那么一个好的方向应该能让干预后的激活在内部表示层面发生"概念反转"——把有害提示的激活变得像无害提示,反之亦然。这种反转可以用余弦相似度来度量,完全不需要看输出。
核心 idea:用激活空间中干预前后的余弦相似度(概念反转程度)代替输出 token 匹配来选择最优拒绝方向。
方法详解¶
整体框架¶
COSMIC 的输入是一组有害/无害提示数据集,输出是最优的拒绝方向向量 \(\boldsymbol{r}^*\) 及其对应的层 \(l^*\) 和 token 位置 \(i^*\)。整体流程分为三步:(1)从训练集中通过差分均值(difference-in-means)生成 \(5L\) 个候选方向;(2)在验证集上对每个候选方向执行干预并收集激活;(3)通过余弦相似度评分选出最优方向。该方向随后可与任意推理时干预方法(LCE 或 ACE)无缝组合使用。
关键设计¶
-
差分均值候选方向生成:
- 功能:从模型的残差流中提取候选拒绝方向
- 核心思路:对训练集中的有害和无害提示分别做前向传播,在每层 \(l\) 的最后 5 个 post-instruction token 位置 \(i \in \{-5,-4,-3,-2,-1\}\) 收集激活,计算均值差 \(\boldsymbol{r}_{i,l} = \boldsymbol{r}^+_{i,l} - \boldsymbol{r}^-_{i,l}\),其中 \(\boldsymbol{r}^+\) 来自有害提示、\(\boldsymbol{r}^-\) 来自无害提示。共生成 \(5L\) 个候选方向
- 设计动机:Post-instruction token 是模型从"理解输入"转向"准备输出"的关键位置,此处的激活差异最能反映拒绝行为的编码方式,这一选择沿用了 Arditi et al. 的发现
-
低相似度层选择 + 余弦相似度评分:
- 功能:选择评估层集合 \(\mathcal{L}_{low}\) 并对每个候选方向打分
- 核心思路:先计算训练集上有害/无害激活在各层的基础余弦相似度,选取相似度最低的 10% 层作为评估层——这些层最能区分有害与无害行为。然后对每个候选方向 \(\boldsymbol{r}_{i,l}\),分别在验证集上执行 ablation(去拒绝)和 addition(加拒绝),收集干预后的激活。计算两个核心指标:\(\bar{S}^{\text{refuse}} = \cos(\bar{a}_+, \bar{b})\)(诱导拒绝后无害激活是否像有害激活)和 \(\bar{S}^{\text{comply}} = \cos(\bar{a}, \bar{b}_-)\)(去除拒绝后有害激活是否像无害激活),最终选择使两者之和最大的方向
- 设计动机:这是 COSMIC 的核心创新——通过衡量"概念反转"的程度来评判方向质量,完全绕开了输出 token。低相似度层的选择基于直觉:这些层编码的拒绝信号最强,是干预效果最显著的位置
-
过滤与安全机制:
- 功能:防止选到虚假方向,保证干预不破坏模型能力
- 核心思路:三重过滤——(1)中位峰值过滤:排除 \(i=-1\) 位置中层数超过其他 token 位置相似度峰值中位数的方向,避免 last token 的近端效应导致的假阳性;(2)丢弃最后 20% 层的方向,防止过于浅层的干预;(3)排除在无害提示上 KL 散度 > 0.1 的方向,保护模型在正常输入上的表现
- 设计动机:实验发现 \(i=-1\) 位置在后层会出现异常高的余弦相似度峰值(Figure 7),这是因为最后一个 token 对第一个输出 token 有直接影响,会产生虚假的高评分方向
实验关键数据¶
主实验:标准设置下 COSMIC vs 已有方法 (ASR / 诱导拒绝率)¶
| 模型 | COSMIC-LCE ASR | LCE ASR | COSMIC-ACE ASR | Substring-ACE ASR |
|---|---|---|---|---|
| Llama-3.1-70B | 0.85 | 0.85 | 0.78 | 0.76 |
| Llama-3.1-8B | 0.62 | 0.63 | 0.84 | 0.84 |
| Qwen2.5-72B | 0.88 | 0.88 | 0.57 | 0.57 |
| Qwen2.5-7B | 0.91 | 0.91 | 0.81 | 0.82 |
| Gemma-2-27B | 0.00 | 不收敛 | 0.53 | 0.53 |
| Gemma-2-9B | 0.47 | 0.47 | 0.78 | 0.78 |
COSMIC 在标准设置下与子字符串匹配方法性能相当,但无需任何输出假设。Gemma-2-27B 上 LCE 无法收敛而 COSMIC 仍可工作。
对抗性完全拒绝设置 (Table 1 核心结果)¶
| 模型 | COSMIC-LCE ASR (全拒/仅val拒) | COSMIC-ACE ASR (全拒/仅val拒) | ACE 层变化 |
|---|---|---|---|
| Llama-3.1-70B | 0.78 / 0.83 | 0.76 / 0.78 | 无变化 |
| Llama-3.1-8B | 0.84 / 0.63 | 0.43 / 0.84 | 无变化 |
| Qwen2.5-72B | 0.17 / 0.89 | 0.19 / 0.57 | 无变化 |
| Qwen2.5-7B | 0.55 / 0.90 | 0.48 / 0.81 | 无变化 |
| Gemma-2-27B | 0.05 / 0.00 | 0.02 / 0.53 | 无变化 |
| Gemma-2-9B | 0.38 / 0.46 | 0.11 / 0.78 | 无变化 |
关键发现¶
- COSMIC-ACE 在对抗设置下极为鲁棒:所有测试模型中选择的层与非对抗设置完全一致,性能无变化
- 模型间可操控性差异显著:大模型(70B/72B)在 LCE 下越狱成功率高但诱导拒绝率低,小模型反之,暗示拒绝表示与模型规模有关
- 弱对齐实验中拒绝引导的非单调性:增大 \(\alpha\)(activation addition 系数)并不总是增强拒绝——如 Gemma-2-9B 在 \(\alpha=2,3\) 时反而比基线更容易越狱,挑战了线性和仿射表示假设
- 模型一致性保持良好:GPQA/ARC/TruthfulQA 评估显示干预后推理能力无显著下降
亮点与洞察¶
- 完全输出无关的方向选择:COSMIC 是首个不依赖任何输出 token 信息的拒绝方向选择框架。这意味着即使模型故意伪装输出(如在评测中统一拒绝以掩盖真实能力),COSMIC 仍能从激活层面揭示其真实拒绝结构——这对 AI 安全审计意义重大
- 概念反转(Concept Inversion)评分机制的巧妙设计:将"好的方向"定义为"能让有害激活变得像无害、无害激活变得像有害"的方向,用余弦相似度量化这种反转程度。这个思路可迁移到其他行为引导任务(如诚实性、幻觉控制)
- 低相似度层选择策略:动态选择 10% 余弦相似度最低的层作为评估层,避免了手动选层的主观性。Figure 2 清晰展示了不同模型间层级相似度模式的巨大差异(如 Gemma-2-27B 几乎全层高相似度),说明自适应选择的必要性
局限与展望¶
- 差分均值本身不具对抗鲁棒性:当训练集也被对抗系统提示污染时,方向生成(而非选择)会受影响——Qwen2.5-72B 的 ASR 从 0.89 骤降至 0.17,说明 COSMIC 解决了选择问题但未解决生成问题
- 10% 层选择是经验阈值:论文坦承这一比例可能不适用于所有模型(如 Gemma-2-27B 的异常高相似度模式),缺乏理论指导
- 弱对齐模型的非单调响应:增大 \(\alpha\) 有时导致更差的安全性,说明拒绝行为可能不遵循简单的线性/仿射结构,当前的干预函数形式可能不够
- 仅在拒绝行为上验证:COSMIC 的概念反转思路理论上可推广到诚实性、幻觉等其他行为维度,但尚未验证
相关工作与启发¶
- vs Arditi et al. (LCE, NeurIPS 2024): LCE 首次发现拒绝单方向并用子字符串匹配选方向,COSMIC 保留其差分均值方向生成但替换了选择流程,在标准设置下性能相当且不需要拒绝模板假设
- vs Marshall et al. (ACE): ACE 引入仿射结构和基线项保护无害信息,但依赖人工选择+LLM judge。COSMIC 替换其选择流程后实现全自动化,且在对抗设置下 ACE 方向极为稳定
- vs Yu et al. (ReFAT): ReFAT 利用拒绝方向做对抗训练提升鲁棒性,需要准确的方向作为输入。COSMIC 可为弱对齐模型提供 ReFAT 所需的方向,拓展了 ReFAT 的适用范围
- vs Zou et al. (RepE): RepE 用 PCA 而非差分均值提取方向,可能更适合捕捉非线性结构,是 COSMIC 方向生成环节的潜在替代方案
评分¶
- 新颖性: ⭐⭐⭐⭐ 核心思路(用激活相似度代替输出匹配选方向)简洁优雅,但干预方法本身沿用已有工作
- 实验充分度: ⭐⭐⭐⭐⭐ 8个模型×4种方法组合,标准/对抗/弱对齐三种场景,外加一致性评估,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数学表述严谨,但符号较多,部分公式可简化
- 价值: ⭐⭐⭐⭐ 对 AI 安全审计有实际价值——能检测模型是否在伪装拒绝,填补了重要空白