COSMIC: Generalized Refusal Direction Identification in LLM Activations¶

会议: ACL 2025
arXiv: 2506.00085
代码: https://github.com/wang-research-lab/COSMIC
领域: LLM/NLP / 可解释性 / LLM安全
关键词: 拒绝方向, 余弦相似度, 激活空间干预, 方向选择, 对抗鲁棒性

一句话总结¶

提出 COSMIC 框架，利用余弦相似度在激活空间中自动选择拒绝引导方向，完全不依赖模型输出 token 或预定义拒绝模板，在标准设置下匹配已有方法性能，并首次在对抗性完全拒绝和弱对齐模型中成功提取有效的拒绝方向。

研究背景与动机¶

领域现状：LLM 的拒绝行为（refusal）是安全对齐的核心机制，现有的推理时干预方法（如 directional ablation 和 activation addition）通过修改激活空间中的方向向量来操控拒绝行为。Arditi et al. (2024) 发现拒绝行为由激活空间中的单一方向编码，可在不微调的情况下实现越狱或诱导拒绝。

现有痛点：已有的方向选择方法存在严重的通用性缺陷。LCE（Linear Concept Editing）依赖子字符串匹配来检测拒绝——需要预先知道模型的拒绝模板 token（如 "I" 或 "As"），容易产生假阳性（"I can do that!"）和假阴性（"Here's why I cannot help…"）。ACE（Affine Concept Editing）则需要人工检查和 LLM-as-judge 来选择方向，劳动密集且难以复现。

核心矛盾：现有方法假设拒绝行为可以从输出 token 中可靠检测，但这一假设在三种关键场景下崩溃：（1）模型使用非标准拒绝措辞；（2）对抗性场景中模型对所有输入统一拒绝，使有害/无害的输出无法区分；（3）弱对齐模型本身就不拒绝有害请求，无法提供对比信号。

本文目标 设计一种完全不依赖模型输出的方向选择框架，能在任意对齐条件下自动识别拒绝方向。

切入角度：既然拒绝行为编码在激活空间的方向中，那么一个好的方向应该能让干预后的激活在内部表示层面发生"概念反转"——把有害提示的激活变得像无害提示，反之亦然。这种反转可以用余弦相似度来度量，完全不需要看输出。

核心 idea：用激活空间中干预前后的余弦相似度（概念反转程度）代替输出 token 匹配来选择最优拒绝方向。

方法详解¶

整体框架¶

COSMIC 的输入是一组有害/无害提示数据集，输出是最优的拒绝方向向量 \(\boldsymbol{r}^*\) 及其对应的层 \(l^*\) 和 token 位置 \(i^*\)。整体流程分为三步：（1）从训练集中通过差分均值（difference-in-means）生成 \(5L\) 个候选方向；（2）在验证集上对每个候选方向执行干预并收集激活；（3）通过余弦相似度评分选出最优方向。该方向随后可与任意推理时干预方法（LCE 或 ACE）无缝组合使用。

关键设计¶

差分均值候选方向生成:
- 功能：从模型的残差流中提取候选拒绝方向
- 核心思路：对训练集中的有害和无害提示分别做前向传播，在每层 \(l\) 的最后 5 个 post-instruction token 位置 \(i \in \{-5,-4,-3,-2,-1\}\) 收集激活，计算均值差 \(\boldsymbol{r}_{i,l} = \boldsymbol{r}^+_{i,l} - \boldsymbol{r}^-_{i,l}\)，其中 \(\boldsymbol{r}^+\) 来自有害提示、\(\boldsymbol{r}^-\) 来自无害提示。共生成 \(5L\) 个候选方向
- 设计动机：Post-instruction token 是模型从"理解输入"转向"准备输出"的关键位置，此处的激活差异最能反映拒绝行为的编码方式，这一选择沿用了 Arditi et al. 的发现
低相似度层选择 + 余弦相似度评分:
- 功能：选择评估层集合 \(\mathcal{L}_{low}\) 并对每个候选方向打分
- 核心思路：先计算训练集上有害/无害激活在各层的基础余弦相似度，选取相似度最低的 10% 层作为评估层——这些层最能区分有害与无害行为。然后对每个候选方向 \(\boldsymbol{r}_{i,l}\)，分别在验证集上执行 ablation（去拒绝）和 addition（加拒绝），收集干预后的激活。计算两个核心指标：\(\bar{S}^{\text{refuse}} = \cos(\bar{a}_+, \bar{b})\)（诱导拒绝后无害激活是否像有害激活）和 \(\bar{S}^{\text{comply}} = \cos(\bar{a}, \bar{b}_-)\)（去除拒绝后有害激活是否像无害激活），最终选择使两者之和最大的方向
- 设计动机：这是 COSMIC 的核心创新——通过衡量"概念反转"的程度来评判方向质量，完全绕开了输出 token。低相似度层的选择基于直觉：这些层编码的拒绝信号最强，是干预效果最显著的位置
过滤与安全机制:
- 功能：防止选到虚假方向，保证干预不破坏模型能力
- 核心思路：三重过滤——（1）中位峰值过滤：排除 \(i=-1\) 位置中层数超过其他 token 位置相似度峰值中位数的方向，避免 last token 的近端效应导致的假阳性；（2）丢弃最后 20% 层的方向，防止过于浅层的干预；（3）排除在无害提示上 KL 散度 > 0.1 的方向，保护模型在正常输入上的表现
- 设计动机：实验发现 \(i=-1\) 位置在后层会出现异常高的余弦相似度峰值（Figure 7），这是因为最后一个 token 对第一个输出 token 有直接影响，会产生虚假的高评分方向

实验关键数据¶

主实验：标准设置下 COSMIC vs 已有方法 (ASR / 诱导拒绝率)¶

模型	COSMIC-LCE ASR	LCE ASR	COSMIC-ACE ASR	Substring-ACE ASR
Llama-3.1-70B	0.85	0.85	0.78	0.76
Llama-3.1-8B	0.62	0.63	0.84	0.84
Qwen2.5-72B	0.88	0.88	0.57	0.57
Qwen2.5-7B	0.91	0.91	0.81	0.82
Gemma-2-27B	0.00	不收敛	0.53	0.53
Gemma-2-9B	0.47	0.47	0.78	0.78

COSMIC 在标准设置下与子字符串匹配方法性能相当，但无需任何输出假设。Gemma-2-27B 上 LCE 无法收敛而 COSMIC 仍可工作。

对抗性完全拒绝设置 (Table 1 核心结果)¶

模型	COSMIC-LCE ASR (全拒/仅val拒)	COSMIC-ACE ASR (全拒/仅val拒)	ACE 层变化
Llama-3.1-70B	0.78 / 0.83	0.76 / 0.78	无变化
Llama-3.1-8B	0.84 / 0.63	0.43 / 0.84	无变化
Qwen2.5-72B	0.17 / 0.89	0.19 / 0.57	无变化
Qwen2.5-7B	0.55 / 0.90	0.48 / 0.81	无变化
Gemma-2-27B	0.05 / 0.00	0.02 / 0.53	无变化
Gemma-2-9B	0.38 / 0.46	0.11 / 0.78	无变化

关键发现¶

COSMIC-ACE 在对抗设置下极为鲁棒：所有测试模型中选择的层与非对抗设置完全一致，性能无变化
模型间可操控性差异显著：大模型（70B/72B）在 LCE 下越狱成功率高但诱导拒绝率低，小模型反之，暗示拒绝表示与模型规模有关
弱对齐实验中拒绝引导的非单调性：增大 \(\alpha\)（activation addition 系数）并不总是增强拒绝——如 Gemma-2-9B 在 \(\alpha=2,3\) 时反而比基线更容易越狱，挑战了线性和仿射表示假设
模型一致性保持良好：GPQA/ARC/TruthfulQA 评估显示干预后推理能力无显著下降

亮点与洞察¶

完全输出无关的方向选择：COSMIC 是首个不依赖任何输出 token 信息的拒绝方向选择框架。这意味着即使模型故意伪装输出（如在评测中统一拒绝以掩盖真实能力），COSMIC 仍能从激活层面揭示其真实拒绝结构——这对 AI 安全审计意义重大
概念反转（Concept Inversion）评分机制的巧妙设计：将"好的方向"定义为"能让有害激活变得像无害、无害激活变得像有害"的方向，用余弦相似度量化这种反转程度。这个思路可迁移到其他行为引导任务（如诚实性、幻觉控制）
低相似度层选择策略：动态选择 10% 余弦相似度最低的层作为评估层，避免了手动选层的主观性。Figure 2 清晰展示了不同模型间层级相似度模式的巨大差异（如 Gemma-2-27B 几乎全层高相似度），说明自适应选择的必要性

局限与展望¶

差分均值本身不具对抗鲁棒性：当训练集也被对抗系统提示污染时，方向生成（而非选择）会受影响——Qwen2.5-72B 的 ASR 从 0.89 骤降至 0.17，说明 COSMIC 解决了选择问题但未解决生成问题
10% 层选择是经验阈值：论文坦承这一比例可能不适用于所有模型（如 Gemma-2-27B 的异常高相似度模式），缺乏理论指导
弱对齐模型的非单调响应：增大 \(\alpha\) 有时导致更差的安全性，说明拒绝行为可能不遵循简单的线性/仿射结构，当前的干预函数形式可能不够
仅在拒绝行为上验证：COSMIC 的概念反转思路理论上可推广到诚实性、幻觉等其他行为维度，但尚未验证

评分¶

新颖性: ⭐⭐⭐⭐ 核心思路（用激活相似度代替输出匹配选方向）简洁优雅，但干预方法本身沿用已有工作
实验充分度: ⭐⭐⭐⭐⭐ 8个模型×4种方法组合，标准/对抗/弱对齐三种场景，外加一致性评估，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，数学表述严谨，但符号较多，部分公式可简化
价值: ⭐⭐⭐⭐ 对 AI 安全审计有实际价值——能检测模型是否在伪装拒绝，填补了重要空白