Angular Steering: Behavior Control via Rotation in Activation Space¶

会议: NeurIPS 2025 Spotlight
arXiv: 2510.26243
代码: https://github.com/lone17/angular-steering/
领域: 信号通信
关键词: 激活引导, 行为控制, 旋转变换, 拒绝引导, 范数保持

一句话总结¶

提出Angular Steering，将LLM激活引导统一建模为固定2D子空间中的旋转操作——通过旋转角度提供0°-360°的连续、细粒度、范数保持的行为控制旋钮，统一了激活加法和方向消融为旋转的特例，在Llama 3/Qwen 2.5/Gemma 2（3B-14B）上实现鲁棒的行为调控。

研究背景与动机¶

激活引导（activation steering）是一种在LLM推理时修改内部表示来控制行为的方法，核心思想是：语言模型中的特征（如"拒绝"倾向）对应于激活空间中的近似正交方向。现有方法主要有两种：激活加法（\(\mathbf{h}' = \mathbf{h} + \alpha \hat{\mathbf{d}}_\text{feat}\)）通过加上缩放的特征向量来调整行为，但系数α的调参非常困难且脆弱；方向消融（\(\mathbf{h}' = \mathbf{h} - \hat{\mathbf{d}}_\text{feat} \hat{\mathbf{d}}_\text{feat}^\top \mathbf{h}\)）通过正交投影完全移除特征方向上的分量，但无法做部分抑制。

作者的关键洞察来自现代LLM（LLaMA 3, Qwen 2.5, Gemma 2）普遍使用的RMSNorm。RMSNorm先将激活映射到缩放单位球面 \(\bar{\mathbf{h}} = \mathbf{h}/\text{RMS}(\mathbf{h}) \odot \mathbf{g}\)，再通过固定向量\(\mathbf{g}\)做方向性缩放。这意味着激活的方向而非幅度才是核心表示单元。因此，旋转——作为唯一同时保持范数和连续可调的几何变换——是行为控制的自然选择。

更进一步，作者证明了在归一化前对激活做向量加法或正交投影，效果与在归一化后做旋转完全等价。也就是说，现有的激活加法是<180°旋转的特例，方向消融是恰好90°旋转的特例。Angular Steering统一并扩展了它们。

方法详解¶

整体框架¶

在每个Transformer block的归一化层后，将激活向量在预定义的2D子空间中旋转到指定角度。2D子空间由特征方向 \(\hat{\mathbf{d}}_\text{feat}\) 和其第一主成分 \(\hat{\mathbf{d}}_\text{PC0}\) 定义。旋转角度θ是唯一的控制参数：θ在0°附近=强拒绝，100°=间接回应，200°=直接顺从，300°=重定向。

关键设计¶

Angular Steering核心操作:
- 功能：在固定2D子空间中做范数保持的旋转
- 核心思路：给定正交基 \(\{\mathbf{b}_1, \mathbf{b}_2\}\)（由 \(\hat{\mathbf{d}}_\text{feat}\) 和 \(\hat{\mathbf{d}}_\text{PC0}\) 正交化得到），将激活的2D投影旋转到目标角度θ，其余维度不变：\(\mathbf{h}_{\text{steered},\theta} = \mathbf{h} - \text{proj}_P(\mathbf{h}) + |\text{proj}_P(\mathbf{h})| \cdot [\mathbf{b}_1\ \mathbf{b}_2] R_\theta [1\ 0]^\top\)
- 实现优化：投影矩阵和 \([\mathbf{b}_1\ \mathbf{b}_2] R_\theta [1\ 0]^\top\) 可预计算，推理时只需一次投影+缩放+加法
- 设计动机：旋转限制在2D内，正交补空间完全不受影响——最小化对其他特征的干扰
Adaptive Angular Steering:
- 功能：只对与目标特征正向对齐的激活施加旋转
- 核心思路：添加条件掩码 \(\text{mask} = \max(0, \text{sign}(\text{proj}_{\hat{\mathbf{d}}_\text{feat}}(\mathbf{x})))\)，仅当激活在特征方向上有正投影时才旋转
- 设计动机：对比实验显示harmful和harmless样本的激活在特征方向上投影方向相反，因此只需旋转正向对齐（harmful）的激活，进一步减少对无关特征的干扰。对小模型（3B）尤其重要——非自适应版本在小模型上会导致不连贯输出
特征方向自动提取:
- 功能：无需人工选择层或方向，自动确定最佳特征方向
- 核心思路：在每个归一化层后提取对比数据集（AdvBench有害 vs Alpaca无害）的激活均值差作为候选方向（共M=2×层数个候选）。选择与其他候选方向平均余弦相似度最高的那个作为最终方向——因为高相似度意味着该方向在多层中稳定出现，是对真实特征方向的良好近似
- 设计动机：避免手动选择的主观性和可能的次优选择

损失函数 / 训练策略¶

完全无需训练，推理时直接在归一化层后插入旋转操作。特征方向的提取只需要在对比数据集上做一次前向推理即可。

实验关键数据¶

主实验¶

拒绝引导（refusal steering）：

在Llama 3（3B/8B）、Qwen 2.5（3B/7B/14B）、Gemma 2（9B）上评估。θ每10°转一圈，clear的拒绝弧和顺从弧交替出现：

角度范围	行为	说明
~0°-60°	强拒绝	substring matching refusal score ≈ 1.0
~60°-120°	间接回应	开始松动但仍回避
~120°-240°	直接顺从	refusal score ≈ 0, harmful score高
~240°-360°	重定向	既不拒绝也不直接回答，提供替代方案

TinyBenchmarks性能保持：

配置	ARC	MMLU	WinoGrande	GSM8k	整体趋势
无引导	baseline	baseline	baseline	baseline	-
Angular (全circle)	几乎不变	几乎不变	几乎不变	略波动	大部分角度保持baseline水平

消融实验¶

配置	效果	说明
随机平面旋转	无效	5/6模型几乎无行为变化
Adaptive vs 非Adaptive	Adaptive更稳定	小模型（3B）上差异最大——非Adaptive导致不连贯
不同角度下的困惑度	拒绝区域PPL高于baseline	对齐≈在分布之上"盖了一层"，而非真正改变底层能力

关键发现¶

安全对齐主要是表面修饰：harmful生成的困惑度低于refusal生成，说明模型底层仍"记得"有害内容，安全对齐只是改变了前几个token的分布而非真正移除了有害知识
小模型（3B）更容易出现特征干扰——旋转时多个特征纠缠在2D子空间中，导致不连贯输出。Adaptive variant有效缓解
Gemma-2-9B表现出最弱的steering效果，可能与其架构差异有关
特征方向在层间有高度一致性（余弦相似度高），支持"特征方向跨层稳定"的假说

亮点与洞察¶

几何统一视角极其优雅：将"加法=部分旋转，消融=90°旋转"这一观察建立为严格的数学等价关系，把零散的activation engineering技术统一到一个框架下
方向>幅度的核心洞察利用了RMSNorm的几何性质——归一化本质上已经让模型工作在单位球面上，幅度信息被抹掉了
提供了4类行为的连续谱（refusal→indirect→direct→redirect），让行为控制不再是非此即彼的开关，而是连续可调的旋钮
Adaptive variant的设计简洁有效——一个符号掩码就大幅提升了小模型上的稳定性

局限与展望¶

依赖对比数据集提取特征方向，不同特征（如事实性、创造性等）需要不同的对比数据
启发式选择steering平面（PCA前两个主成分），不保证在所有行为和架构上最优
仅验证了拒绝和情感两种行为，多特征同时steering可能出现子空间冲突
2D子空间假设在高维空间中可能过于简化——某些复杂行为可能需要更高维的steering空间
依赖特征方向的线性假设（Superposition Hypothesis），如果特征以非线性方式编码则方法可能失效

评分¶

新颖性: ⭐⭐⭐⭐⭐ 统一几何框架非常优雅，将零散技术统一为旋转的特例
实验充分度: ⭐⭐⭐⭐ 3个LLM家族×多个尺寸+6个benchmark+定性/定量分析+消融
写作质量: ⭐⭐⭐⭐⭐ 几何直觉、理论证明、实验验证三者衔接流畅
价值: ⭐⭐⭐⭐⭐ 对LLM安全和可控性社区有重要方法论贡献