跳转至

Spherical Steering: Geometry-Aware Activation Rotation for Language Models

会议: ICML 2026
arXiv: 2602.08169
代码: https://github.com/chili-lab/Spherical-Steering (有)
领域: 可解释性 / 激活编辑 / Inference-time Intervention / LLM 对齐
关键词: 激活转向、超球面几何、Slerp 测地线、vMF 置信门控、范数保持

一句话总结

本文提出 Spherical Steering:在 LLM 隐藏状态的单位超球面上,沿测地线把激活向量旋转到由对比样本估计出的"真实性方向",而不是像传统 activation addition 那样做线性加法,从而在保持激活幅值(norm)的同时显著提升 TruthfulQA / COPA / StoryCloze 等基准的多选准确率(+10% 量级),且不损伤开放式生成质量。

研究背景与动机

领域现状:在不重训模型的前提下控制 LLM 行为,主流做法是 activation steering——从一批 (positive, negative) 对比样本中估计一个"转向向量" \(\mu\),然后在某些层把它直接加到 token 激活上:\(h' = h + \lambda \mu\)。代表方法是 CAA、ITI 等。

现有痛点:这种加法操作存在严重的 尺度敏感性\(\lambda\) 太小则没效果;\(\lambda\) 一大,隐藏状态范数 \(\|h\|\) 就被显著扭曲——式 \(\|h'\|^2 = \|h\|^2 + 2\lambda\mu^\top h + \lambda^2\) 表明范数变化既依赖于 \(\lambda\),也依赖于 \(\mu\)\(h\) 的对齐程度,完全不受控。结果是:多选准确率确实涨了,但开放式生成质量(TRUE×INFO)反而掉,模型变得"过度保守"甚至 representation collapse。

核心矛盾:现代 LLM 普遍用 RMSNorm/LayerNorm 把激活幅值标准化,本质上 方向才是承载语义的自由度;而加法 steering 却在自由扰动幅值,与架构的几何先验相冲突。

本文目标:设计一个 几何一致 的 inference-time 干预原语——既能像加法一样训练免,又能严格保持 \(\|h\|\),避免破坏 normalization 层的几何先验。

切入角度:作者做了一个关键的经验观察(图 3)——在 TruthfulQA 上,"答对"和"答错"的 last-token 激活在所有 32 层的 \(\ell_2\) 范数曲线几乎重合(差异 <1%),但 方向 上有明显差别。这直接说明真实性信号编码在方向、不在幅值。

核心 idea:把激活归一化到单位超球面 \(\mathbb{S}^{d-1}\),沿着测地线(great circle)通过 Slerp 把它旋转到目标方向 \(\mu_T\),最后乘回原始范数。这是一个 norm-preserving 的旋转干预,本质上把"加法 in \(\mathbb{R}^d\)"换成了"旋转 on \(\mathbb{S}^{d-1}\)"。

方法详解

整体框架

方法分三步,全部 training-free: 1. 离线 prototype 构造:用对比数据集 \(\mathcal{D}=\{(x_i, y_i^+, y_i^-)\}\) 跑一遍模型,从第 \(l\) 层抽 last-token 激活,做均值差再单位化,得到该层的"真实性轴" \(\mu_T^{(l)}\)。 2. 推理时旋转:对每个待干预层 \(l\)、每个解码 token \(j\),把当前激活 \(h_j^{(l)}\) 归一化到球面,用 Slerp 沿测地线朝 \(\mu_T^{(l)}\) 旋转一个由门控决定的步长 \(t_j^{(l)} \in [0,1]\),再恢复原始模长。 3. vMF 置信门控:用 von Mises–Fisher 分布的指数形式对当前方向与 \((\mu_T, \mu_H = -\mu_T)\) 的相似度做 two-class softmax,得到"偏向幻觉"的置信度 \(\delta\),再经阈值 \(\beta\) 与缩放 \(\alpha\) 映射为干预强度 \(t\)——只在模型"看起来要 hallucinate"时才大力旋转。

关键设计

  1. 超球面 prototype 与对比均值方向

    • 功能:从对比样本一次性提取出该层的"真实性方向单位向量" \(\mu^{(l)}\)
    • 核心思路:对每个 \((x_i, y_i^+, y_i^-)\) 把拼接序列 \(x_i \| y_i^\pm\) 喂模型,取第 \(l\) 层 last-token 表示 \(z_i^{(l)\pm}\);再算正负均值差 \(\Delta^{(l)} = m_+^{(l)} - m_-^{(l)}\),单位化得 \(\mu^{(l)} = \Delta^{(l)}/\|\Delta^{(l)}\|\)。注意这一步是离线的、模型权重保持不变,且只算一次。
    • 设计动机:均值差自动抑制掉正负样本共享的上下文,凸显"真假对立"的判别成分;之所以要单位化,是因为后续操作都在 \(\mathbb{S}^{d-1}\) 上做,需要纯粹的"方向"而非"带尺度的偏移"。这比 ITI 那种 per-head 探针更轻,比 CAA 直接当向量加法更几何自洽。
  2. 测地线旋转 = Slerp + 模长复原

    • 功能:把 \(h^{(l)}\) 沿球面最短路径朝 \(\mu_T\) 旋转 \(t\) 比例,然后乘回原模长。
    • 核心思路:先算夹角 \(\theta = \arccos(\mu_T^\top \hat h^{(l)})\),然后用 Shoemake 1985 的球面线性插值 \(\hat h^{(l)\prime} = \frac{\sin((1-t)\theta)}{\sin\theta}\hat h^{(l)} + \frac{\sin(t\theta)}{\sin\theta}\mu_T\),最后 \(h^{(l)\prime} = \|h^{(l)}\|\hat h^{(l)\prime}\)\(t=0\) 不动,\(t=1\) 完全转到 \(\mu_T\)\(\theta=0/\pi\) 是退化情况单独处理。
    • 设计动机:Slerp 给的是给定步长 \(t\) 下角度变化最小的轨迹,意味着"用最少的方向扰动换取最大的语义对齐";同时 \(\|h^{(l)\prime}\| \equiv \|h^{(l)}\|\) 严格成立——彻底绕开了加法 steering 里 \(\|h\|\)\(\lambda\) 失控的问题,也符合 RMSNorm 后"模长被标准化、方向才是信息载体"的架构先验。这与 Angular Steering 在固定 2D 平面里旋转不同,本文是在原始 \(d\) 维空间里直接做超球面旋转,不依赖 PCA 投影。
  3. vMF 置信门控的输入自适应步长

    • 功能:让 \(t\) 随 token 变化——模型已经在"真实"半球时不干预,越偏向"幻觉"半球干预越强。
    • 核心思路:用 vMF 密度 \(f(u;m,\kappa)\propto\exp(\kappa m^\top u)\) 的指数项当作 prototype score,对 \((\mu_T, \mu_H)\) 做 two-class softmax 得 \(p_T, p_H\),定义 \(\delta = p_H - p_T \in [-1,1]\);再用阈值 \(\beta\) 截断、缩放 \(\alpha\) 限幅:\(t = \mathrm{clip}(\alpha \cdot \frac{\delta-\beta}{1-\beta}, 0, 1)\)\(\delta \le \beta\)\(t=0\)
    • 设计动机:与统一对所有 token 用同一 \(t\) 相比,门控带来两个好处(消融图 5)——MC 准确率峰值更高且区间更宽;高强度下 TRUE×INFO 也不塌(\(\alpha=1.0\) 仍稳定),而 ungated 在 \(\alpha > 0.6\) 就开始崩。\(\kappa\) 控制置信曲线的陡峭程度,对应 vMF 的浓度参数;这套设计的本质是"只在需要救火的地方泼水,省得把好答案也冲掉"。

推理流程

每个 decoding step 对选定的 \(K\) 个层 \(\mathcal{L}=\{l_1,\dots,l_K\}\) 依次执行:抽 \(h_j^{(l)}\) → 归一化 → 算 \(s_T, s_H\) → vMF gate 给 \(t_j^{(l)}\) → 若 \(t>0\) 则 Slerp 旋转并恢复模长,否则透传。复杂度仅是若干个 dot product 与一次 sin/cos,相对原 forward 几乎可忽略。

实验关键数据

主实验

TruthfulQA(LLaMA-3.1-8B-Instruct)上,Spherical Steering 在多选三项 (MC1/MC2/MC3) 和开放式生成 (TRUE×INFO) 上同时最优——而 ITI/CAA 等加法 baseline 都是 MC 涨了 TRUE×INFO 掉,呈现典型 trade-off。

模型 方法 MC1 MC2 MC3 TRUE×INFO
LLaMA-3.1-8B-Instruct Baseline 34.15 53.32 27.02 48.24
LLaMA-3.1-8B-Instruct ITI 37.70 58.09 30.12 40.31 ↓
LLaMA-3.1-8B-Instruct CAA 35.99 56.26 29.36 49.66
LLaMA-3.1-8B-Instruct SADI-HEAD 38.53 56.03 30.57 51.18
LLaMA-3.1-8B-Instruct Spherical (本文) 49.95 68.51 41.05 54.63
Qwen-2.5-7B-Instruct Baseline 35.87 54.95 26.62 74.40
Qwen-2.5-7B-Instruct ITI 40.15 58.93 30.26 67.82 ↓
Qwen-2.5-7B-Instruct Spherical (本文) 48.71 66.90 39.16 77.84

跨 6 个 multi-choice 基准的零样本评测(LLaMA-3.1-8B-Instruct):

方法 TruthfulQA COPA StoryCloze MMLU Wino. BoolQ Avg.
Baseline 34.15 83.00 74.72 60.60 50.81 80.12 63.90
ITI 37.70 83.00 75.12 60.90 51.85 81.53 65.02
CAA 35.99 84.00 79.02 60.70 51.93 82.42 65.68
SADI-HEAD 38.53 84.00 75.72 60.66 51.85 80.20 65.16
Spherical (本文) 49.95 95.00 89.08 62.05 52.72 82.94 71.96

平均 +6.28% 绝对提升,COPA/StoryCloze 上 +10% 以上。

消融实验

配置 MC1 (TruthfulQA, LLaMA) TRUE×INFO 说明
K=1 层 45.41 52.16 单层旋转:MC 已经接近顶
K=2 层 47.62 73.93 加层主要救生成质量(INFO 62.9→90.3)
K=3 层 47.13 74.43 最佳综合点
K=4 层 41.37 70.62 过多干预反伤 MC
K=5 层 41.37 70.09 同上
Ungated rotation (α=1.0) 急剧下降 在高 α 下生成质量塌缩
vMF gated (α=1.0) 仍稳定 门控显著扩展可用 α 区间

关键发现

  • 几何洞察:图 3 显示 truthful vs hallucinated 的激活范数在所有层都几乎重合(<1% 差),证明真实性信号在方向而非幅值,从经验上验证了 norm-preserving 设计的必要性。
  • Collapse-efficiency 优势:图 4 在相同 effective rank 下降(Δrank≈50)下,旋转比加法多拿 8–10% MC 准确率;加法在 rank 略降后 TRUE×INFO 就开始崩,旋转却能在大范围 rank drop 下持续涨生成质量。
  • 多层干预的非对称效应:K=1→3 时 MC 几乎不变(+2.2%),但 INFO 从 62.9% 跳到 92.7%。作者解释为:中层主管语义判别(MC 信号),靠后层主管 token-level 生成动力学(INFO 信号)。
  • 与 5-shot ICL 正交:与 ICL 叠加时 ITI 反而把 TRUE×INFO 从 38.9 拉到 37.3;Spherical 则同步把 MC1 拉到 52.4%、TRUE×INFO 拉到 42.8%,说明几何干预与 prompt 工程走的是两条独立机制。
  • 样本效率高:只用 25 条对比样本就能在 LLaMA 上把 MC1 从 36.3% 拉到 51.5% (±2.2);样本增加方差迅速收缩。

亮点与洞察

  • 把"加法 in \(\mathbb{R}^d\)"重写为"旋转 on \(\mathbb{S}^{d-1}\)"是个非常自然但被忽视的视角:当架构已经用 RMSNorm 把模长稳住之后,所有"应该自由扰动的维度"其实只剩方向;这篇是把这个观察彻底贯彻到 intervention primitive 一层的工作。
  • Slerp 在 LLM steering 里第一次以 closed-form、training-free 形式出现:相比 HPR 这种学一个 Householder 反射的方法,Spherical 不需要训练角度预测器,把"几何一致"和"零训练"两件事同时拿下。
  • vMF gate 是一个可以迁移到任何 steering 方法的轻量插件:它本质上是"用方向的可解释置信度去动态调强度",理论上可以套到 CAA / ITI / SAE-based 干预上做范数与方向解耦控制。
  • "Pareto improvement"的可视化论据扎实:图 1(a) 把 MC accuracy 与 TRUE×INFO 摆在二维平面,所有 baseline 都贴在某条 trade-off 曲线上,本文点直接跳到右上角——这种"破除 trade-off"的论证方式很有说服力。
  • collapse-efficiency 的提出有方法论价值:以前评 steering 都是看终点指标,这篇额外引入"单位 rank 降幅换取多少性能涨幅"作为可比的几何效率指标,未来这类工作可以共用这把尺子。

局限与展望

  • prototype 依赖二分对比数据:只支持 (positive, negative) 这种二元对立的概念(truthful/hallucinated、safe/unsafe…),对"多类细粒度概念"(如多种情感、多种风格)需要扩展为多 prototype 或多轴几何,作者没讨论怎么做。
  • 目标方向是单轴 \(\mu_T\) 及其对踵 \(\mu_H = -\mu_T\) 的强假设:现实中"真实"未必正好与"幻觉"对踵,对踵假设可能在某些任务(如多答案对错混杂)下失效。
  • 多层选择仍靠 grid search:方法说选层 \(\mathcal{L}=\{l_1,\dots,l_K\}\),但哪些层组合最优是经验调出来的(论文用 layer 24 for LLaMA),缺乏一个原则性的层选择准则。
  • 只在 7–8B Instruct 模型上验证:未在 base 模型、更大模型(30B+)或 MoE 上测过,超球面假设在不同规模/架构上的鲁棒性未知。
  • vMF 的 \(\kappa, \alpha, \beta\) 三个超参共同决定门控形状,调参空间不算小;如果能从对比样本本身估出 \(\kappa\)(vMF MLE)会更自动。
  • 改进思路:(i) 把单轴 \(\mu_T\) 扩成低秩多轴几何,做组合概念 steering;(ii) 用 SAE 特征当 prototype 方向源,结合可解释性研究;(iii) 把"测地线"换成 Riemannian gradient flow,做多步迭代旋转。

相关工作与启发

  • vs CAA (Rimsky et al., 2024):CAA 是逐层加法 \(h + \lambda\mu\),本文换成 Slerp 旋转,从原理上保住范数;CAA 在 LLaMA 上 MC1=35.99 / TRUE×INFO=49.66,本文 49.95 / 54.63,几何替换直接换来双向涨点。
  • vs ITI (Li et al., 2023):ITI 靠 per-head linear probe 选 "truthful heads" 再做小幅加法,本文不挑 head 而是全层方向旋转;ITI 在 LLaMA 上 TRUE×INFO 反掉到 40.31,本文反涨到 54.63,说明"加法 + 选 head"远不如"旋转"自洽。
  • vs Angular Steering (Vu & Nguyen, 2025):同样是"角度类"干预,但 Angular Steering 先把激活投影到固定 2D 平面再转,依赖低维近似;本文直接在原 \(d\) 维球面做测地线,无 PCA 假设。
  • vs HPR (Pham & Nguyen, 2024):HPR 用 Householder 反射 + 学一个角度预测网络做几何更新,需训练;本文是 closed-form training-free,但放弃了"per-input 学角度"的灵活性,靠 vMF gate 做轻量自适应。
  • vs ReFT / LoFiT (Wu et al., 2024; Yin et al., 2024):这两家都属于 representation fine-tuning,要训轻量模块;本文则是把 RFT 的"结构化干预"思想推到极端的 training-free 版本——用纯几何先验代替学习。
  • 启发点:这套"球面 + 测地线 + 置信门"的组合可以迁移到 任何 表征是"方向编码语义"的场景——VLM 的 image token、扩散模型的 noise embedding、graph 表示,凡是被 LayerNorm/RMSNorm 之后还要做编辑的地方,都值得检查"加法 vs 旋转"哪一边更几何自洽。

评分

  • 新颖性: ⭐⭐⭐⭐ 单点 idea(加法换旋转)非革命性,但把超球面几何、Slerp、vMF 门控完整组合并给出严密的几何论证,是干净漂亮的"对的小创新"
  • 实验充分度: ⭐⭐⭐⭐ 6 个 MC 基准 + 开放式生成 + collapse-efficiency 分析 + 多层/门控/ICL 兼容性/样本数 4 个消融,覆盖到位;缺更大规模模型验证
  • 写作质量: ⭐⭐⭐⭐ 动机—几何洞察—方法—验证的逻辑链非常顺;图 1 那张"右上角"图把"打破 trade-off"讲得一目了然
  • 价值: ⭐⭐⭐⭐ 提供一个可以即插即用、零训练、保范数的 steering 原语,且 collapse-efficiency 这把新尺子对未来 intervention 类工作有方法论意义