Fine-Grained Activation Steering: Steering Less, Achieving More¶

会议: ICLR 2026
arXiv: 2602.04428
代码: https://github.com/zijian678/AUSteer
领域: LLM NLP
关键词: 激活转向, 原子单元, 细粒度干预, 可解释性, 推理时对齐

一句话总结¶

AUSteer 发现块级激活转向（steering）本质上是异质的——不同维度控制不同 token 分布，混合转向既放大有益信号也放大有害信号。提出原子单元（AU）级细粒度转向：用激活动量定位判别性维度，自适应调节转向强度，仅转向 ≤100 个维度即大幅超越转向数千维度的 SOTA 方法。

研究背景与动机¶

领域现状：激活转向（activation steering）是低成本修改 LLM 行为的方法——提取转向向量在推理时注入到中间激活中。ITI、CAA、SADI 等方法在注意力头、FFN 或残差流的块级别操作。

现有痛点： - 块级激活包含数百到数千维，混合了有益、无关和有害特征 - 块级转向不可避免地同时移动有用和有害的 token 方向——粗粒度、低效、过度侵入 - 单一维度的转向效果可能超过整个块的转向——说明块级操作是次优的

核心矛盾：块级转向把所有维度绑定在一起，但不同维度控制不同输出token的概率分布——这是根本性的异质性问题

切入角度：将权重矩阵的每一列定义为"原子单元"（AU），对应激活的单一维度。通过分解 \(\mathbf{y} = \mathbf{W}\mathbf{x} = \sum_i x_i \mathbf{W}_{:,i}\)，将块级干预分解为 AU 级标量干预。

核心 idea：转向更少的维度反而效果更好——因为只转向有益 AU 避免了有害 AU 的副作用。

方法详解¶

整体框架¶

AUSteer 想解决的是一个看似反直觉的问题：为什么转向几千个维度的块级方法，效果反而不如只转向几个维度？它的答案是把权重矩阵的每一列视为一个"原子单元"（AU）——因为 \(\mathbf{y} = \mathbf{W}\mathbf{x} = \sum_i x_i \mathbf{W}_{:,i}\)，块级激活其实是若干 AU 标量贡献的叠加，于是粗粒度的块级干预可以拆成对单个维度的标量干预。沿着这个分解视角，作者先证明这些 AU 是异质的（不同维度推向互相冲突的 token 分布），从而说明块级转向把有益、有害维度绑在一起同时放大才是低效的根因；再据此设计一条完全 training-free 的两步流水线：用激活动量在对比样本上给所有 AU 的判别力打分、跨层挑出最有益的 top-k 个，再对这少数 AU 按各自的判别强度做输入自适应的转向。这样只动 ≤100 个维度，就能避开有害 AU 的副作用、稳超动辄数千维的 SOTA。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["正负对比样本对"] --> B["AU 分解 + 异质性分析<br/>y=Wx=Σ xᵢW:,ᵢ，每列=一个原子单元"]
    B --> C["激活动量评分<br/>统计正/负一致比例 sᵢ=max(rᵢ⁺, rᵢ⁻)"]
    C --> D["跨层选 top-k 判别性 AU<br/>(k≤100)"]
    D --> E["自适应转向<br/>x̂ᵢ=xᵢ+γᵢxᵢ，γᵢ 随判别力缩放"]
    E --> F["转向后的 LLM"]

关键设计¶

1. AU 分解与异质性：为什么块级转向是次优的

AUSteer 的出发点是把块级激活拆成 AU 标量贡献的叠加 \(\mathbf{y} = \mathbf{W}\mathbf{x} = \sum_i x_i \mathbf{W}_{:,i}\)，从而能逐维讨论每个维度的作用。在这个粒度下作者发现了关键的异质性：同一个块里的不同维度控制的是完全不同的输出 token 分布。把转向强度记作 \(s\)，随着 \(s\) 增大，模型输出会收敛到被转向那个 AU 所偏好的 token 分布；而两个不同 AU 之间，输出分布的 KL 散度随 \(s\) 单调增大，说明它们把模型推向互相冲突的方向。具体到一道判断题，转向有益维度（如 \(x_{84}\)）会抬高正确 token "yes" 的概率，转向有害维度（如 \(x_{44}\)）却抬高了不相关 token 的概率。块级转向把这两类绑在一起同时移动，于是有益信号和有害信号被一起放大——这正是"转向越多反而越差"的来源，也直接论证了只挑有益 AU 单独转向的必要性。

2. 激活动量定位判别性 AU：用计数而非幅度做跨层可比的全局评分

要在成千上万个 AU 里找出真正有益的少数，关键是有一个能跨层比较的评分。对每个 AU \(u_i\)，在 \(N\) 对正负对比样本上算出激活差 \(m_i^j = x_i^{j,pos} - x_i^{j,neg}\)，再统计差值为正的样本占比 \(r_i^{pos}\) 和为负的占比 \(r_i^{neg}\)，最终判别分数取 \(s_i = \max(r_i^{pos}, r_i^{neg})\)。之所以用"一致为正/负的样本比例"而不是直接用激活差的幅度，是因为激活幅度会随层深累积增大，跨层直接比大小会偏向深层；而基于计数的比例落在 \([0,1]\) 内，天然支持把全模型所有层的 AU 放在一起排序，挑出 top-k。

3. 自适应转向：按当前激活和判别力同时缩放，保方向不破坏输入

对选中的 AU 不是加一个固定常数，而是做比例缩放 \(\hat{x}_i = x_i + \gamma_i x_i\)——这样既保持了该维度原本的符号方向，又能适配不同输入样本各自的激活大小，避免一刀切的常数把弱激活样本推过头。缩放系数 \(\gamma_i\) 进一步与判别力挂钩：促进型 AU 取 \(\gamma_i = \alpha \cdot r_i^{pos}\)、抑制型取 \(\gamma_i = -\alpha \cdot r_i^{neg}\)，其中 \(\alpha\) 是全局强度超参。判别一致性越高的 AU 转得越多，弱判别的 AU 几乎不动，把有限的干预预算集中在最可靠的维度上。

损失函数 / 训练策略¶

方法完全 training-free，不需要任何梯度更新，全部信息都来自对比样本上的激活动量统计。每次只转向 \(k \leq 100\) 个维度，远少于块级方法动辄数千维的干预，并且可以作用在 MHA、FFN 或残差流的任意位置。

实验关键数据¶

主实验（LLaMA2-7B-Chat，常识推理）¶

方法	转向维度数	BoolQ↑	COPA↑	WinoGrande↑
Baseline	0	70.5	-	-
ITI (块级)	128	71.6	-	-
SADI (块级)	4224	73.7	-	-
AUSteer	≤100	76.0+	提升	提升

消融实验¶

配置	效果
单维度转向 \(x_{84}\)	74.5%（超过块级 SADI 的 73.7%）
4 个正向维度组合	76%+
混合正向+负向维度	性能下降（验证异质性）
转向维度数 k 的影响	k=50-100 最优，过多反而下降

关键发现¶

单个维度 > 整个块：第 84 维单独转向（74.5%）超过 128 维块级 ITI（71.6%）和 4224 维 SADI（73.7%）
100 维 > 4000 维：AUSteer 用 ≤100 个 AU 显著优于转向数千维的 SOTA
跨模型一致：在 LLaMA2-7B/13B、Mistral-7B 等多个模型上均有效
多任务通用：常识推理、数学问题求解、去毒化、人类偏好对齐均有效
激活动量跨层可比：基于计数的评分避免了层深导致的幅度偏差

亮点与洞察¶

"Steering Less, Achieving More"是一个反直觉但深刻的发现：传统直觉是"干预越多控制越强"，但在异质系统中，精确干预少数关键点远胜于粗粒度的全局干预。这个原则可推广到剪枝、知识编辑等领域。
AU 的 token 分布解释为激活转向提供了清晰的理论基础——每个 AU 就像一个"微型专家"，控制特定 token 类型的输出概率。这也暗示了 Transformer 内部的模块化结构。
完全 training-free + 仅需对比样本统计使得 AUSteer 极其轻量——比 SAE 方法（STA）通用得多（STA 需要特定模型的预训练 SAE）。

局限与展望¶

激活动量是基于对比样本的统计——样本质量和数量影响 AU 选择的可靠性
目前每个任务需要独立的 AU 定位——缺乏跨任务可迁移性
理论分析主要基于线性投影的分解——注意力机制的非线性交互未充分建模
未探索 AU 级转向与 LoRA/SFT 的结合
大模型（70B+）上的效果待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ AU 分解 + 异质性分析 + 动量定位，完整的新范式
实验充分度: ⭐⭐⭐⭐⭐ 多模型、多任务、消融、理论验证、人工评估全面
写作质量: ⭐⭐⭐⭐⭐ "Steering Less, Achieving More"的故事线极其清晰
价值: ⭐⭐⭐⭐⭐ 对激活转向领域的根本性贡献，简单实用可推广