COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics¶

会议: ICLR 2026
arXiv: 2603.06495
代码: https://github.com/Ksartik/cold-steer
领域: 优化
关键词: 激活转向, 学习动力学, 无训练推理, 样本效率, 多元对齐

一句话总结¶

提出 COLD-Steer，通过近似梯度下降在上下文示例上产生的表征变化来实现无训练的 LLM 激活转向，在仅用 50 分之一样本量的情况下达到 95% 的转向效果。

研究背景与动机¶

领域现状：激活转向（activation steering）可在推理时控制 LLM 行为而无需重训练，分为两类——对比方法（DiffMean/CAA）用正负对的激活差异构造方向向量，参数调优方法（ReFT/BiPO）端到端训练转向参数。

现有痛点：对比方法样本效率高但只利用激活层面的信号（不用损失函数），转向精度有限；参数调优方法（ReFT）需要 250-1000 个示例训练，成本高且需多 epoch 调参。

核心矛盾：样本效率与转向精度之间存在根本性 trade-off——如何用少量示例、不训练参数，就获得等同于微调的转向效果？

本文目标：设计一个 training-free 框架，仅用 10-50 个示例就能高效转向 LLM 行为。

切入角度：作者观察到微调时模型表征的变化遵循可分析的模式（学习动力学）。核心洞察是：可以在推理时模拟梯度下降对表征的影响，而无需实际更新参数。

核心 idea：将激活转向重新定义为"模拟单步梯度下降的学习动力学"——计算上下文示例的梯度会如何改变目标表征，直接将该变化作为转向向量。

方法详解¶

整体框架¶

COLD-Steer 想解决的是这样一个问题：要让模型行为偏向某种风格（更诚实、不谄媚、支持某个少数派立场），传统做法要么训练一组转向参数（贵），要么只拿正负样本的激活差当方向（信号弱）。它的思路是把"如果用这些示例微调一步会发生什么"直接算出来，但只算表征的变化，不真的更新参数。具体地，给定 \(N\) 个示例 \(\{(\tilde{\mathbf{x}}_i, \tilde{\mathbf{y}}_i)\}\)，它估计模型在这些示例上做单步梯度下降后、目标表征会朝哪个方向移动多少，把这个变化量 \(\Delta\mathbf{Z}^*\) 当作转向向量，在推理时加到新输入的第 \(l\) 层表征上：

\[\Delta\mathbf{Z}^*(\mathbf{x}) \approx -\frac{\eta}{N} \nabla_\theta \mathbf{Z}(\mathbf{x};\theta) \sum_i \nabla_\theta \mathcal{L}(\mathcal{M}(\tilde{\mathbf{x}}_i), \tilde{\mathbf{y}}_i)\]

难点在于这个式子里有一项对新输入 \(\mathbf{x}\) 的雅可比 \(\nabla_\theta \mathbf{Z}(\mathbf{x};\theta)\)，直接算等于要对每个新输入反向传播，推理时承受不起。COLD-Steer 给出两条绕开这项的近似路线（核加权与有限差分），再用一个统一视角说明已有的对比方法其实都是它的特例。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["N 个上下文示例<br/>{(x̃, ỹ)}：目标行为"] --> B["模拟单步梯度下降<br/>估计目标表征变化 ΔZ*"]
    B --> C["瓶颈：雅可比项 ∇θ Z(x)<br/>对每个新输入反传太贵"]
    C -->|核加权求和| D["COLD-Kernel-Steer<br/>单位核近似 eNTK<br/>新输入 1 次前向 + O(N·d)"]
    C -->|有限差分| E["COLD-FD-Steer<br/>沿示例梯度微扰 ε<br/>新输入 2 次前向"]
    D --> F["转向向量 ΔZ"]
    E --> F
    F --> G["推理时加到新输入<br/>第 l 层表征 → 受控生成"]

关键设计¶

1. COLD-Kernel-Steer：用核函数近似 eNTK，避免对新输入反向传播

雅可比那一项贵，是因为它把"新输入的梯度"和"示例的梯度"耦合在一起。把链式法则展开后，这种耦合可以写成一个作用在表征空间上的核函数 \(\kappa\)，于是变化量变成示例侧损失梯度按核相似度加权求和：

\[\Delta\mathbf{Z}^{(\kappa)}(\mathbf{x}) = -\frac{\eta}{N} \sum_i \kappa(\mathbf{Z}(\mathbf{x}), \mathbf{Z}(\tilde{\mathbf{x}}_i)) \nabla_{\mathbf{Z}} \mathcal{L}|_{\mathbf{Z}(\tilde{\mathbf{x}}_i)}\]

这里 \(\kappa\) 本质是经验神经正切核（eNTK）。作者进一步取最简单的单位核 \(\kappa=1\) 作近似，依据是线性表征假说——同一个概念的梯度主要由一个共享方向主导，因此对不同示例用相同权重也够用。这样一来，新输入只要做 1 次前向传播拿到表征，再做 \(O(N\cdot d)\) 的核相似度计算即可，没有任何反向传播，特别适合需要保持子群体分布保真度、不希望大幅改变模型的场景。

2. COLD-FD-Steer：用有限差分绕过雅可比计算

核近似省掉了反传，但单位核是个比较粗的假设，在某些任务上不够准。COLD-FD 换一条路：不去显式算雅可比，而是用有限差分来逼近"参数沿示例梯度方向微扰一点后，表征怎么变"：

\[\Delta\mathbf{Z}^{(fd)} = -\frac{\eta}{\varepsilon N} \big[\mathbf{Z}(\mathbf{x}; \theta + \varepsilon \textstyle\sum_i \nabla_\theta \mathcal{L}_i) - \mathbf{Z}(\mathbf{x}; \theta)\big],\quad \varepsilon = 10^{-6}\]

它先把所有示例的损失梯度累加成一个方向，把参数沿该方向推一个极小步 \(\varepsilon\)，然后只比较微扰前后同一个新输入的表征之差。整个过程对新输入是 2 次前向传播（原参数一次、微扰参数一次），计算成本固定、不随输入复杂度变化；代价是要把完整的模型梯度存下来，开销 \(O(|\theta|)\)。这条路保留了真实雅可比的信息，因而转向更准——实验里它是表现最强的变体。

3. 统一视角：已有的对比方法都是 COLD-Kernel 的特例

把核近似的式子代入不同的损失函数和核，能反推出现有方法。DiffMean 这类对比方法等价于 COLD-Kernel 取单位核、配上损失 \(\mathcal{L} = -\sum_i \|\mathbf{Z}(\tilde{\mathbf{x}}_i \oplus \tilde{\mathbf{y}}_i^+) - \mathbf{Z}(\tilde{\mathbf{x}}_i \oplus \tilde{\mathbf{y}}_i^-)\|^2\)——也就是说它们只用了正负对的激活差异，没碰损失函数携带的梯度信息；RepE/ICV 则相当于在 COLD-Kernel 之上再做一层 PCA 降维近似。这个视角解释了为什么对比方法样本效率高却精度有限：它们是 COLD-Steer 退化掉梯度信号后的特例。

损失函数 / 训练策略¶

配对设置用 DPO 损失，正样本设置用交叉熵损失
超参搜索：\(\eta \in \{0.1, 1, 2\}\)，\(l \in \{10, 15, 20, 30\}\)
开放生成仅在第一个生成 token 处干预，限制转向的复合效应

实验关键数据¶

主实验（CAA 数据集，Llama-2-7b-chat，行为选择准确率）¶

方法	协调-AIS	纠正-HH	幻觉	拒绝	谄媚	平均排名↓
Base	0.28	0.62	0.70	0.62	0.80	5.14
DiffMean	0.52	0.82	0.86	0.74	0.80	4.00
ReFT(vec)	0.48	0.62	0.70	0.72	0.82	3.29
COLD-FD	0.90	0.86	0.96	0.98	0.86	2.00
COLD-Kernel	0.28	0.62	0.70	0.64	0.80	4.43

样本效率对比¶

方法	所需样本数	平均转向准确率
ReFT(mlp)	250-1000	~70-80%
DiffMean	50	~65-75%
COLD-FD	10-50	~85-95%
COLD-Kernel	10-50	~75-85%

关键发现¶

COLD-FD 在 CAA 上平均排名 2.00（pair 设置），显著优于所有基线
使用仅 50 分之一 的样本即可达到接近 ReFT 的效果
对比方法 DiffMean 被证明是 COLD-Kernel 在特定损失下的特例——统一了对比与梯度方法
在 OpinionsQA 多元对齐任务上同样有效，支持少数派观点的适配
跨模型家族验证：Qwen-2.5-7B-Instruct 上 COLD-FD 准确率提升最高达 96%；Gemma-2-9B 和 Mistral-7B 上同样有效

多元对齐（OpinionsQA，Llama-2-7b-chat）¶

COLD-Kernel 在所有人群分组上一致最优，将 Black 群体 KL 散度从 2.43 降至 0.86，Republican 从 2.38 降至 0.97
TV 距离均降至 0.4 以下，表明核方法更适合保持子群体分布保真度
COLD-FD 在分布式转向设定下效果不佳，原因仍为开放问题

行为生成质量（GPT-5-mini 评判）¶

COLD-FD 在 CAA 的 hallucination 任务上从 2.98 提升到 3.32（Llama-2-7b-chat），在 survival-instinct 上从 5.26 提升到 6.20
COLD-Kernel 偏保守，基本维持 Base 水平，适合不希望大幅改变模型行为的场景

亮点与洞察¶

将激活转向重新理解为学习动力学的模拟极为优雅——不是训练一个转向器，而是直接计算"如果微调了会怎样"
理论统一性强：证明 DiffMean/RepE/ICV 都是 COLD-Kernel 的特例，为现有方法提供了统一的梯度视角
COLD-FD 的两次前向传播方案：完全避免新输入的反向传播，实用性极高

局限与展望¶

COLD-FD 需存储完整模型梯度 \(O(|\theta|)\)，对 70B+ 模型内存压力大
单位核近似在某些任务上效果不佳（如 Llama-2 上 COLD-Kernel 未提升）
仅实验了单层干预，多层协同转向可能更强
有限差分的 \(\varepsilon\) 选择依赖经验

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将激活转向重新定义为学习动力学模拟，理论贡献突出
实验充分度: ⭐⭐⭐⭐ 5 个 LLM + 多数据集 + 多元对齐，但消融实验可更深入
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，统一视角有说服力
价值: ⭐⭐⭐⭐⭐ 50x 样本效率提升有巨大实用价值，尤其对多元对齐