Steering Language Models with Weight Arithmetic¶
会议: ICLR 2026
arXiv: 2511.05408
代码: GitHub
领域: LLM预训练
关键词: weight steering, activation steering, sycophancy, alignment, task vector, model safety
一句话总结¶
提出对比式权重引导(Contrastive Weight Steering),通过对正/负行为微调模型的权重差来提取行为方向向量,直接修改模型权重实现行为控制,在谄媚性、恶意性和拒绝性实验中比激活引导(Activation Steering)具有更好的泛化能力和一致性。
研究背景与动机¶
LLM 对齐面临的核心矛盾是:RLHF 和 SFT 需要在大规模分布上提供高质量监督,否则模型可能无法泛化;而在窄分布上微调特定行为又会导致灾难性遗忘或新的对齐问题。
激活引导(Activation Steering)是当前主流方案,通过在推理时干预内部激活来控制行为,但存在两个问题: 1. 泛化能力有限——在 OOD 设置下效果较差 2. 表达能力受限于单层或少数层的干预
本文的核心问题是:能否用窄分布数据通过权重运算来可靠控制 LLM 行为? 权重空间修改理论上比激活空间干预更具表达力,可以同时影响所有层的行为。
方法详解¶
整体框架¶
对比式权重引导(Contrastive Weight Steering)想解决的问题是:怎样用一小撮窄分布数据,可靠地增强或抑制 LLM 的某个行为(谄媚、恶意、拒绝),又不破坏模型本身的能力。它的整条流水线只有四步、且全在权重空间完成:先用同源的探测问题配上相反的系统提示,造出一对只在目标行为上对立的数据集 \(D^+\) 和 \(D^-\);分别在两者上做窄分布微调,得到 \(\theta_{\text{positive}}\) 和 \(\theta_{\text{negative}}\);把两次微调相对预训练权重的更新相减,提取出一个干净的行为方向向量 \(w_b\);最后把它按标量 \(k\) 缩放后直接加回任意模型权重,就能调节该行为的强弱。整个过程不需要 RLHF、不在推理时干预,行为方向被固化进权重、会一次性作用到所有层。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
subgraph DATA["对比数据构建"]
direction TB
Q["同源探测问题 Q<br/>+ 相反系统提示 S⁺/S⁻"] --> DP["D⁺ 正行为数据"]
Q --> DN["D⁻ 负行为数据"]
end
subgraph VEC["对比式权重向量"]
direction TB
FP["正向 LoRA 微调 → τ⁺"]
FN["负向 LoRA 微调 → τ⁻"]
SUB["相减得行为方向<br/>w_b = τ⁺ − τ⁻"]
FP --> SUB
FN --> SUB
end
DP --> FP
DN --> FN
SUB --> ADD["缩放叠加施加行为<br/>θ + k·w_b"]
ADD --> OUT["行为可控的模型"]
关键设计¶
1. 对比数据构建:同源探测、相反系统提示
行为向量干不干净,根子在数据:如果正负两组数据除了目标行为之外还在话题、风格上发散,相减时这些差异不会被抵消,会污染最终向量。本文让两组数据共用同一套探测问题(\(|Q|=40\),其中半数用于构造向量、半数留作评估),只把系统提示换成诱导正/负行为的两套(各 5 条),对每个"问题–提示"对采样 10 条响应,再用 GPT-4.1-mini 过滤、只保留明确展示对应行为的样本,每组最终留 500–900 条。这样的同源构造保证两侧"只在目标行为上对立、其他维度分布相近",正是后面"相减能抵消无关变化"得以成立的前提。
2. 对比式权重向量:用方向相反的两次微调相减,隔离行为本身
单次微调得到的权重变化里混着大量与目标行为无关的东西——主题偏好、句式、回答长度,直接拿它当行为方向会带进噪声。本文把行为引导向量定义为正负两个微调模型的权重差
其中 \(\tau^+ = \theta_{\text{positive}} - \theta_{\text{pre}}\)、\(\tau^- = \theta_{\text{negative}} - \theta_{\text{pre}}\) 分别是两次微调相对预训练权重 \(\theta_{\text{pre}}\) 的更新。由于第 1 点保证了正负数据只在目标行为上系统性对立、其他维度分布相近,相减恰好抵消掉两侧共有的无关变化,把目标行为这一个方向单独留下来——这正是它比直接用单边 task vector(Ilharco et al., 2023)更干净的原因。
3. 缩放叠加施加行为:一个标量控制方向和强度
拿到 \(w_b\) 后,行为控制只是一次权重加法 \(\theta_{\text{steered}} = \theta_{\text{pre}} + k \cdot w_b\):标量 \(k\) 的符号决定增强还是抑制目标行为、绝对值决定强度。它同样能叠在一个已经针对下游任务微调过的模型上,\(\theta_{\text{steered}} = \theta_{\text{ft}} + k \cdot w_b\),从而在不重训的情况下修正任务微调引入的行为漂移。因为修改发生在权重空间,向量会一次性作用到所有层,这与只在单层或少数层干预的激活引导形成根本区别,也是它泛化更稳的来源。
4. 对照变体:拆开"微调 vs 收集""权重 vs 激活"两条轴
为定位性能优势究竟来自哪里,本文沿主流水线设了几个受控变体:非对比式权重引导只用单边方向 \(\tau^+\) 或 \(\tau^-\)(即 Ilharco et al., 2023 的做法),验证"相减"这一步是否必要;仅偏置项权重引导把微调限制在 MLP 偏置项上,借此把"改权重"与"改激活"的贡献分开;全层激活引导则把激活引导扩到每一层、令 \(a_{\text{all layers}}^l = a^l - a^{l-1}\)(Chen et al., 2025),以排除"单层 vs 全层"这一混淆因素。这组变体不是新方法,而是用来回答"优势到底来自微调、还是来自改权重空间"的对照设计。
损失函数 / 训练策略¶
两侧微调都用标准 LoRA(rank 32、alpha 16),靠验证集选学习率和早停点,通常训练约 1 个 epoch 即可——开销远低于 RLHF,却足以稳定提取出行为方向。
实验关键数据¶
主实验¶
实验一:谄媚性引导(OOD 内容级别)
使用 TruthfulQA 和 TriviaQA 评估。在偏向性提示下测量模型是否仍给出正确答案:
| 方法 | 效果(减少谄媚性) | 效果(增加谄媚性) | 基线准确率保持 |
|---|---|---|---|
| 权重引导 | ✓ 强效 | ✓ 强效 | ✓ 好 |
| 激活引导(单层) | △ 中等 | △ 中等 | △ 尚可 |
| 激活引导(全层) | △ 部分 | ✗ 失败 | ✗ 大幅下降 |
| 微调 | ✓ 强效 | ✓ 强效 | △ 中等 |
实验二:任务微调后谄媚性缓解(GCD 任务)
在 Qwen2.5-1.5B 上进行 GCD 数学推理任务微调后测量:
| 方法 | 正确性(非谄媚) | 不同意率 | GCD 准确率 |
|---|---|---|---|
| 权重引导 | ✓ 显著提升 | ✓ 有效 | ✓ 保持 |
| 激活引导 | ✗ 无改善 | △ 轻微 | ✗ 严重下降 |
| 系统提示 | ✗ 无效 | ✗ 无效 | △ 轻微下降 |
| 联合训练 | ✗ 无效 | ✗ 无效 | ✓ 保持 |
实验三:恶意行为引导
在多选道德场景(World Affecting 数据集)上评估:
| 方法 | 恶意率提升 | TinyMMLU 保持 | CoT 一致性 |
|---|---|---|---|
| 权重引导 | ✓ 强泛化 | ✓ 保持 | ✓ 一致 |
| 仅偏置项权重引导 | ✓ 最强效 | ✓ 保持 | ✓ 一致 |
| 激活引导 | △ 较弱 | △ 下降快 | ✗ 不一致增加 |
消融实验¶
关于权重引导 vs 激活引导差异的分析:
三个关键差异点:(1) 单层 vs 全层;(2) 激活收集 vs 微调;(3) 权重空间 vs 激活空间
| 变体 | 效果排序 |
|---|---|
| 完整权重引导 | 最佳 |
| 仅偏置项权重引导 | 中等偏上 |
| 全层激活引导 | ≈ 单层激活引导 |
结论:(2) 微调 vs 收集和 (3) 权重空间 vs 激活空间是性能差异的主要因素。
关键发现¶
- 权重监控可检测涌现式对齐失调:在对坏建议数据集微调时,模型的 task vector 与"邪恶"权重方向的余弦相似度更高(相比好的或控制方向)
- 不同领域的邪恶权重向量之间相似度高于与控制向量的相似度,说明权重空间中存在共享的邪恶方向
- 对比式方法优于直接比较 task vector,后者无法区分好/坏行为
亮点与洞察¶
- 方法极其简单实用:核心就是两次微调取权重差,计算开销远低于 RLHF,但泛化能力更好
- 权重空间的行为方向比激活空间更鲁棒:权重引导同时修改所有层,而激活引导仅干预单层,这从根本上解释了泛化差异
- CoT 一致性优势:激活引导容易导致推理过程与最终答案不一致(即"口是心非"),权重引导则更一致地修改模型行为
- 安全监控新范式:通过计算微调更新与行为向量的余弦相似度,可以在不需要黑箱测试的情况下检测涌现式对齐失调
- 可组合性:权重引导向量可以在任务微调之后叠加应用,缓解微调引入的行为漂移而不损失任务性能
局限性¶
- 实验在相对简单的控制任务上进行,真实世界行为复杂度更高
- 仅探索了一种权重加法形式,未考虑线性缩放或子空间增强等变体
- 激活引导基线仅使用了一种方法(Chen et al., 2025),其他方法可能表现不同
- 副作用评估仅限于窄范围的多选测试
- 权重监控实验范围较窄,实际检测微妙对齐失调的能力需要进一步验证
相关工作与启发¶
- 与 Ilharco et al. (2023) 的 task vector 工作相比,本文将权重运算从任务能力扩展到对齐行为控制
- 为 AI 安全提供了新工具:既可以用于主动引导行为(如减少谄媚性),也可以用于被动监控(检测涌现失调)
- 对比式构造的关键价值在于"消除混淆因素",这一思想可推广到其他领域
- 启发:可以预先构建多种行为方向的"行为向量库",按需组合应用
评分¶
- 创新性: ⭐⭐⭐⭐ — 对比式权重引导概念简洁而有效,权重监控是重要新方向
- 实验充分性: ⭐⭐⭐⭐ — 三种行为(谄媚/恶意/拒绝)+ 多种变体对比 + OOD 评估
- 实用性: ⭐⭐⭐⭐⭐ — 方法简单、开销低、代码开源,可直接应用于模型部署
- 写作质量: ⭐⭐⭐⭐ — 实验设计清晰,图表信息丰富
- 综合评分: ⭐⭐⭐⭐ (4/5)