Do Different Prompting Methods Yield a Common Task Representation?¶
会议: NeurIPS 2025
arXiv: 2505.12075
代码: 无
领域: 可解释性/LLM机制
关键词: 任务表征, 函数向量, 提示方法, 注意力头, 可解释性
一句话总结¶
通过将函数向量(Function Vectors)方法从 few-shot 示例推广到文本指令,发现不同提示方式(demonstrations vs. instructions)并不会在 LLM 中诱导出统一的任务表征,而是激活部分重叠但主要不同的注意力头机制。
研究背景与动机¶
- LLM 可以通过两种主要方式执行任务:few-shot 示例(demonstrations) 和 文本指令(instructions)
- 例如给出"Q: Japan A: Tokyo, Q: Chile A: Santiago..."的示例,或直接说"将国家映射到首都",都期望模型完成相同任务
- 核心问题:这两种提示方式是否在模型内部诱导相同的任务表征?
- 函数向量(FV)是 Todd et al. (2024) 提出的一种因果可解释性方法,通过识别少量关键注意力头来提取任务表征
- 原始 FV 仅适用于 few-shot 示例场景,本文将其推广到任意任务描述形式(特别是零样本文本指令)
- 理解任务表征机制对模型可解释性、模型引导(steering)和提示工程实践具有重要意义
方法详解¶
整体框架¶
将 Todd et al. (2024) 的函数向量提取流程从 few-shot 示例推广到任意形式的任务呈现(重点是文本指令),然后系统比较两种 FV 的: 1. 任务执行效果 2. 内部激活相似性 3. 所依赖的注意力头机制
关键设计¶
-
函数向量提取泛化:
- 原始方法:对 K-shot 示例 prompt,计算每个注意力头的任务条件平均激活 \(\bar{a}_{lj}^t\),然后通过打乱标签的基线 prompt 计算因果间接效应(CIE),选出 top-20 个因果最相关的注意力头 \(\mathcal{A}^D\),将其平均激活求和得到函数向量 \(v_t = \sum_{a_{lj} \in \mathcal{A}^D} \bar{a}_{lj}^t\)
- 本文推广:将任务规范 \(Q_t\)(如文本指令)替代 few-shot 示例,构建 prompt \(p_i^t = [q_m^t, x_{iq}]\),使用 Llama-3.1-405B 为每个任务生成约 200 条去重指令,选取准确率最高的 J=5 条指令
-
指令函数向量构建:
- 使用 100 个样本计算任务条件平均激活,25 个样本计算因果间接效应
- 分别生成短指令(≤16 tokens)和长指令(无限制),交叉三种基线,共 6 个条件
- 在 6 个条件上平均 CIE 来确定 top-20 注意力头
- 最终评估时,平均短指令和长指令两套激活得到的结果
-
非信息基线设计:三种方法构造与指令等概率但不含任务信息的基线:
- 等概率 token 序列:逐 token 采样,匹配原指令每个位置的条件概率
- 真实文本:从 WikiText-103 中采样长度和概率接近的文本片段
- 其他任务指令:使用其他任务的指令作为基线,匹配长度和概率
损失函数 / 训练策略¶
- 本文不涉及训练,核心是因果干预分析
- 评估方式:将 FV 作为加性干预(additive intervention)注入残差流的 \(\lfloor L/3 \rfloor\) 层后
- 两种评估设置:
- 打乱标签的 10-shot:评估示例 FV(匹配其提取环境)
- 零样本:评估指令 FV(匹配其提取环境)
实验关键数据¶
主实验¶
模型:Llama-3.2-3B(base/Instruct)、Llama-3.1-8B(base/Instruct)、OLMo-2-7B 系列、Llama-2-7B 系列 任务:50 个轻量级 NLP 任务(反义词、首都映射、翻译、NER 等)
| 模型 | 10-shot 基线 | 打乱10-shot 基线 | 最佳指令 | 0-shot 基线 |
|---|---|---|---|---|
| Llama-3.2-3B | 0.753 | 0.154 | 0.765 | 0.153 |
| Llama-3.2-3B-Instruct | 0.790 | 0.186 | 0.864 | 0.107 |
| Llama-3.1-8B | 0.821 | 0.199 | 0.820 | 0.128 |
| Llama-3.1-8B-Instruct | 0.846 | 0.179 | 0.887 | 0.077 |
| OLMo-2-7B | 0.729 | 0.171 | 0.857 | 0.169 |
| OLMo-2-7B-Instruct | 0.774 | 0.164 | 0.870 | 0.147 |
Finding 1 - 指令 FV 有效:指令 FV 将零样本准确率从 <20% 提升到最佳模型的 >50%,但未达到示例 FV 在打乱 10-shot 中的精度
Finding 2 - 两种 FV 联合更优:同时在 \(\lfloor L/3 \rfloor\) 层注入两种 FV,效果一致优于单独使用(base Llama-3.1-8B 例外)
消融实验¶
共享注意力头分析(Finding 3):
| 模型 | 示例独占头 | 指令独占头 | 共享头 |
|---|---|---|---|
| Llama-3.2-3B | 13 | 13 | 7 |
| Llama-3.2-3B-Instruct | 13 | 13 | 7 |
| Llama-3.1-8B | 16 | 16 | 4 |
| Llama-3.1-8B-Instruct | 16 | 16 | 4 |
CIE 比率(示例/指令,top-20 头):
| 模型 | Mean CIE Ratio | Median CIE Ratio |
|---|---|---|
| Llama-3.2-3B | 3.901 | 1.482 |
| Llama-3.2-3B-Instruct | 3.570 | 1.359 |
| Llama-3.1-8B | 4.794 | 2.894 |
| Llama-3.1-8B-Instruct | 2.181 | 1.337 |
关键发现¶
- 指令 FV 在后训练模型中更有效:Instruct 模型的指令 FV 显著优于 base 模型
- 注意力头位置差异:后训练将指令 FV 头的平均层深从比示例 FV 头更深,移至几乎相同深度
- 不对称性(Finding 4):用指令定位的头 + 示例激活构建"异质"FV,效果优于反向组合(用示例头 + 指令激活),说明指令任务推理利用了对示例 ICL 也有轻微作用的注意力头
- 跨模型迁移(Finding 5):后训练模型的指令 FV 可以有效引导对应的 base 模型,几乎恢复到后训练模型本身的 FV 评估精度
- 后训练阶段分析:OLMo-2 系列中,SFT 和 DPO 阶段各带来一次指令 FV 效能的显著提升,最终 RL 阶段影响极小
亮点与洞察¶
- 方法设计精巧:三种非信息基线(等概率采样、真实文本、其他任务指令)互补性强,平均后可稳健识别因果注意力头
- 借鉴神经科学:将 FV 提取类比为功能定位(functional localizer),将头选择视为"定位"、激活计算视为"记录",设计"异质"FV 实验解耦两种机制
- 实践启示:为"同时提供指令和示例效果更好"这一广泛实践提供了可解释性层面的理论支撑——两种提示激活不同机制,信息互补
- 指令表征更弥散:示例 FV 的 CIE 分布更集中(少数头贡献大),指令 FV 的 CIE 分布更平坦(更多头有小贡献),意味着指令引导针对多位置干预可能更有效
局限与展望¶
- 任务集简单:仅使用 50 个轻量级任务(反义词、翻译等),未涉及 MMLU、BBH 等复杂开放任务
- 干预深度固定:固定在 \(\lfloor L/3 \rfloor\) 层干预可能非最优,不同任务可能需要不同深度
- 模型规模有限:仅评估 1B-8B 模型,未探索更大规模模型的 scaling 规律
- 单一任务表征方法:仅研究 FV 一种表征提取方法,Task Vectors(Hendel et al., 2023)等替代方法可能给出不同结论
- 无法完全证伪:无法排除存在本方法未能捕捉的统一任务表征的可能性
- 未来可探索:指令 FV 头与 induction heads 的关系、后训练具体改变了什么使得指令任务推理成为可能、跨模型 FV 迁移
相关工作与启发¶
- Function Vectors (Todd et al., 2024):本文的直接基础,将 FV 从示例推广到指令
- Task Vectors (Hendel et al., 2023):另一种任务表征提取方法,使用分隔符位置的残差表示
- Activation Steering (Stolfo et al., 2024):本文发现后训练 FV 可引导 base 模型,与其跨模型 steering 结果一致
- Wu et al. (2024):研究指令微调改变了什么,提出关键变化可能在于指令词的处理方式
- 启发:可以通过监控示例/指令各自相关的注意力头活动来判断模型是否成功形成了任务表征,进而指导提示优化
评分¶
| 维度 | 分数 (1-10) | 说明 |
|---|---|---|
| 创新性 | 8 | 将 FV 从示例推广到指令并系统比较,问题提问角度新颖 |
| 技术深度 | 7 | 因果干预分析严谨,三种基线设计合理,但无新模型/算法 |
| 实验完整性 | 9 | 12 个模型 × 50 任务,多种控制实验和消融,附录极其详尽 |
| 写作质量 | 8 | 结构清晰,5 个 finding 逐步推进,表述准确 |
| 实用价值 | 6 | 主要是机制理解层面的贡献,直接应用有限 |
| 总分 | 7.6 | 扎实的可解释性实证研究,揭示了提示方式与内部表征的关系 |