Do Different Prompting Methods Yield a Common Task Representation?¶

会议: NeurIPS 2025
arXiv: 2505.12075
代码: 无
领域: 可解释性/LLM机制
关键词: 任务表征, 函数向量, 提示方法, 注意力头, 可解释性

一句话总结¶

通过将函数向量（Function Vectors）方法从 few-shot 示例推广到文本指令，发现不同提示方式（demonstrations vs. instructions）并不会在 LLM 中诱导出统一的任务表征，而是激活部分重叠但主要不同的注意力头机制。

将 Todd et al. (2024) 的函数向量提取流程从 few-shot 示例推广到任意形式的任务呈现（重点是文本指令），然后系统比较两种 FV 的： 1. 任务执行效果 2. 内部激活相似性 3. 所依赖的注意力头机制

函数向量提取泛化：
- 原始方法：对 K-shot 示例 prompt，计算每个注意力头的任务条件平均激活 \(\bar{a}_{lj}^t\)，然后通过打乱标签的基线 prompt 计算因果间接效应（CIE），选出 top-20 个因果最相关的注意力头 \(\mathcal{A}^D\)，将其平均激活求和得到函数向量 \(v_t = \sum_{a_{lj} \in \mathcal{A}^D} \bar{a}_{lj}^t\)
- 本文推广：将任务规范 \(Q_t\)（如文本指令）替代 few-shot 示例，构建 prompt \(p_i^t = [q_m^t, x_{iq}]\)，使用 Llama-3.1-405B 为每个任务生成约 200 条去重指令，选取准确率最高的 J=5 条指令
指令函数向量构建：
- 使用 100 个样本计算任务条件平均激活，25 个样本计算因果间接效应
- 分别生成短指令（≤16 tokens）和长指令（无限制），交叉三种基线，共 6 个条件
- 在 6 个条件上平均 CIE 来确定 top-20 注意力头
- 最终评估时，平均短指令和长指令两套激活得到的结果
非信息基线设计：三种方法构造与指令等概率但不含任务信息的基线：
- 等概率 token 序列：逐 token 采样，匹配原指令每个位置的条件概率
- 真实文本：从 WikiText-103 中采样长度和概率接近的文本片段
- 其他任务指令：使用其他任务的指令作为基线，匹配长度和概率

模型：Llama-3.2-3B（base/Instruct）、Llama-3.1-8B（base/Instruct）、OLMo-2-7B 系列、Llama-2-7B 系列任务：50 个轻量级 NLP 任务（反义词、首都映射、翻译、NER 等）

模型	10-shot 基线	打乱10-shot 基线	最佳指令	0-shot 基线
Llama-3.2-3B	0.753	0.154	0.765	0.153
Llama-3.2-3B-Instruct	0.790	0.186	0.864	0.107
Llama-3.1-8B	0.821	0.199	0.820	0.128
Llama-3.1-8B-Instruct	0.846	0.179	0.887	0.077
OLMo-2-7B	0.729	0.171	0.857	0.169
OLMo-2-7B-Instruct	0.774	0.164	0.870	0.147

Finding 1 - 指令 FV 有效：指令 FV 将零样本准确率从 <20% 提升到最佳模型的 >50%，但未达到示例 FV 在打乱 10-shot 中的精度

Finding 2 - 两种 FV 联合更优：同时在 \(\lfloor L/3 \rfloor\) 层注入两种 FV，效果一致优于单独使用（base Llama-3.1-8B 例外）

共享注意力头分析（Finding 3）：

模型	示例独占头	指令独占头	共享头
Llama-3.2-3B	13	13	7
Llama-3.2-3B-Instruct	13	13	7
Llama-3.1-8B	16	16	4
Llama-3.1-8B-Instruct	16	16	4

CIE 比率（示例/指令，top-20 头）：

指令 FV 在后训练模型中更有效：Instruct 模型的指令 FV 显著优于 base 模型
注意力头位置差异：后训练将指令 FV 头的平均层深从比示例 FV 头更深，移至几乎相同深度
不对称性（Finding 4）：用指令定位的头 + 示例激活构建"异质"FV，效果优于反向组合（用示例头 + 指令激活），说明指令任务推理利用了对示例 ICL 也有轻微作用的注意力头
跨模型迁移（Finding 5）：后训练模型的指令 FV 可以有效引导对应的 base 模型，几乎恢复到后训练模型本身的 FV 评估精度
后训练阶段分析：OLMo-2 系列中，SFT 和 DPO 阶段各带来一次指令 FV 效能的显著提升，最终 RL 阶段影响极小

方法设计精巧：三种非信息基线（等概率采样、真实文本、其他任务指令）互补性强，平均后可稳健识别因果注意力头
借鉴神经科学：将 FV 提取类比为功能定位（functional localizer），将头选择视为"定位"、激活计算视为"记录"，设计"异质"FV 实验解耦两种机制
实践启示：为"同时提供指令和示例效果更好"这一广泛实践提供了可解释性层面的理论支撑——两种提示激活不同机制，信息互补
指令表征更弥散：示例 FV 的 CIE 分布更集中（少数头贡献大），指令 FV 的 CIE 分布更平坦（更多头有小贡献），意味着指令引导针对多位置干预可能更有效

维度	分数 (1-10)	说明
创新性	8	将 FV 从示例推广到指令并系统比较，问题提问角度新颖
技术深度	7	因果干预分析严谨，三种基线设计合理，但无新模型/算法
实验完整性	9	12 个模型 × 50 任务，多种控制实验和消融，附录极其详尽
写作质量	8	结构清晰，5 个 finding 逐步推进，表述准确
实用价值	6	主要是机制理解层面的贡献，直接应用有限
总分	7.6	扎实的可解释性实证研究，揭示了提示方式与内部表征的关系