Mechanism of Task-oriented Information Removal in In-context Learning¶

会议: ICLR 2026
arXiv: 2509.21012
代码: 无
领域: 图像复原
关键词: in-context learning, information removal, denoising heads, mechanistic interpretability, low-rank filter

一句话总结¶

从"信息移除"的新视角解释 In-context Learning（ICL）的内部机制：发现 LM 在零样本时将查询编码为包含所有可能任务信息的"非选择性表征"（导致随机输出），而 few-shot ICL 的核心作用是模拟一种"任务导向的信息移除"过程——通过识别出的"Denoising Heads"（去噪注意力头）从纠缠的表征中选择性移除冗余任务信息，引导模型聚焦目标任务。消融实验证实阻断去噪头后 ICL 准确率显著下降。

研究背景与动机¶

领域现状：In-context Learning（ICL）是大语言模型的标志性能力——无需微调，仅通过在 prompt 中提供少量示例（demonstrations）就能让模型执行新任务。尽管 ICL 已被广泛应用，但其内部"如何工作"的机制仍不清晰。

现有痛点： - 现有理论视角有限：已有解释包括"ICL 是隐式梯度下降"、"ICL 学习贝叶斯推断"、"induction heads 做复制粘贴"等，但这些解释要么在简化模型上验证、要么只覆盖特定类型任务，缺乏统一和深入的理解 - 零样本为何失败不清楚：在没有 demonstrations 的零样本场景下，LM 对许多任务的准确率接近零。模型具备知识但输出随机——为什么？ - demonstrations 到底做了什么：few-shot 的 demonstrations 如何改变模型内部表征，引导模型从"什么任务都想做"变成"只做目标任务"？机制不明

核心矛盾：LM 的预训练使其拥有处理各种任务的能力，但这些能力以"纠缠"的形式存在于隐藏状态中。零样本时，查询的隐藏状态包含了所有可能任务的信息，导致输出混乱——ICL 的 demonstrations 需要做的不是"添加信息"，而是"移除干扰"。

本文目标：从"信息移除"这个全新视角，解释 ICL 的核心机制——demonstrations 如何帮助模型从纠缠的表征中去除冗余任务信息，聚焦目标任务。

切入角度： - 首先证明零样本时 LM 的隐藏状态是"非选择性"的（包含所有任务信息） - 然后用低秩滤波器人工模拟信息移除，验证移除冗余信息确实能提升任务准确率 - 接着测量 few-shot ICL 的隐藏状态，发现其效果等价于任务导向的信息移除 - 最后识别执行移除操作的关键注意力头（Denoising Heads）

核心 idea：ICL 的机制不是"利用 demonstrations 学习新知识"，而是"利用 demonstrations 从纠缠表征中移除冗余信息"——去噪而非学习。

方法详解¶

整体框架¶

本文是一项机制分析（mechanistic analysis）工作，而非提出新模型。分析框架包含四个递进的发现：

Discovery 1：零样本时的非选择性表征
Discovery 2：低秩滤波器可以模拟任务导向的信息移除
Discovery 3：Few-shot ICL 天然模拟信息移除过程
Discovery 4：关键注意力头（Denoising Heads）是信息移除的执行者

关键设计¶

非选择性表征的发现与度量：
- 功能：分析 LM 在零样本场景下查询 token 的隐藏状态，证明这些表征包含了所有可能任务的信息
- 核心思路：设计精确的度量指标来衡量隐藏状态中不同任务信息的存在程度。例如，对于情感分类查询，检查隐藏状态是否同时包含"情感分类"、"主题分类"、"翻译"等多个任务的激活信号
- 实验发现：零样本时，隐藏状态确实是"非选择性"的——不同任务的信息混杂在一起，模型无法确定应该执行哪个任务，因此输出近乎随机（准确率接近零）
- 设计动机：这一发现解释了零样本失败的根本原因——不是"模型不会"，而是"模型什么都想做"
低秩滤波器实验：
- 功能：设计一个低秩投影操作 \(P\)，对隐藏状态 \(h\) 进行滤波 \(h' = P \cdot h\)，选择性移除特定任务维度的信息
- 核心思路：通过 SVD 分解隐藏状态矩阵，识别与不同任务关联的主成分方向，然后投影到任务相关的低秩子空间——等价于移除了该子空间正交方向上的信息
- 实验发现：对零样本的隐藏状态施加低秩滤波后，模型能够"聚焦"目标任务，准确率显著提升——验证了"信息移除 = 任务导向"的假设
- 设计动机：低秩滤波器提供了一个可控的信息移除工具，用来验证"如果我们人工移除冗余信息，效果是否等价于 ICL"
Few-shot ICL 的隐藏状态分析：
- 功能：对比 few-shot 和零样本的隐藏状态，证明 demonstrations 的作用等价于任务导向的信息移除
- 核心思路：用精心设计的指标度量 few-shot 隐藏状态的"选择性"程度——测量冗余任务信息是否被压缩、目标任务信息是否被增强
- 实验发现：随着 demonstrations 数量增加，隐藏状态逐渐变得"选择性"——冗余信息被抑制、目标任务信息占主导。这个过程在定量上吻合低秩滤波器实验的效果
- 设计动机：直接比较自然 ICL 和人工滤波的效果，证明 ICL 在功能上等价于信息移除
Denoising Heads 的识别与验证：
- 功能：在 Transformer 的多头注意力中定位执行信息移除操作的关键注意力头（命名为"Denoising Heads"）
- 核心思路：
  - 通过分析每个注意力头对隐藏状态"选择性"指标的贡献，筛选出对信息移除贡献最大的头
  - 这些头的注意力模式显示：它们主要关注 demonstrations 中与目标任务相关的部分（如标签 token），并用这些信息来调制查询的隐藏状态
- 验证（消融实验）：
  - 在推理时"阻断"Denoising Heads（将输出置零或用原始隐藏状态替代） → ICL 准确率显著下降
  - 特别是在"正确标签不在 demonstrations 中"的极端场景下（flip label 设置），阻断 Denoising Heads 后准确率退化更严重——因为此时信息移除更为关键
- 设计动机：识别执行信息移除的具体组件，将机制从"黑箱功能描述"推进到"组件级因果验证"

分析方法论¶

本文使用的关键分析工具包括： - 隐藏状态探测（Probing）：训练线性探测器检测隐藏状态中特定任务信息的存在 - 因果消融（Causal Ablation）：通过干预特定组件验证其因果作用 - 低秩投影：SVD 分解 + 低秩近似作为信息移除工具 - 注意力头分析：逐头定量评估对信息移除的贡献 - 精心设计的对照实验：如 flipped labels、随机 labels 等，区分不同情形下 ICL 的行为差异

实验关键数据¶

实验设置¶

模型：在多个语言模型上验证（GPT-2 系列、LLaMA 等不同规模）
任务：文本分类（情感分析、主题分类等）——选择这类任务是因为它们有清晰的标签空间，方便度量"任务信息"
规模：87 页论文、90 张图、7 个表——极其详尽的实验

主实验¶

发现1：非选择性表征

场景	准确率	隐藏状态选择性	说明
零样本	~0%	低（多任务信息混杂）	模型"什么都想做"
人工低秩滤波	显著提升	高（目标任务信息占优）	移除冗余信息等价于指导任务
Few-shot ICL (4-shot)	高	高	demonstrations 自然实现了信息移除

发现2：ICL ≈ 信息移除 - 低秩滤波器的效果和 few-shot ICL 的效果在定量指标上高度吻合 - 两者都使隐藏状态变得"更选择性"——冗余任务信息被压缩

发现3：Denoising Heads 消融

配置	ICL 准确率变化	说明
正常 ICL	基线	—
阻断 Denoising Heads	显著下降（↓15-30%）	信息移除被阻断
阻断非 Denoising Heads	轻微影响	非关键头不影响 ICL
Flipped Labels + 阻断 Denoising Heads	退化最严重	无正确标签时信息移除更关键

消融实验¶

配置	关键指标	说明
不同 demonstration 数量	信息移除程度单调增加	更多示例 = 更强的去噪
不同模型规模	更大模型有更多 Denoising Heads	规模↑ → 信息移除能力↑
不同任务类型	信息移除机制一致存在	在情感、主题等多种任务上验证
标签空间大小	标签越多越需要信息移除	验证：更多可能的任务 = 更多需要移除的冗余信息

关键发现¶

ICL 不是在"学习新技能"，而是在"过滤干扰"：这是最核心的发现。LM 已经具备各种任务能力，demonstrations 只是帮助模型"聚焦"到正确的任务
Denoising Heads 数量有限但关键：只有少量注意力头负责信息移除，但阻断它们对 ICL 影响巨大
信息移除在 flipped label 场景更关键：当 demonstrations 的标签被翻转（故意给错标签）时，模型仍能部分工作——说明 demonstrations 的主要作用不是提供正确标签，而是指示"应该做什么任务"（通过移除其他任务信息）
不同模型的 Denoising Heads 位置不同但功能一致：验证了机制的普适性

亮点与洞察¶

全新的 ICL 解释视角：相比"ICL = 隐式梯度下降"或"ICL = 贝叶斯推断"，"ICL = 信息移除"更直观、更具操作性——它告诉我们 demonstrations 的功能不是"教新东西"而是"告诉模型该做什么"
非选择性表征的发现：首次系统性地展示零样本时的隐藏状态包含所有任务信息。这解释了一个长期困惑：为什么具备知识的模型在零样本时输出随机
Denoising Heads 的概念：将信息移除操作定位到具体的注意力头，是 mechanistic interpretability 的重要进展——从"功能描述"到"组件定位"
低秩滤波器作为分析工具：提供了一个优雅的实验框架来人工模拟信息移除，为 ICL 机制研究提供了新的方法论
论文的深度和彻底性：87 页、90 张图、7 张表——作者对每一个发现都进行了多角度验证，极其严谨

局限与展望¶

主要在分类任务上验证：信息移除机制是否适用于生成式任务（如对话、摘要、翻译）尚不清楚。生成任务的"任务信息"更难定义和度量
仅使用线性探测和低秩投影：信息移除可能涉及非线性变换，低秩线性近似可能只捕获了部分机制
模型规模限制：由于分析需要对隐藏状态进行详细探测，实验主要在中等规模模型（GPT-2 系列、较小的 LLaMA）上验证，对超大模型（100B+）的适用性未知
Denoising Heads 的形成机制：论文发现了这些头的存在，但未解释它们是如何在预训练中形成的——这需要对训练动态的进一步研究
与其他 ICL 理论的统一：信息移除视角与"隐式梯度下降"、"贝叶斯推断"等视角之间是互补还是矛盾？缺乏显式的理论统一

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐