跳转至

Comparing the learning dynamics of in-context learning and fine-tuning in language models

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=cJAtzOcAnd 代码: https://github.com/basile6/ICLvsSFT
领域: 可解释性 / 机理分析
关键词: 上下文学习, 监督微调, 学习动态, 归纳偏置, 表征坍缩

一句话总结

作者把上下文学习(ICL)和监督微调(SFT)当成两种"学习算法",在一个可精确控制几何的二维线性分类玩具任务上逐 shot 对比它们的学习轨迹与内部表征,发现两者泛化精度相近但机理迥异:ICL 保留丰富的输入表征、但带着更强的预训练先验(数字比较、模式匹配),而 SFT 会把表征按标签轴压缩坍缩、置信度更高却更脆。

研究背景与动机

领域现状:大模型获取新任务有两条路——ICL(推理时在 prompt 里塞示例-标签对,不改权重)和 SFT(用标注数据做梯度更新改权重)。两者都能达到不错的性能,但越来越多证据表明它们在归纳偏置、顺序敏感性、分布外(OOD)行为上有系统差异,常常是 ICL 比 SFT 泛化得更稳,哪怕训的是同一批数据。

现有痛点:这些差异"从哪来"一直没说清。过去的对比大多在自然语言任务上做,任务语义、词表先验、数据几何全都纠缠在一起,很难判断观察到的差异是算法本身的性质,还是任务语义带来的混淆。而且多数工作只看最终的标量指标(准确率高/低),没有打开"学习轨迹"——即随着示例数增加,模型行为和表征是怎么一步步演化的。

核心矛盾:要想干净地比较 ICL 与 SFT 这两种学习算法,就必须剥离语言先验、精确控制任务几何,并且在完全相同的训练样本、相同的顺序、相同的 shot 数下逐步对齐两条轨迹,否则任何差异都可能是混淆变量造成的。

本文目标:构造一个最小化混淆的受控任务,把 ICL 和 SFT 放在匹配的轨迹上头对头比较,回答两个子问题——(1) 它们的归纳偏置有何不同?(2) 这些差异是否对应到不同的内部表征几何?

切入角度:把 ICL 和 SFT 都看作"学习算法"——对 ICL,不同 shot 数就是不同长度 prompt 的独立前向(无权重更新);对 SFT,每个 shot 数对应在累积训练集上从头微调出的一个模型。用同一套"shot 数→性能/表征变化"的语言描述两者,就能把它们当成两条可对齐的轨迹来比。

核心 idea:用一个角度可控、标签语义无关的二维线性分类任务当"显微镜",逐 shot 追踪 ICL 与 SFT 的决策场、四个量化指标和逐层表征相似度(RSA),从而把"context 驱动 vs 权重驱动"两种学习的机理差异照出来。

方法详解

整体框架

这是一篇机理分析论文,没有提出新模型,"方法"是一套精心设计的受控实验装置。整体思路是:构造一个能精确控制决策边界角度 \(\theta\)、标签语义无关的二维线性分类任务,让同一个预训练大模型(主力是 Llama3-8B)分别用 ICL 和 SFT 去学它;在完全匹配的训练样本与顺序下,把"每类 K 个 shot"当作时间轴,逐 shot 记录决策场的演化、四个量化指标(准确率、平滑度、置信度、推断角度),并对每层激活做表征相似度分析(RSA)。然后通过系统地变换任务角度、注入周期性顺序模式、跨模型/跨任务复现,把 ICL 与 SFT 的归纳偏置和表征几何差异定位出来。

任务本身(Fig.1A):输入是一对有序整数 \(x=(n_1,n_2)\)\(n_1,n_2\in\{0,\dots,99\}\),单 token 表示;输出是两个语义无关的标签 " Baz"/" Rud"。一个任务实例由单一参数 \(\theta\in[0,180^\circ]\) 决定——即真值线性决策边界相对第一个特征 \(n_1\) 的夹角。每个 shot 数下数据集都是类别平衡的。全部 \(100\times100=10{,}000\) 个可能输入都能被模型扫一遍,于是模型的"决策场"可以被完整画出来。

关键设计

1. 角度可控、标签语义无关的二维玩具任务:把混淆变量逐个关掉

要干净比较两种学习算法,最大的敌人是混淆——自然语言任务里标签语义、词表先验、数据几何全缠在一起。作者用二维整数对作输入、把决策边界压缩成单一角度参数 \(\theta\),就把"任务难度"和"任务几何"解耦:理论上不同 \(\theta\) 的任务难度相当,但若模型带着"沿行/列泛化"或"比大小"的偏置,就会在特定 \(\theta\) 上表现更好,从而把偏置暴露成可测量的角度依赖。标签选 " Baz"/" Rud" 而非常见的 "Foo"/"Bar",是因为前者在多数开源分词器下是单 token 且在预训练语料里更罕见,能最大程度压低 verbalizer 先验。这种"先把噪声关干净再观察"的设计,是整篇论文结论可信的地基。

2. 匹配轨迹协议:让 ICL 与 SFT 在同一把尺子下对齐

ICL 与 SFT 机制天差地别,直接比终点没意义。作者强制两者吃同一批训练样本、同一个 shot 内顺序:ICL 时每类随机无放回抽 K 个示例拼进 prompt 再跟一个 query,研究同一条有序示例流在不同 shot 数下的表现;SFT 时则在与 ICL 相同的累积数据集与顺序上、对每个 shot 数都从基座模型从头微调一个新模型(AdamW + cosine 学习率)。作者坦承这是对"learning dynamics"一词的善意滥用——ICL 各 shot 是独立 prompt、无权重更新,SFT 各 shot 是独立训练出的模型——但正是这套对齐,才让"shot 数"成为可比的共同时间轴,把两种算法摆进同一坐标系。

3. 四个量化指标 + 角度/顺序探针:把"偏置"从定性变定量

光看准确率看不出偏置。作者对每条轨迹追踪四个量:(i) 在全部 \(10{,}000\) 个输入上的准确率;(ii) 平滑度,定义为 \(1\) 减去"预测类别与四邻中至少两个邻居不一致"的网格点占比,刻画决策场是否破碎;(iii) 置信度,取最大 softmax 概率;(iv) 推断角度,对模型在网格上的预测标签拟合一个线性分类器反推出的 \(\theta\)。在此之上设两类探针:变换任务角度——若存在"已见特征值偏置"(沿行/列泛化),则 \(\theta=0^\circ/90^\circ\) 应更好;若存在"比较偏置"(偏好对角线,对应"哪个数更大"的启发式),则 \(\theta=45^\circ\) 更好,且 \(\theta=30^\circ\) 会被高估、\(\theta=60^\circ\) 被低估(对角拉拽);注入周期性顺序——把 in-context 示例按"12""1221""12121221"等周期排列,看模型是否从线性分类切换到纯模式匹配。

4. 逐层表征相似度分析(RSA):照出"表征坍缩 vs 结构保留"

归纳偏置的差异最终要落到表征上。作者对每个输入取末位 query token 在每层 MLP 之后的激活(Llama3-8B 共 32 层),计算所有输入两两之间的余弦相似度矩阵(\(10{,}000\times10{,}000\)),逐层画相似度直方图,并取训练集示例 + 随机测试输入按标签排序后的 \(400\times400\) 子矩阵看结构。关键观察就来自这里:早层两者相似,但到中层 SFT 出现沿标签轴的表征坍缩(激活聚成正负两簇、各对应一类),而 ICL 始终保留输入特有的丰富结构。作者还做了三组对照锚定这个坍缩的成因——LoRA 微调能缓解坍缩但 RSA 仍更像 SFT 而非 ICL;冻结 unembedding 矩阵后坍缩依然存在;固定 shot 数追踪 SFT 训练动态发现坍缩与性能绑定、且过了性能平台后仍随训练加深——共同说明坍缩是 SFT 的固有特征,而非模型选择或具体微调策略的产物。

实验关键数据

主实验:相近泛化、迥异偏置

在匹配数据与顺序下,Llama3-8B 用 ICL 和 SFT 都能解这个任务,留出准确率与学习速度都相近,训练准确率全程接近完美。但 SFT 在相同 shot 下置信度持续高于 ICL,说明 logits 与标签对齐更强。决策场(尤其少 shot 时)暴露出 ICL 的两类偏置:已见特征值偏置(沿复用了 in-context 数值的行/列外推)和比较偏置(偏好接近对角线 \(\theta\approx45^\circ\) 的边界,对应"哪个数更大")。这些偏置即便在全局准确率收敛后(200 shots/class)仍可检出。

维度 ICL SFT 说明
留出准确率 / 学习速度 相近 相近 两者都能解任务
置信度 较低 较高 SFT logits 与标签对齐更强
角度依赖 \(\theta=0/45/90^\circ\) 更好,\(\theta=30^\circ\) 角度被高估(对角拉拽明显) \(\theta=0/45/90^\circ\) 也更好,但对角拉拽弱于 ICL 偏置以角度依赖形式显现
顺序敏感 周期 2(严格交替)触发纯模式匹配、忽略特征 短周期影响大、长周期(如"12121221")几乎无影响
中层表征 保留输入特有结构 沿标签轴坍缩(聚成两簇) RSA 揭示的核心差异

表征分析与对照

配置 表征坍缩 说明
ICL 无,跨层保留输入结构 训练集示例间表征更相似(不分类别),10/200 shot 皆然
普通 SFT 中层起明显坍缩 激活按 class 1/class 2 聚成对立两簇
LoRA 微调 坍缩被缓解 但 RSA 矩阵仍更接近 SFT,而非 ICL
冻结 unembedding 的 SFT 坍缩依然存在 说明坍缩与任务性能绑定,非 unembedding 所致

关键发现

  • 相近精度 ≠ 相同机理:ICL 和 SFT 在该受控任务上泛化精度几乎一样,但归纳偏置和表征几何截然不同——这是全文最核心的"啊哈"。
  • ICL 会做"in-context 的算法选择":周期 2 的标签排列能让模型彻底放弃线性分类、转而纯模式匹配(无视特征值),印证了"transformers 能在 context 内选择算法"的理论预测;但长周期模式影响骤减,说明是一种短视野的标签交错敏感性。
  • 坍缩是 SFT 的固有特征:在 Qwen3-8B、Gemma3-12B/27B 等多模型上,ICL 的行/列偏置与对角偏置定性保留、SFT 坍缩复现(LoRA 同样缓解),说明结论不是 Llama3-8B 的个例。
  • 跨任务稳健:把整数换成按情感强度排序的形容词(语义版)、或做两个相差 \(90^\circ\) 线性任务的 XOR(非线性版),主要趋势仍成立,只是学习更慢、角度差异变小。

亮点与洞察

  • "把学习算法当对象研究"的视角很干净:通过强制匹配训练样本/顺序/shot 数,把 ICL 与 SFT 这两种异质机制摆进同一坐标系逐 shot 对齐,这种实验设计本身就值得借鉴——很多看似算法差异的现象其实是混淆变量。
  • 用单参数 \(\theta\) 把"偏置"变成可测的角度依赖:把归纳偏置投影到一个连续可控的几何参数上,使"模型偏爱比大小"这种说不清的直觉变成可证伪的预测(\(\theta=45^\circ\) 更好、\(\theta=30^\circ\) 被高估),方法论很漂亮。
  • RSA + 三组对照锁定坍缩成因:不满足于"看到坍缩",而是用 LoRA、冻结 unembedding、固定 shot 训练动态三组对照逐一排除替代解释,把"坍缩与性能绑定、是 SFT 固有特征"这个结论做扎实。
  • 可迁移启发:作者据此预测 SFT 可能因表征坍缩而损害迁移学习——这个"坍缩→OOD 脆弱/迁移差"的因果链条,可以迁移到分析为什么很多微调模型在分布外掉点。

局限与展望

  • 任务族单一:只聚焦一类几何可控的二维分类任务,虽能隔离偏置与表征,但可能捕捉不到层级/多步推理的复杂性,结论的普适性需在更真实的 ICL 任务上检验(作者自承)。
  • 模型规模有限:实验集中在中等规模(≥8B)LM,放大到更大模型的 ICL vs SFT 对比是重要的下一步。
  • 超参覆盖不彻底:虽做了多组 SFT 超参 sweep,但未穷尽正则(如 weight decay 调度)或 early-stopping/校准等可能缓解坍缩的策略。
  • 只是相关性证据:RSA 取的是末位 token 激活,且作者只给出"表征差异 ↔ 偏置差异"的相关性证据,缺因果干预——这是最关键的后续方向。

相关工作与启发

  • vs ICL 的隐式优化/贝叶斯推断观点(Von Oswald 2023, Akyürek 2022):他们在简化设定下把 ICL 解释为字面意义的梯度下降;本文在中等规模真实 LM 上的结果更支持"ICL 是用预训练先验做任务条件推断"(贝叶斯/隐式优化器视角),而非字面梯度下降,与 Shen 2023、Raventós 2023 在更真实设定下的报告一致。
  • vs Doimo 2024(MMLU 上比 ICL/SFT 表征):他们报告 SFT 表征比 ICL 更任务对齐,但没打开学习动态(in-context 示例推进的影响);本文补上了逐 shot 的轨迹分析,并把表征坍缩与归纳偏置、角度依赖、顺序敏感性联系起来。
  • vs ICL 顺序/选择效应工作(Zhang 2022, Yang 2023):他们关注示例顺序对 ICL 的影响及缓解;本文用周期性模式探针进一步揭示某些情况下模式匹配会压过特征使用,把"顺序效应"上升为"算法选择"。
  • vs 表征压缩工作(Kumar 2022):已知 SFT 会把表征压向任务相关方向;本文在受控任务上把这种压缩可视化为按标签轴的坍缩,并用多组对照证明它是 SFT 固有特征而非具体策略的产物。

评分

  • 新颖性: ⭐⭐⭐⭐ 把 ICL/SFT 当两种学习算法做匹配轨迹的逐 shot + 逐层机理对比,视角与受控装置都很新。
  • 实验充分度: ⭐⭐⭐⭐ 角度/顺序/跨模型/跨任务多维探针 + RSA 三组对照扎实,但限于中等模型、单一任务族且只有相关性证据。
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰、图文对照到位,机理与已有理论的连接讲得明白。
  • 价值: ⭐⭐⭐⭐ "相近精度、迥异机理"与"SFT 表征坍缩"对理解微调 OOD 脆弱性、指导何时用 ICL vs SFT 有实际启发。