Comparing the learning dynamics of in-context learning and fine-tuning in language models¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=cJAtzOcAnd 代码: https://github.com/basile6/ICLvsSFT
领域: 可解释性 / 机理分析
关键词: 上下文学习, 监督微调, 学习动态, 归纳偏置, 表征坍缩

一句话总结¶

作者把上下文学习（ICL）和监督微调（SFT）当成两种"学习算法"，在一个可精确控制几何的二维线性分类玩具任务上逐 shot 对比它们的学习轨迹与内部表征，发现两者泛化精度相近但机理迥异：ICL 保留丰富的输入表征、但带着更强的预训练先验（数字比较、模式匹配），而 SFT 会把表征按标签轴压缩坍缩、置信度更高却更脆。

研究背景与动机¶

领域现状：大模型获取新任务有两条路——ICL（推理时在 prompt 里塞示例-标签对，不改权重）和 SFT（用标注数据做梯度更新改权重）。两者都能达到不错的性能，但越来越多证据表明它们在归纳偏置、顺序敏感性、分布外（OOD）行为上有系统差异，常常是 ICL 比 SFT 泛化得更稳，哪怕训的是同一批数据。

现有痛点：这些差异"从哪来"一直没说清。过去的对比大多在自然语言任务上做，任务语义、词表先验、数据几何全都纠缠在一起，很难判断观察到的差异是算法本身的性质，还是任务语义带来的混淆。而且多数工作只看最终的标量指标（准确率高/低），没有打开"学习轨迹"——即随着示例数增加，模型行为和表征是怎么一步步演化的。

核心矛盾：要想干净地比较 ICL 与 SFT 这两种学习算法，就必须剥离语言先验、精确控制任务几何，并且在完全相同的训练样本、相同的顺序、相同的 shot 数下逐步对齐两条轨迹，否则任何差异都可能是混淆变量造成的。

本文目标：构造一个最小化混淆的受控任务，把 ICL 和 SFT 放在匹配的轨迹上头对头比较，回答两个子问题——(1) 它们的归纳偏置有何不同？(2) 这些差异是否对应到不同的内部表征几何？

切入角度：把 ICL 和 SFT 都看作"学习算法"——对 ICL，不同 shot 数就是不同长度 prompt 的独立前向（无权重更新）；对 SFT，每个 shot 数对应在累积训练集上从头微调出的一个模型。用同一套"shot 数→性能/表征变化"的语言描述两者，就能把它们当成两条可对齐的轨迹来比。

核心 idea：用一个角度可控、标签语义无关的二维线性分类任务当"显微镜"，逐 shot 追踪 ICL 与 SFT 的决策场、四个量化指标和逐层表征相似度（RSA），从而把"context 驱动 vs 权重驱动"两种学习的机理差异照出来。

方法详解¶

整体框架¶

这是一篇机理分析论文，没有提出新模型，"方法"是一套精心设计的受控实验装置。整体思路是：构造一个能精确控制决策边界角度 \(\theta\)、标签语义无关的二维线性分类任务，让同一个预训练大模型（主力是 Llama3-8B）分别用 ICL 和 SFT 去学它；在完全匹配的训练样本与顺序下，把"每类 K 个 shot"当作时间轴，逐 shot 记录决策场的演化、四个量化指标（准确率、平滑度、置信度、推断角度），并对每层激活做表征相似度分析（RSA）。然后通过系统地变换任务角度、注入周期性顺序模式、跨模型/跨任务复现，把 ICL 与 SFT 的归纳偏置和表征几何差异定位出来。

任务本身（Fig.1A）：输入是一对有序整数 \(x=(n_1,n_2)\)，\(n_1,n_2\in\{0,\dots,99\}\)，单 token 表示；输出是两个语义无关的标签 " Baz"/" Rud"。一个任务实例由单一参数 \(\theta\in[0,180^\circ]\) 决定——即真值线性决策边界相对第一个特征 \(n_1\) 的夹角。每个 shot 数下数据集都是类别平衡的。全部 \(100\times100=10{,}000\) 个可能输入都能被模型扫一遍，于是模型的"决策场"可以被完整画出来。

关键设计¶

1. 角度可控、标签语义无关的二维玩具任务：把混淆变量逐个关掉

要干净比较两种学习算法，最大的敌人是混淆——自然语言任务里标签语义、词表先验、数据几何全缠在一起。作者用二维整数对作输入、把决策边界压缩成单一角度参数 \(\theta\)，就把"任务难度"和"任务几何"解耦：理论上不同 \(\theta\) 的任务难度相当，但若模型带着"沿行/列泛化"或"比大小"的偏置，就会在特定 \(\theta\) 上表现更好，从而把偏置暴露成可测量的角度依赖。标签选 " Baz"/" Rud" 而非常见的 "Foo"/"Bar"，是因为前者在多数开源分词器下是单 token 且在预训练语料里更罕见，能最大程度压低 verbalizer 先验。这种"先把噪声关干净再观察"的设计，是整篇论文结论可信的地基。

2. 匹配轨迹协议：让 ICL 与 SFT 在同一把尺子下对齐

ICL 与 SFT 机制天差地别，直接比终点没意义。作者强制两者吃同一批训练样本、同一个 shot 内顺序：ICL 时每类随机无放回抽 K 个示例拼进 prompt 再跟一个 query，研究同一条有序示例流在不同 shot 数下的表现；SFT 时则在与 ICL 相同的累积数据集与顺序上、对每个 shot 数都从基座模型从头微调一个新模型（AdamW + cosine 学习率）。作者坦承这是对"learning dynamics"一词的善意滥用——ICL 各 shot 是独立 prompt、无权重更新，SFT 各 shot 是独立训练出的模型——但正是这套对齐，才让"shot 数"成为可比的共同时间轴，把两种算法摆进同一坐标系。

3. 四个量化指标 + 角度/顺序探针：把"偏置"从定性变定量

光看准确率看不出偏置。作者对每条轨迹追踪四个量：(i) 在全部 \(10{,}000\) 个输入上的准确率；(ii) 平滑度，定义为 \(1\) 减去"预测类别与四邻中至少两个邻居不一致"的网格点占比，刻画决策场是否破碎；(iii) 置信度，取最大 softmax 概率；(iv) 推断角度，对模型在网格上的预测标签拟合一个线性分类器反推出的 \(\theta\)。在此之上设两类探针：变换任务角度——若存在"已见特征值偏置"（沿行/列泛化），则 \(\theta=0^\circ/90^\circ\) 应更好；若存在"比较偏置"（偏好对角线，对应"哪个数更大"的启发式），则 \(\theta=45^\circ\) 更好，且 \(\theta=30^\circ\) 会被高估、\(\theta=60^\circ\) 被低估（对角拉拽）；注入周期性顺序——把 in-context 示例按"12""1221""12121221"等周期排列，看模型是否从线性分类切换到纯模式匹配。

4. 逐层表征相似度分析（RSA）：照出"表征坍缩 vs 结构保留"

归纳偏置的差异最终要落到表征上。作者对每个输入取末位 query token 在每层 MLP 之后的激活（Llama3-8B 共 32 层），计算所有输入两两之间的余弦相似度矩阵（\(10{,}000\times10{,}000\)），逐层画相似度直方图，并取训练集示例 + 随机测试输入按标签排序后的 \(400\times400\) 子矩阵看结构。关键观察就来自这里：早层两者相似，但到中层 SFT 出现沿标签轴的表征坍缩（激活聚成正负两簇、各对应一类），而 ICL 始终保留输入特有的丰富结构。作者还做了三组对照锚定这个坍缩的成因——LoRA 微调能缓解坍缩但 RSA 仍更像 SFT 而非 ICL；冻结 unembedding 矩阵后坍缩依然存在；固定 shot 数追踪 SFT 训练动态发现坍缩与性能绑定、且过了性能平台后仍随训练加深——共同说明坍缩是 SFT 的固有特征，而非模型选择或具体微调策略的产物。

实验关键数据¶

主实验：相近泛化、迥异偏置¶

在匹配数据与顺序下，Llama3-8B 用 ICL 和 SFT 都能解这个任务，留出准确率与学习速度都相近，训练准确率全程接近完美。但 SFT 在相同 shot 下置信度持续高于 ICL，说明 logits 与标签对齐更强。决策场（尤其少 shot 时）暴露出 ICL 的两类偏置：已见特征值偏置（沿复用了 in-context 数值的行/列外推）和比较偏置（偏好接近对角线 \(\theta\approx45^\circ\) 的边界，对应"哪个数更大"）。这些偏置即便在全局准确率收敛后（200 shots/class）仍可检出。

维度	ICL	SFT	说明
留出准确率 / 学习速度	相近	相近	两者都能解任务
置信度	较低	较高	SFT logits 与标签对齐更强
角度依赖	\(\theta=0/45/90^\circ\) 更好，\(\theta=30^\circ\) 角度被高估（对角拉拽明显）	\(\theta=0/45/90^\circ\) 也更好，但对角拉拽弱于 ICL	偏置以角度依赖形式显现
顺序敏感	周期 2（严格交替）触发纯模式匹配、忽略特征	—	短周期影响大、长周期（如"12121221"）几乎无影响
中层表征	保留输入特有结构	沿标签轴坍缩（聚成两簇）	RSA 揭示的核心差异

表征分析与对照¶

配置	表征坍缩	说明
ICL	无，跨层保留输入结构	训练集示例间表征更相似（不分类别），10/200 shot 皆然
普通 SFT	中层起明显坍缩	激活按 class 1/class 2 聚成对立两簇
LoRA 微调	坍缩被缓解	但 RSA 矩阵仍更接近 SFT，而非 ICL
冻结 unembedding 的 SFT	坍缩依然存在	说明坍缩与任务性能绑定，非 unembedding 所致

关键发现¶

相近精度 ≠ 相同机理：ICL 和 SFT 在该受控任务上泛化精度几乎一样，但归纳偏置和表征几何截然不同——这是全文最核心的"啊哈"。
ICL 会做"in-context 的算法选择"：周期 2 的标签排列能让模型彻底放弃线性分类、转而纯模式匹配（无视特征值），印证了"transformers 能在 context 内选择算法"的理论预测；但长周期模式影响骤减，说明是一种短视野的标签交错敏感性。
坍缩是 SFT 的固有特征：在 Qwen3-8B、Gemma3-12B/27B 等多模型上，ICL 的行/列偏置与对角偏置定性保留、SFT 坍缩复现（LoRA 同样缓解），说明结论不是 Llama3-8B 的个例。
跨任务稳健：把整数换成按情感强度排序的形容词（语义版）、或做两个相差 \(90^\circ\) 线性任务的 XOR（非线性版），主要趋势仍成立，只是学习更慢、角度差异变小。

亮点与洞察¶

"把学习算法当对象研究"的视角很干净：通过强制匹配训练样本/顺序/shot 数，把 ICL 与 SFT 这两种异质机制摆进同一坐标系逐 shot 对齐，这种实验设计本身就值得借鉴——很多看似算法差异的现象其实是混淆变量。
用单参数 \(\theta\) 把"偏置"变成可测的角度依赖：把归纳偏置投影到一个连续可控的几何参数上，使"模型偏爱比大小"这种说不清的直觉变成可证伪的预测（\(\theta=45^\circ\) 更好、\(\theta=30^\circ\) 被高估），方法论很漂亮。
RSA + 三组对照锁定坍缩成因：不满足于"看到坍缩"，而是用 LoRA、冻结 unembedding、固定 shot 训练动态三组对照逐一排除替代解释，把"坍缩与性能绑定、是 SFT 固有特征"这个结论做扎实。
可迁移启发：作者据此预测 SFT 可能因表征坍缩而损害迁移学习——这个"坍缩→OOD 脆弱/迁移差"的因果链条，可以迁移到分析为什么很多微调模型在分布外掉点。

局限与展望¶

任务族单一：只聚焦一类几何可控的二维分类任务，虽能隔离偏置与表征，但可能捕捉不到层级/多步推理的复杂性，结论的普适性需在更真实的 ICL 任务上检验（作者自承）。
模型规模有限：实验集中在中等规模（≥8B）LM，放大到更大模型的 ICL vs SFT 对比是重要的下一步。
超参覆盖不彻底：虽做了多组 SFT 超参 sweep，但未穷尽正则（如 weight decay 调度）或 early-stopping/校准等可能缓解坍缩的策略。
只是相关性证据：RSA 取的是末位 token 激活，且作者只给出"表征差异 ↔ 偏置差异"的相关性证据，缺因果干预——这是最关键的后续方向。

评分¶

新颖性: ⭐⭐⭐⭐ 把 ICL/SFT 当两种学习算法做匹配轨迹的逐 shot + 逐层机理对比，视角与受控装置都很新。
实验充分度: ⭐⭐⭐⭐ 角度/顺序/跨模型/跨任务多维探针 + RSA 三组对照扎实，但限于中等模型、单一任务族且只有相关性证据。
写作质量: ⭐⭐⭐⭐ 逻辑清晰、图文对照到位，机理与已有理论的连接讲得明白。
价值: ⭐⭐⭐⭐ "相近精度、迥异机理"与"SFT 表征坍缩"对理解微调 OOD 脆弱性、指导何时用 ICL vs SFT 有实际启发。