ICLR 2026 可解释性 in-context learning 机制可解释性隐变量任务向量激活补丁概念组合

Latent Concept Disentanglement in Transformer-based Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=k3SEVOW2Dg
代码: 未公开
领域: 可解释性 / 机制可解释性
关键词: in-context learning, 机制可解释性, 隐变量, 任务向量, 激活补丁, 概念组合

一句话总结¶

本文用机制可解释性方法证明：transformer 在做 in-context learning 时会显式地把示例里隐含的"概念"解耦出来——离散世界知识任务里由一小簇注意力头先解析出隐藏的"桥实体"再组合出答案，连续数值任务里则把隐参数压缩到一条低维平滑流形上，且这条流形可被线性插值和因果干预。

研究背景与动机¶

领域现状：LLM 仅凭几条示范就能在新任务上泛化（in-context learning，ICL），这暗示模型在内部推断出了 prompt 里没明说的"隐概念/隐规则"。已有工作（task vector、function vector、线性表示假设 LRH）发现 ICL 任务的输入-输出关系能被压缩进稀疏的向量方向，但大多停留在单步、简单任务（Country→Capital、反义词、首字母大写）上，且只关注高层 task vector "存在与否"。

现有痛点：当任务有更复杂的隐结构时——比如需要多跳推理、或隐变量是连续数值——人们并不清楚 transformer 究竟是走"捷径"直接从输入跳到输出，还是真的在隐藏激活里构造出中间概念再组合。"模型有没有解耦隐概念"和"这些概念在表示空间里长什么样"这两个问题都缺乏机制级证据。

核心矛盾：高准确率既可能来自捷径式的记忆映射，也可能来自结构化的概念组合，单看 accuracy 无法区分二者；而要在真实大模型里定位"概念在哪、是不是可复用、几何结构如何"，需要可控到能做因果实验、又能反映真实现象的实验设计。

本文目标：用一组干净可控的 ICL 任务，机制性地回答 transformer 是否、以及如何表示与利用隐概念，覆盖"离散世界知识"和"连续数值参数"两类隐结构。

核心 idea：把隐函数显式拆成 \(F = R \circ C\) —— \(C\) 把输入映到低维"概念空间"，\(R\) 再把概念精炼成输出；然后用激活补丁（activation patching）+ 相关性分析 + 线性探针 + 任务向量插值四件套，分别在预训练 Gemma-2 和从零训练的小 transformer 上定位 \(C\)、检验它的可迁移性与几何结构。

方法详解¶

整体框架¶

论文不提新模型，而是用统一的"隐概念图 \(C\)"视角设计两类 ICL 探测任务，并对每类任务跑因果 + 相关两路证据。离散侧用预训练 Gemma-2-27B 做两跳事实推理，靠激活补丁定位负责解析"桥实体"的注意力头；连续侧用从零训练的 2 层 1 头小 transformer 做 add-k / 圆轨迹 / 矩形轨迹，靠线性探针 + 任务向量 PCA + 插值 steering 揭示隐参数的低维几何。

flowchart TD
    A[ICL prompt: 仅示范对 xi,yi] --> B{隐函数 F = R ∘ C}
    B --> C1[离散侧: 两跳事实推理<br/>Gemma-2-27B]
    B --> C2[连续侧: add-k / 圆/矩形轨迹<br/>2层小transformer]
    C1 --> D1[激活补丁 CMA<br/>定位桥解析注意力头]
    C1 --> E1[余弦相似度<br/>验证桥概念正交解耦]
    C2 --> D2[线性探针<br/>定位概念在哪层涌现]
    C2 --> E2[任务向量PCA + 插值steering<br/>验证低维平滑流形]
    D1 & E1 --> F1[结论: 稀疏头充当桥概念图C]
    D2 & E2 --> F2[结论: 隐参数压缩到低维有序流形]

关键设计¶

1. 两跳"源→目标"任务 + 隐桥假设对撞：把"捷径 vs 真两跳"做成可证伪问题。 论文把两条共享"桥实体"的事实拼成 ICL 谜题 \(\{(S_i, r_1, B_i, r_2, T_i)\}\)，prompt 形如 "Sydney, Canberra. Nantes, Paris. Oshawa," 而桥实体（国家）从不出现在 prompt 里——模型只能从示范中自己悟出 \(r_1\)（属于哪国）和 \(r_2\)（首都是）。这样就把问题逼成两个对立假设：Hypothesis 1 捷径论认为模型直接把输入映到答案，Hypothesis 2 隐两跳论认为模型先在隐表示里解出桥概念（"Canada"）再精炼成输出（"Canada 的首都"）。关键在于设计了一个判别性的"类型纠正"评测：把一个 [City→Capital] 的 normal prompt 和一个 [Landmark→Calling Code] 的 alternative prompt 配对，如果某组件真是抽象桥概念图 \(C\)，那它的激活应当跨源/目标类型迁移——补进去之后答案应从 Washington 移向 Beijing（桥从 USA 换成 China，但输出类型仍是 Capital），而非退化成 alternative 的字面答案 86。

2. 因果中介分析（CMA / 激活补丁）定位稀疏的"桥解析头"。 形式上设 normal/alternative 两个 prompt，缓存末位 token 的注意力头激活 \((a^{(\text{norm})}_{\ell,h}, a^{(\text{alt})}_{\ell,h})\)，在 normal 前向中把某头激活替换为 alternative 的对应激活、放任其余前向跑完，再用 logit difference 和答案 rank 的前后变化衡量该组件的因果作用（针对 Gemma-2-27B 的 grouped-query attention，按 2 个一组打补丁，效果比单头更强）。实验发现头组 (24,30;31) 因果效应一枝独秀：在 [University, Code]→[City, Capital] 实验里，打这一组补丁后至少 73% 的样本把类型纠正答案的 rank 推进 top 10、超 40% 直接顶到 top-1，而干预前该答案 rank 通常在数百到数千名。这把"桥解析"这一抽象计算定位到了极稀疏的几个头上。

3. 余弦相似度验证桥概念的正交解耦。 单有因果还不够，论文进一步可视化头组 (24,30;31) 在末位 token 的输出嵌入：取 "Italy"/"Spain" 作桥值，跨 12 种桥×源-目标类型组合共 120 条 prompt 算两两余弦相似度。结果显示嵌入按桥值强聚类、跨桥值近正交，且与源/目标类型无关——即同一桥概念的表示内聚、不同桥概念间低维正交，正是隐概念图 \(C\) "可复用、低维"的标志。论文还在附录给出：ICL 示例越多，解耦越强、桥头的因果重要性越大；2B 模型只有 27B 这套机制的"弱噪声版"，说明模型规模显著影响隐概念解耦能力。

4. 数值任务的任务向量几何 + 插值 steering：证明隐参数被压成有序低维流形。 对从零训练的小 transformer，用线性探针逐层检测概念在哪涌现——发现 add-k 的任务类型在 layer-2 注意力处被解耦、输出在 layer-2 MLP 处算出，于是把 layer-2 注意力末位嵌入（对 200 条序列取均值）当作任务向量。对其做 PCA：add-k 的任务向量落在一条 1D 直线上（首 PC 解释 >99.9% 方差），且偏移量 \(k\) 从小到大在流形上左到右有序排列；圆轨迹任务的半径向量落在 2D 平滑流形（前 2 PC 解释 93–97% 方差），半径有序。最关键的是因果插值：令 \(t_1, t_K\) 为两端偏移的任务向量，用 \((1-\beta)t_1 + \beta t_K\) 去 steering 模型，输出会被精确推向插值目标偏移 \((1-\beta)k_1 + \beta k_K\)（target 的 top-3 准确率≈100%、圆轨迹半径的 MSE 最低）。这说明 layer-2 注意力头就充当了把输入元组映到隐参数的概念图 \(C\)，且这个映射保了隐变量的几何与序关系。

实验关键数据¶

主实验（离散两跳，Gemma-2-27B）¶

实验	设置	关键结果
基线准确率	Source→Target 两跳 ICL	比单跳更难（需更多示例），20-shot 时高准确率
桥头补丁	[University,Code]→[City,Capital]	打 (24,30;31) 后 ≥73% 样本类型纠正答案进 top-10，>40% 进 top-1（原 rank 数百~数千）
桥概念正交性	120 prompt × 12 组合	嵌入按桥值强聚类、跨桥值近正交，与源/目标类型无关

数值任务（2 层 1 头小 transformer）¶

任务	任务向量几何	方差解释	Steering 结果
add-k	1D 直线，k 有序	首 PC >99.9%	插值 target top-3≈100%
Circular-Trajectory	2D 平滑流形，半径有序	前 2 PC 93.68%–97.05%	target 半径 MSE 最低
Rectangular-Trajectory	2D 流形（两边长正交分离）	前 2 PC 主导	平滑插值轨迹形状

关键发现¶

规模决定解耦：2B 模型只有 27B 桥解析电路的弱噪声版，模型越大隐概念解耦/组合能力越强。
示例越多解耦越强：增加 ICL 示例同时提升桥头因果重要性和桥嵌入的角度可分性，说明模型在更多示范下"更充分地调用"了相关子电路。
自然 prompt 可迁移：把学到的概念嵌入注入开放式生成，能连贯地把生成引向目标国家/实体类型且保持流畅，说明概念不只是"谜题专用"。
两段式电路分工明确：浅层一簇注意力头负责解析中间桥概念，更深处的另一组头与 MLP 负责把抽象桥（如"Canada"）落地成具体输出（如"Ottawa"），印证了 \(F=R\circ C\) 的物理分层。
跨数据集复用：在规模更小的 Company 数据集（公司名作桥实体）上同样观察到桥解析机制，且驱动它的注意力头与地理数据集有重叠，说明机制不是单一数据集过拟合的产物。
数值与世界知识两类任务呈现同构现象：无论隐概念是离散世界实体还是连续数值参数，模型都倾向于用稀疏组件 + 低维有序表示来承载它，暗示这可能是 transformer 处理隐结构的一种通用倾向。

亮点与洞察¶

把"捷径 vs 真推理"做成可证伪的因果实验：通过"类型纠正答案"这个判别性指标，干净地把两跳的中间概念从字面答案里剥离出来，避免了 logit difference"只是削弱原答案"的混淆。
同时拿到因果 + 相关 + 几何三类证据：激活补丁给因果、余弦相似度给解耦、PCA+插值给几何，互相印证，结论比单一证据扎实得多。
为线性表示假设提供"连续参数化"的新证据：以往 LRH 多是离散概念方向，本文展示隐参数沿表示方向连续、有序地编码，把 LRH 推进到可插值的连续谱。
从零训练给出"几何只来自任务结构"的干净因果：小模型完全可控，能断言任务向量的几何确实只源于隐任务结构而非预训练杂质，补足了同期 Hu et al. 在大模型上的观察。
任务设计兼顾"干净"与"启发性"：实验既受控到能做电路级分析，又指向"模型会内化任务隐结构、且这些结构可定位可解释"这一更普遍的猜想。

局限与展望¶

任务高度受控且简单：两跳地理/公司、add-k、圆/矩形轨迹都是合成谜题，能否外推到真实复杂多跳推理仍待验证（论文自己也强调这是 stepping stone）。
自然 prompt 迁移只是小规模初步证据：开放式生成 steering 仅作 preliminary，缺乏大规模定量评估。
机制定位偏经验：稀疏桥头、特定层涌现等结论依赖具体模型与数据集，普适性（"任意复杂任务都由稀疏头/低维编码捕获"）目前是 posit 而非定论。
缺理论刻画：为何会形成低维有序流形、规模如何定量影响解耦，论文留到附录 C 作展望，尚无形式化证明。
桥头分组打补丁的工程取舍：为应对 grouped-query attention 而按 2 头一组干预虽然效果更强，但也让"单头职责"的粒度变粗，精确到单个头的归因仍不完全清晰。

评分¶

新颖性: ⭐⭐⭐⭐ 把隐概念分解 \(F=R\circ C\) 与因果+几何双路证据系统结合，并首次给出连续隐参数可插值流形的干净证据，视角新颖。
实验充分度: ⭐⭐⭐⭐ 覆盖大模型（27B/2B）离散任务与小模型多类数值任务，因果/相关/探针/插值多重交叉验证，附录详尽；扣分在真实复杂任务与自然 prompt 迁移仅初步。
写作质量: ⭐⭐⭐⭐ 假设对撞、实验设计和证据链条叙述清晰，图示直观。
价值: ⭐⭐⭐⭐ 为 ICL 机制可解释性和 LRH 提供了可复用的实验范式与扎实证据，对理解 transformer 隐概念组合有较强参考价值。