Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders¶
会议: NeurIPS 2025
arXiv: 2510.22332
代码: https://muyo8692.com/projects/ff-kv-sae
领域: 模型压缩 / 可解释性
关键词: 稀疏自编码器, 前馈层, 键值记忆, 可解释性, 特征发现
一句话总结¶
系统比较了Transformer前馈层(FF)的键值记忆特征与稀疏自编码器(SAE)学到的特征的可解释性,发现两者在现有评测指标上表现相当,FF-KV在某些方面甚至更优,质疑了SAE作为特征发现工具的必要性。
研究背景与动机¶
大语言模型(LLM)的可解释性研究近年来经历了从"自顶向下"到"自底向上"特征发现的范式转变。在特征发现时代,两大趋势同时出现:(1) 训练外部代理模块(如稀疏自编码器SAE)来分解神经元激活,(2) 发展新的综合可解释性基准(如SAEBench)来评估特征质量。
然而,一个被忽视的关键问题是:代理模块学到的特征是否真的比模型原始参数中已有的特征更好? FF层本身可以被视为键值记忆(key-value memories)——Key矩阵 \(\mathbf{W}_K\) 的每一行是一个"键",Value矩阵 \(\mathbf{W}_V\) 的每一行是对应的"值"(特征向量)。FF层天然地将激活分解为一组特征向量,这与SAE的操作在结构上完全一致(都是MLP架构)。
代理方法和FF-KV分析各有互补优势:SAE有处理超位(superposition)的理论动机,但也引入了额外的偏差——特定特征被重复发现、代理模块"幻觉"出不存在的特征、需要额外计算成本。而且FF的激活本身已经是自然稀疏的。如果FF-KV和SAE分析得到可比的结果,根据奥卡姆剃刀原则,直接分析FF-KV更为可取。
方法详解¶
整体框架¶
将FF层的Key-Value结构直接作为特征发现方法,用现代可解释性基准(SAEBench)和人工评估系统地比较FF-KV特征与SAE/Transcoder特征的可解释性。进一步分析代理模块发现的特征与原始FF模块特征的重叠程度(忠实度分析)。
关键设计¶
-
FF-KV方法族:
- Vanilla FF-KV: 直接将FF层的激活 \(\phi(\mathbf{x}_{FF_{in}}\mathbf{W}_K + \mathbf{b}_K)\) 作为特征激活,\(\mathbf{W}_V\) 的行作为特征向量
- TopK FF-KV: 对FF激活施加Top-k稀疏化,仅保留最大的 \(k\) 个激活值,与SAE的稀疏性对齐
- Normalized FF-KV: 对 \(\mathbf{W}_V\) 的每行进行L2归一化,将折扣的范数权重加到激活上,避免特征向量范数差异造成的偏差
- SwiGLU兼容: 对现代LM采用的SwiGLU门控激活,上述方法均可自然适配
-
SAEBench评估框架: 使用8个互补指标全面评估:
- Feature Alive Rate: 活跃特征比例
- Explained Variance: 重建质量(FF-KV自动满分)
- Absorption Score: 概念是否被过度分割(越低越好)
- Sparse Probing: 特征的判别性和泛化能力
- Auto-Interpretation: LLM能否用自然语言总结特征的激活模式
- SCR/TPP: 虚假相关特征的解纠缠能力
- RAVEL: 同一实体不同属性的可分性和可控性
-
忠实度分析: 使用Transcoder(TC)作为分析对象(TC是FF-KV的最近对应物),检查TC特征与原始FF特征的重叠度——即代理模块是否真正"翻译"了原始模块的工作方式,还是"幻觉"出了新特征。
损失函数 / 训练策略¶
FF-KV方法本身不需要任何训练(直接使用模型原有参数),这是其相对于SAE的重要优势。SAE使用重建损失+稀疏正则化训练,需要额外的计算资源。评估使用预训练的SAE(Gemma Scope、Llama Scope等)。
实验关键数据¶
主实验(SAEBench评测,Gemma-2-2B Layer 13)¶
| 方法 | Absorption↓ | Sparse Prob.↑ | AutoInterp↑ | RAVEL-ISO↑ | SCR(k=20)↑ |
|---|---|---|---|---|---|
| SAE | 0.087 | 0.846 | 0.782 | 0.985 | 0.170 |
| Transcoder | 0.025 | 0.854 | 0.790 | 0.940 | 0.104 |
| FF-KV | 0.000 | 0.827 | 0.710 | 0.952 | 0.041 |
| TopK FF-KV | 0.000 | 0.768 | 0.772 | 0.943 | 0.045 |
| Random Transformer | 0.007 | 0.798 | 0.679 | - | 0.004 |
消融实验(人工评估,50个特征/方法)¶
| 方法 | 表面特征 | 概念特征 | 不可解释 | 来源判断准确率 |
|---|---|---|---|---|
| FF-KV | 6 | 8 | 36 | 0.86 |
| TopK FF-KV | 9 | 9 | 32 | 0.28 |
| SAE | 6 | 9 | 35 | 0.13 |
| Transcoder | 16 | 11 | 23 | 0.18 |
关键发现¶
- 整体可比性: SAE和FF-KV在SAEBench的8个指标上呈现相似范围的分数,绝对差异通常远小于种子/层间方差
- FF-KV优势——Absorption: FF-KV的Absorption分数近乎为0(远优于SAE的0.087),意味着FF-KV特征不会将简单概念过度分割——特征冗余度更低
- SAE微弱优势——AutoInterp/SCR: SAE在自动解释和虚假相关消除上略优,但差距不大
- 概念特征数量相当: 人工评估中,FF-KV和SAE发现的概念级特征数量几乎相同(8 vs 9)
- 忠实度质疑: 大多数Transcoder特征在原始FF模块中找不到对应物——代理模块可能"幻觉"出新特征而非翻译原始模块
- Random Transformer基线: 随机初始化的Transformer也能获得非trivial的可解释性分数,进一步质疑了代理方法的特征质量
亮点与洞察¶
- 对SAE主导的可解释性研究范式提出了重要质疑——一个不需要额外训练的基线方法就能达到相当的效果
- Absorption分数的比较尤其有说服力:SAE的特征分割倾向是其固有缺陷,而FF-KV天然避免了这个问题
- 忠实度分析揭示代理模块可能"幻觉"特征的问题,与已有批评(SAE能解释随机Transformer)相呼应
- 核心信息简洁有力:FF-KV应作为可解释性研究的强基线
局限与展望¶
- SAE理论上能处理超位(superposition),但当前评测指标可能无法充分捕捉这一优势
- SCR/TPP指标不稳定,结果应作为辅助参考
- 人工评估仅有一位标注者,可能引入个人偏差
- 仅在Gemma-2和Llama-3.1上评测,其他架构(如MoE模型)的行为有待验证
- 未讨论FF-KV方法在模型行为控制(steering)上的表现,这是SAE的重要应用场景
相关工作与启发¶
- vs Geva et al. (2021): 最早提出FF-as-KV-memories的视角,本文用现代基准系统验证了这一观点
- vs SAE (Cunningham et al., Bricken et al.): SAE在早期展示了令人鼓舞的可解释特征,但本文表明FF-KV能达到相当水平
- vs Transcoder (Dunefsky et al.): Transcoder是FF-KV的最近代理对应物,本文发现其特征与原始FF重叠度低
- vs 对SAE的批评 (Makelov et al., Huang et al.): 本文提供了额外证据支持对SAE一般性优势的质疑——FF-KV作为"零成本"基线已足够强
评分¶
- 新颖性: ⭐⭐⭐⭐ 将被忽视的FF-KV视角重新引入现代可解释性研究,切入角度新颖但方法本身并不复杂
- 实验充分度: ⭐⭐⭐⭐⭐ 自动评估(8指标)+人工评估+忠实度分析+多模型+多变体,非常全面
- 写作质量: ⭐⭐⭐⭐ 动机清晰,实验组织有序,但LaTeX渲染问题影响了部分公式的可读性
- 价值: ⭐⭐⭐⭐⭐ 对可解释性社区极具警示意义——在追求更复杂的代理方法之前,先确认简单基线的表现