ICLR 2026 可解释性稀疏自编码器 SAE 评估可解释性度量入侵检测嵌入打分机制可解释性

Evaluating SAE Interpretability Without Generating Explanations¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=kHhMs642rR
代码: 待确认
领域: 可解释性 / 机器学习可解释性
关键词: 稀疏自编码器、SAE 评估、可解释性度量、入侵检测、嵌入打分、机制可解释性

一句话总结¶

本文提出两种无需生成自然语言解释的稀疏自编码器（SAE）可解释性评估方法——入侵句检测（intruder detection）与样例嵌入打分（example embedding scoring），把评估直接建立在 latent 激活样例上，并用人类标注验证 LLM 评判与人类判断高度相关。

研究背景与动机¶

领域现状：稀疏自编码器与 transcoder 已成为解释大语言模型的主流工具，它们通过过完备且稀疏的基向量缓解神经元的"多义性"（polysemanticity），让每个 latent 学到更具体、更可解释的特征。但"这些 latent 到底有多可解释"却缺乏共识性的评测标准。

现有痛点：目前最流行的评测范式都遵循"先为每个 latent 生成一句自然语言解释，再用这句解释去预测 latent 在新上下文中的激活"的两步流程。这条流水线把解释生成和解释评估两件事和 latent 本身的可解释性纠缠在了一起：要展示多少示例、展示哪类示例、是否允许 Chain-of-Thought、如何高亮激活 token、解释写成短句还是带例子的长段——这些超参和 prompt 选择都会显著影响最终得分，使得"分数低"无法区分到底是 latent 不可解释还是解释没生成好。

核心矛盾：解释中心式范式还隐含一个哲学假设——一个 latent 要可解释，就必须有"能用一句话简洁表达"的含义。本文质疑这个假设：只要人类能区分激活样例与非激活样例，这个 latent 就是可解释的，并不强求能写出解释。

本文目标：抛开解释生成的所有细节，直接基于 latent 的激活样例度量其可解释性，从而得到更直接、更可能标准化的评估，并验证 LLM 评判能否替代人类。

核心 idea：【绕过解释】 把"可解释性"重新定义为"激活样例与非激活样例的可分性"，于是评估退化为两个不需要语言解释的判别任务——找出混入的"入侵"样例，或判断激活样例是否在嵌入空间聚类。

方法详解¶

整体框架¶

传统流程是"收集激活 → 生成解释 → 给解释打分"三步，解释是横亘在 latent 与分数之间的间接中介。本文把它压缩为"收集激活 → 直接给激活打分"两步，提出两种打分方式：入侵检测（需要较强 LLM 或人类作判别器，精度高）与样例嵌入打分（用轻量嵌入模型，速度快、适合大规模）。两种方法都对人类评判者和 LLM 评判者通用，并以人类判断为金标准来校准 LLM。

flowchart LR
    A[在语料上收集<br/>latent 激活] --> B{评估方式}
    B -->|强 LLM/人类| C[入侵检测<br/>5 选 1 找出非激活样例]
    B -->|轻量嵌入模型| D[样例嵌入打分<br/>查询离同类是否更近]
    C --> E[准确率<br/>按 decile 平均]
    D --> F[AUROC]
    E --> G[可解释性分数]
    F --> G
    G --> H[与人类标注对比校准]

关键设计¶

1. 入侵句检测：把可解释性变成"找不同" 受经典 intruder word detection 启发，作者为每个 latent 采样 4 个激活样例和 1 个不触发该 latent 的"入侵"样例（入侵样例从触发其它 latent 的样例池中抽取），把这 5 条以编号列表呈现给评判者，要求按序号指出入侵者。激活样例中真正激活的 token 用 << >> 高亮，非激活样例则随机高亮同样数量的 token 以避免高亮本身泄露答案；每条样例统一截断到 32 token，并配少样本提示演示任务。latent 的分数定义为评判者在该 latent 上的入侵检测准确率，并按激活分布的十分位（decile）分别采样与平均——这样既能复用前人按 decile 评估不同激活强度区间的做法，也能比较同一特征在分布不同区段的一致性。随机猜测的期望准确率是 20%，低于此即基本判定为不可解释。与传统词级入侵不同，本文展示完整上下文，因为许多 latent 会在一句话里的多个甚至相邻 token 上激活。

2. 入侵 decile 检测：探查特征是二元还是标量 在入侵检测上做一个变体——让全部 5 条样例都激活同一 latent，但"入侵者"来自与其余样例不同的激活 decile。若 latent 是完美单义的二元特征，不同 decile 的样例应当极其相似，该任务准确率会接近随机；若 latent 是带"强度/程度"语义的标量特征，则相邻 decile 难分、远距 decile 易分，且应呈对称性（在低激活样例中找高激活入侵者，与反过来，难度相当）。实验用 Llama 3.1 70b 执行此任务，结果矩阵高度不对称，无法用"多数 decile 与入侵 decile 的距离"完全解释，从而排除了"多数特征既是二元又是单义"的假设。

3. 样例嵌入打分：用嵌入聚类替代 LLM 判别 入侵检测虽绕过了解释生成，但仍需较强 LLM 才能给出有意义的分数。为提速，作者改用轻量嵌入模型衡量"激活样例是否在嵌入空间聚类"。给定激活样例集 \(E^+\)、非激活样例集 \(E^-\)、一个激活查询 \(q^+\) 与一个非激活查询 \(q^-\)，计算每个查询离同类比离异类近多少：

\[\Delta^+ = \frac{1}{N}\left(\sum_{e_i^+\in E^+}\frac{q^+\cdot e_i^+}{\|q^+\|\|e_i^+\|} - \sum_{e_i^-\in E^-}\frac{q^+\cdot e_i^-}{\|q^+\|\|e_i^-\|}\right)\]

\[\Delta^- = \frac{1}{N}\left(\sum_{e_i^-\in E^-}\frac{q^-\cdot e_i^-}{\|q^-\|\|e_i^-\|} - \sum_{e_i^+\in E^+}\frac{q^-\cdot e_i^+}{\|q^-\|\|e_i^+\|}\right)\]

正样例同样从同一 decile 采样、负样例取随机非激活上下文，用 \(\Delta^+\) 与 \(\Delta^-\) 算出 AUROC 作为该 latent 的分数。该指标与前人的 embedding scoring 思路一致，只是把"解释"替换成了"激活样例"，且按构造天然对称。

4. 微调嵌入模型以理解高亮标记 现成嵌入模型在该任务上表现不佳，作者推测它们读不懂 <<>> 这种激活 token 高亮的含义。于是选用轻量但性能不错的 stella_en_400M_v5，在 Pythia-160m 第 6 层 MLP 的 TopK skip transcoder 上（与评测用的 SAE 不重叠，避免过拟合）筛出约 300 个在 fuzzing 与 detection 上得分均高于 0.7 的特征，构造与样例嵌入相似的（9 激活样例+1 激活查询 / 9 非激活样例+1 非激活查询）数据，用 Multiple Negatives Ranked Loss 微调，使（查询，正样例）相似度相对 batch 内其它元素提升。

实验关键数据¶

评测对象包括作者自训的 4 个 TopK SAE（SmolLM2 135M 第 9/15/21/27 层 MLP，32k 特征，k=32，10B token 训练），以及公开的 Gemmascope（Gemma 2 9b，JumpReLU）、Llama 3.1 8b 残差流 SAE、Pythia-160m skip transcoder 等，以验证方法跨模型/激活函数/稀疏度的普适性。

主实验：人类 vs LLM 入侵检测一致性¶

评判者	关键结果
人类（105 个 latent）	平均入侵准确率 64%，最高 decile 平均 78%；1/3 latent 得分 >80%，仅 1/7 低于 30%
Claude Sonnet 3.5	与人类的 Spearman 相关 0.83，高于以往 SAE 评测指标的一致性
样例嵌入打分	与人类入侵分数相关 r=0.78，与 LLM 入侵分数和人类的相关 r=0.75 相当

评判者间相关性（入侵检测，56 个 latent 上的 Pearson 相关）¶

评判者	Human	Llama 70b	Llama 8b	QwQ 32b	Gemini Flash 2.0	Claude Sonnet 3.5
Human	1	0.76	0.52	0.78	0.80	0.84
Claude Sonnet 3.5	0.84	0.88	0.57	0.90	0.87	1
Llama 3.1 8b	0.52	0.54	1	0.59	0.60	0.57

强模型与人类相关性普遍 >0.80，弱模型（Llama 3.1 8b，准确率仅 27%）相关性显著偏低。两位人类标注者间相关 0.87。

关键发现¶

解释不是必需的：仅靠激活样例，人类就能可靠判别 latent 含义，支持"可解释性≠可用一句话表达"的新定义。
激活强度影响可解释性：最高 decile 的准确率比最低 decile 高出约 20%，但低 decile 仍显著高于随机——低激活样例同样携带 latent 行为信息。
LLM 倾向低估：粗粒度分箱下，人类普遍判定 latent 比 LLM 更可解释，说明 LLM 没有挖出人类看不懂的"牵强"模式，这是个好消息。
特征非纯二元单义：入侵 decile 检测矩阵不对称，许多 (入侵, 多数) decile 对显著高于随机，排除了"多数特征既二元又单义"的假设。
嵌入打分高效：样例嵌入打分用小模型即可达到与强 LLM 入侵检测相当的人类相关性，适合大规模 SAE 评测。

亮点与洞察¶

概念层面的重定义：把"可解释"从"能写出解释"松绑为"激活/非激活可判别"，方法论上直接消除了解释生成引入的一整层超参与 prompt 噪声，让评估更接近 latent 本身的性质。
人类金标准 + LLM 代理的闭环：不是空谈方法优雅，而是真的让作者人工做了 105 个 latent 的入侵任务，用 0.83 的 Spearman 相关坐实"LLM 可替代人类"。
decile 入侵这一巧思：把同一套入侵框架稍作改装，就变成探测"特征是二元还是标量"的工具，顺带证伪了 SAE latent 普遍单义的直觉。
嵌入打分的工程价值：用可微调的小嵌入模型把评测成本降下来，对动辄数万 latent 的 SAE 评测很实用。

局限与展望¶

绝对准确率并不高：人类平均入侵准确率仅 64%，说明大量 latent 即便在这种宽松定义下也只是"中等可解释"，方法是相对比较工具而非绝对认证。
样例嵌入分辨力有限：区分同一特征不同 decile 时，最大 decile 距离的 AUC 也只到 0.7，对"强度语义"的刻画偏弱。
依赖高亮与微调：现成嵌入模型读不懂激活高亮，需要专门微调，迁移到新设置时这步成本不可忽略。
未给出"完美标量特征"证据：作者承认 SAE 中可能存在理想标量特征，但当前实验没有清晰证据，留待后续。
评测主要在中小模型（SmolLM2 135M、Pythia-160m、Gemma/Llama 部分层）上，更大模型上的稳健性仍需验证。

评分¶

新颖性: ⭐⭐⭐⭐ 重新定义可解释性并据此设计两种无解释评测，概念清晰、切中现有评测的痛点。
实验充分度: ⭐⭐⭐⭐ 跨多模型/激活函数验证，且有真实人类标注作金标准、多 LLM 交叉一致性，证据扎实；绝对规模与更大模型覆盖略可加强。
写作质量: ⭐⭐⭐⭐ 动机、方法、结论一条主线讲得透彻，图表对应清楚。
价值: ⭐⭐⭐⭐ 为 SAE 可解释性评测提供了更直接、可标准化且计算高效的工具，对机制可解释性社区有实际意义。