Towards Intrinsic Interpretability of Large Language Models: A Survey of Design Principles and Architectures¶

会议: ACL 2026
arXiv: 2604.16042
代码: 无
领域: 可解释性
关键词: 内在可解释性, 大语言模型, 设计范式分类, 模块化架构, 稀疏归纳

一句话总结¶

系统综述了 LLM 内在可解释性的最新进展，将现有方法分为五大设计范式（功能透明性、概念对齐、表征可分解性、显式模块化、潜在稀疏归纳），并讨论了开放挑战和未来方向。

研究背景与动机¶

领域现状：大语言模型在各类 NLP 任务上取得了显著成功，但其内部机制的不透明性（黑盒特性）阻碍了可信部署，尤其在医疗、法律等高风险领域。现有可解释 AI 综述主要聚焦于事后解释方法（post-hoc），如 LIME、SHAP、稀疏自编码器、因果干预等。

现有痛点：事后解释方法通过外部近似来解释已训练好的模型，存在"保真度鸿沟"——解释和模型的真实计算之间存在根本性偏差。即使是因果干预方法（如 ROME），虽然局部保真度更强，但其解释粒度过细，难以聚合为对模型整体行为的连贯理解。

核心矛盾：历史上，内在可解释的模型（如线性模型、决策树）在表达能力上远不及黑盒大模型，导致"可解释性 vs 性能"被视为不可调和的 trade-off。但近期研究表明，通过将模块化、稀疏性、解纠缠等归纳偏置嵌入现代架构，这一 trade-off 正在被打破。

本文目标：为内在可解释性方法提供统一的分类框架，系统梳理设计原则，明确各方法的优劣和适用场景，并指出未来研究方向。

切入角度：不同于事后解释综述从"工具"出发，本文从"设计原则"出发，关注如何从架构和训练过程中构建透明性。

核心 idea：将内在可解释性方法组织为五大设计范式，每个范式代表一种不同的"透明性来源"。

方法详解¶

整体框架¶

本文不从"事后解释工具"出发，而是以"透明性的来源"为主轴，把内在可解释方法组织成一套五范式的分类体系：功能透明性、概念对齐、表征可分解性、显式模块化、潜在稀疏归纳。这五个范式回答的是同一个问题的不同侧面——可解释性究竟应该嵌进计算过程本身、表征空间、还是网络结构里。下文以前三个范式为代表展开其设计原则（后两个范式归入实验对比表统一讨论），并在最后梳理各范式的训练成本谱系。

关键设计¶

1. 功能透明性（Functional Transparency）：让每一步计算本身就可读

这是最直接的透明性来源——如果计算过程本身就是透明的，就不再需要任何外部近似工具去事后解释。代表方法包括广义加性模型（GAMs）及其扩展（GA2M、EBMs、GAMI-Net），它们用可加性约束把每个特征的贡献单独拆出来可视化；自解释神经网络（SENN）把预测分解为基础概念与对应的相关性分数；B-cos 网络通过权重-输入对齐变换让前向计算等价于一个线性解释；Kolmogorov-Arnold Networks（KANs）则用可学习的样条函数替换固定激活，使每条边上的形状函数都可读。代价是可加性约束限制了建模能力，而 KANs 能否扩展到大规模 LLM 也尚未得到验证。

2. 概念对齐（Concept Alignment）：把内部表征绑定到人类概念

概念是人类思维的基本单位，因此把模型的中间表征对齐到人类可理解的概念，往往能给出最自然的解释。概念瓶颈模型（CBMs）在中间层强制预测一组人类定义的概念，再仅基于这些概念做最终预测；CB-LLM 把这一思路搬到 LLM 上，靠混合瓶颈加对抗训练在引入瓶颈的同时保住性能；Label-free CBM 借助 CLIP 自动发现概念，绕开人工标注；Codebook Features 则用向量量化得到离散化的概念编码。主要隐患是概念定义通常需要领域专家，而混合瓶颈中的残差通道可能泄露信息、绕过瓶颈，从而削弱解释的保真度。

3. 表征可分解性（Representational Decomposability）：在表征层面拆出独立可读的分量

这一范式不改动整体架构，只在表征空间里引入分解结构。Backpack 语言模型为每个词学习多个"含义向量"（sense vectors），再用上下文权重加权组合，于是可以追踪某个词在当前语境下究竟激活了哪一个含义；CoCoMix 则在训练中预测连续概念并把它们混合进表征，使概念级别的信息在整个前向过程中保持可追溯。它的好处是改动局部、兼容现有架构，代价是 Backpack 这类含义向量机制会带来额外的推理开销。

损失函数 / 训练策略¶

本文为综述，不涉及具体训练。但它总结了各范式的训练成本特征：功能透明性和概念对齐方法训练成本低-中，显式模块化（MoE）方法成本中-高，潜在稀疏归纳（如 \(L_0\) 正则化）成本极高。

实验关键数据¶

主实验¶

综合对比表（节选自 Table 1）：

方法类别	代表方法	可解释性来源	训练成本	推理成本	性能影响
功能透明性	KANs, B-cos LMs	形状函数/线性解释	中-高	中-高	≈ 基线
概念对齐	CB-LLM, CBMs	概念分数	高	低	↓ 或 ≈
表征可分解	Backpack, CoCoMix	含义向量/连续概念	中	高	↓ 或 ≈
显式模块化	MoE-X, MONET	稀疏专家/单义专家	低-高	低-中	≈ 或 ↑
稀疏归纳	Weight-Sparse, GLU	稀疏电路/激活路径	极高/低	低	↓ 或 ≈

消融实验¶

各范式可解释性-性能 trade-off 对比：

范式	保真度	粒度	可扩展性	性能保持
功能透明性	最高	特征级	差	中
概念对齐	高	概念级	中	中
表征可分解	中	词/概念级	中	中
显式模块化	中	专家/路由级	好	好
稀疏归纳	中-高	电路/神经元级	好	中

关键发现¶

显式模块化（MoE 类方法）在可扩展性和性能保持方面最有优势，是目前最有前景的范式
功能透明性方法保真度最高但可扩展性最差，难以直接应用于数十亿参数的 LLM
概念对齐方法依赖人工概念定义，CB-LLM 开始探索自动概念发现但仍处于早期
\(L_0\) 正则化产生的权重稀疏模型虽然电路可解释，但训练成本极高（约 3x 标准训练）
GLU/SwiGLU 是"免费"的稀疏归纳——几乎所有现代 LLM 已在使用，但其可解释性潜力尚未被充分挖掘

亮点与洞察¶

五范式分类框架非常清晰实用——将分散的文献统一在共同的设计原则下，便于研究者定位自己的工作和发现研究空白
"可解释性不一定牺牲性能"的论证有力——MoE-X、B-cos LMs 等方法表明，精心设计的归纳偏置可以在保持性能的同时提供可解释性
跨范式组合的潜力被明确指出——例如将概念对齐与显式模块化结合（概念瓶颈 + MoE），或表征可分解与稀疏归纳结合，开辟了广阔的研究空间

局限与展望¶

大部分内在可解释方法仅在中小规模模型上验证，是否能扩展到百亿/千亿参数 LLM 尚不确定
缺乏统一的可解释性评估指标——不同方法的"可解释性"定义和衡量标准不一致
对多模态大模型的内在可解释性研究几乎空白
未来方向包括：可解释性与安全对齐的结合、可解释的推理链路追踪、动态稀疏激活的可解释性分析

评分¶

新颖性: ⭐⭐⭐⭐ 五范式分类框架是新贡献，但综述本身不提出新方法
实验充分度: ⭐⭐⭐ 综述论文，无原创实验，但 Table 1 的对比整理很有参考价值
写作质量: ⭐⭐⭐⭐⭐ 分类清晰，覆盖全面，适合作为该领域的入门指南
价值: ⭐⭐⭐⭐ 为快速增长的内在可解释性领域提供了急需的结构化框架