跳转至

Towards Intrinsic Interpretability of Large Language Models: A Survey of Design Principles and Architectures

会议: ACL 2026
arXiv: 2604.16042
代码: 无
领域: 可解释性
关键词: 内在可解释性, 大语言模型, 设计范式分类, 模块化架构, 稀疏归纳

一句话总结

系统综述了 LLM 内在可解释性的最新进展,将现有方法分为五大设计范式(功能透明性、概念对齐、表征可分解性、显式模块化、潜在稀疏归纳),并讨论了开放挑战和未来方向。

研究背景与动机

领域现状:大语言模型在各类 NLP 任务上取得了显著成功,但其内部机制的不透明性(黑盒特性)阻碍了可信部署,尤其在医疗、法律等高风险领域。现有可解释 AI 综述主要聚焦于事后解释方法(post-hoc),如 LIME、SHAP、稀疏自编码器、因果干预等。

现有痛点:事后解释方法通过外部近似来解释已训练好的模型,存在"保真度鸿沟"——解释和模型的真实计算之间存在根本性偏差。即使是因果干预方法(如 ROME),虽然局部保真度更强,但其解释粒度过细,难以聚合为对模型整体行为的连贯理解。

核心矛盾:历史上,内在可解释的模型(如线性模型、决策树)在表达能力上远不及黑盒大模型,导致"可解释性 vs 性能"被视为不可调和的 trade-off。但近期研究表明,通过将模块化、稀疏性、解纠缠等归纳偏置嵌入现代架构,这一 trade-off 正在被打破。

本文目标:为内在可解释性方法提供统一的分类框架,系统梳理设计原则,明确各方法的优劣和适用场景,并指出未来研究方向。

切入角度:不同于事后解释综述从"工具"出发,本文从"设计原则"出发,关注如何从架构和训练过程中构建透明性。

核心 idea:将内在可解释性方法组织为五大设计范式,每个范式代表一种不同的"透明性来源"。

方法详解

整体框架

本文不从"事后解释工具"出发,而是以"透明性的来源"为主轴,把内在可解释方法组织成一套五范式的分类体系:功能透明性、概念对齐、表征可分解性、显式模块化、潜在稀疏归纳。这五个范式回答的是同一个问题的不同侧面——可解释性究竟应该嵌进计算过程本身、表征空间、还是网络结构里。下文以前三个范式为代表展开其设计原则(后两个范式归入实验对比表统一讨论),并在最后梳理各范式的训练成本谱系。

关键设计

1. 功能透明性(Functional Transparency):让每一步计算本身就可读

这是最直接的透明性来源——如果计算过程本身就是透明的,就不再需要任何外部近似工具去事后解释。代表方法包括广义加性模型(GAMs)及其扩展(GA2M、EBMs、GAMI-Net),它们用可加性约束把每个特征的贡献单独拆出来可视化;自解释神经网络(SENN)把预测分解为基础概念与对应的相关性分数;B-cos 网络通过权重-输入对齐变换让前向计算等价于一个线性解释;Kolmogorov-Arnold Networks(KANs)则用可学习的样条函数替换固定激活,使每条边上的形状函数都可读。代价是可加性约束限制了建模能力,而 KANs 能否扩展到大规模 LLM 也尚未得到验证。

2. 概念对齐(Concept Alignment):把内部表征绑定到人类概念

概念是人类思维的基本单位,因此把模型的中间表征对齐到人类可理解的概念,往往能给出最自然的解释。概念瓶颈模型(CBMs)在中间层强制预测一组人类定义的概念,再仅基于这些概念做最终预测;CB-LLM 把这一思路搬到 LLM 上,靠混合瓶颈加对抗训练在引入瓶颈的同时保住性能;Label-free CBM 借助 CLIP 自动发现概念,绕开人工标注;Codebook Features 则用向量量化得到离散化的概念编码。主要隐患是概念定义通常需要领域专家,而混合瓶颈中的残差通道可能泄露信息、绕过瓶颈,从而削弱解释的保真度。

3. 表征可分解性(Representational Decomposability):在表征层面拆出独立可读的分量

这一范式不改动整体架构,只在表征空间里引入分解结构。Backpack 语言模型为每个词学习多个"含义向量"(sense vectors),再用上下文权重加权组合,于是可以追踪某个词在当前语境下究竟激活了哪一个含义;CoCoMix 则在训练中预测连续概念并把它们混合进表征,使概念级别的信息在整个前向过程中保持可追溯。它的好处是改动局部、兼容现有架构,代价是 Backpack 这类含义向量机制会带来额外的推理开销。

损失函数 / 训练策略

本文为综述,不涉及具体训练。但它总结了各范式的训练成本特征:功能透明性和概念对齐方法训练成本低-中,显式模块化(MoE)方法成本中-高,潜在稀疏归纳(如 \(L_0\) 正则化)成本极高。

实验关键数据

主实验

综合对比表(节选自 Table 1):

方法类别 代表方法 可解释性来源 训练成本 推理成本 性能影响
功能透明性 KANs, B-cos LMs 形状函数/线性解释 中-高 中-高 ≈ 基线
概念对齐 CB-LLM, CBMs 概念分数 ↓ 或 ≈
表征可分解 Backpack, CoCoMix 含义向量/连续概念 ↓ 或 ≈
显式模块化 MoE-X, MONET 稀疏专家/单义专家 低-高 低-中 ≈ 或 ↑
稀疏归纳 Weight-Sparse, GLU 稀疏电路/激活路径 极高/低 ↓ 或 ≈

消融实验

各范式可解释性-性能 trade-off 对比:

范式 保真度 粒度 可扩展性 性能保持
功能透明性 最高 特征级
概念对齐 概念级
表征可分解 词/概念级
显式模块化 专家/路由级
稀疏归纳 中-高 电路/神经元级

关键发现

  • 显式模块化(MoE 类方法)在可扩展性和性能保持方面最有优势,是目前最有前景的范式
  • 功能透明性方法保真度最高但可扩展性最差,难以直接应用于数十亿参数的 LLM
  • 概念对齐方法依赖人工概念定义,CB-LLM 开始探索自动概念发现但仍处于早期
  • \(L_0\) 正则化产生的权重稀疏模型虽然电路可解释,但训练成本极高(约 3x 标准训练)
  • GLU/SwiGLU 是"免费"的稀疏归纳——几乎所有现代 LLM 已在使用,但其可解释性潜力尚未被充分挖掘

亮点与洞察

  • 五范式分类框架非常清晰实用——将分散的文献统一在共同的设计原则下,便于研究者定位自己的工作和发现研究空白
  • "可解释性不一定牺牲性能"的论证有力——MoE-X、B-cos LMs 等方法表明,精心设计的归纳偏置可以在保持性能的同时提供可解释性
  • 跨范式组合的潜力被明确指出——例如将概念对齐与显式模块化结合(概念瓶颈 + MoE),或表征可分解与稀疏归纳结合,开辟了广阔的研究空间

局限与展望

  • 大部分内在可解释方法仅在中小规模模型上验证,是否能扩展到百亿/千亿参数 LLM 尚不确定
  • 缺乏统一的可解释性评估指标——不同方法的"可解释性"定义和衡量标准不一致
  • 对多模态大模型的内在可解释性研究几乎空白
  • 未来方向包括:可解释性与安全对齐的结合、可解释的推理链路追踪、动态稀疏激活的可解释性分析

相关工作与启发

  • vs 事后解释综述(Madsen et al., 2022; Zhao et al., 2024): 这些综述聚焦于分析已训练模型的工具(如探针、注意力可视化),本文关注从设计层面构建透明性
  • vs 机制可解释性(Sharkey et al., 2025): 机制可解释性是事后方法中最接近内在可解释的方向,但仍是"逆向工程"而非"正向设计"

评分

  • 新颖性: ⭐⭐⭐⭐ 五范式分类框架是新贡献,但综述本身不提出新方法
  • 实验充分度: ⭐⭐⭐ 综述论文,无原创实验,但 Table 1 的对比整理很有参考价值
  • 写作质量: ⭐⭐⭐⭐⭐ 分类清晰,覆盖全面,适合作为该领域的入门指南
  • 价值: ⭐⭐⭐⭐ 为快速增长的内在可解释性领域提供了急需的结构化框架