Revitalizing Black-Box Interpretability: Actionable Interpretability for LLMs via Proxy Models¶

会议: ACL 2026
arXiv: 2505.12509
代码: https://github.com/outerform/Large-Model-Explanation-Benchmark
领域: 可解释性 / LLM 优化
关键词: 模型无关解释, 代理模型, 黑盒可解释性, Prompt 压缩, 特征归因

一句话总结¶

本文提出一种基于代理模型的黑盒可解释性框架，利用廉价小模型近似昂贵大模型的局部决策边界来生成 LIME/SHAP 解释，通过统计筛选-应用（screen-and-apply）机制确保可靠性，代理解释在保持超过 90% 保真度的同时将成本降低 88.2%，并成功用于 Prompt 压缩和中毒样本移除等下游优化任务。

研究背景与动机¶

领域现状：后验解释（post-hoc explanation）不仅是透明性工具，更是模型优化的驱动器（如 prompt 调试和数据清洗）。然而，闭源模型（如 GPT-4o、Google Gemini）阻断了对内部表示的访问，使模型无关方法（如 LIME、SHAP）成为唯一选择。但这些方法依赖大量扰动采样——生成单个 LIME 解释通常需要 1000 次查询，在验证集（如 50 个样本）上生成解释需要 50,000 次查询，花费超过 $100。

现有痛点：(1) 成本-效用困境：生成解释的前期成本超过了优化任务本身的潜在收益，使这些强大的工具无法实际使用；(2) 现有加速方法（如摊销解释器、特征数缩减）与本文方法正交，但未利用 LLM 间的同质性；(3) 白盒解释方法需要访问模型内部表示，不适用于闭源模型。

核心矛盾：模型无关解释在理论上可以指导 LLM 优化，但其对昂贵模型的大量查询需求使其在实践中不可用——形成了"解释成本高于优化收益"的根本效用困境。

本文目标：(1) 提出经济可行的代理解释框架，用廉价模型替代昂贵模型生成解释；(2) 通过统计验证机制确保代理解释的可靠性；(3) 展示代理解释在下游优化任务中的实际效用。

切入角度：基于 LLM 间的同质性（homogeneity）——不同 LLM 在相似输入上倾向于表现出相似的行为，这意味着小模型可以在局部近似大模型的决策边界（"以小见大"）。

核心 idea：用廉价的本地/开源模型作为代理生成扰动式解释，通过两层统计筛选（任务级 + 实例级）确保只在代理解释可靠时才部署，不可靠时回退到昂贵模型。

方法详解¶

整体框架¶

本文要解决的是"生成解释比优化收益还贵"的困境：给闭源大模型做一次 LIME 解释要上千次查询、几十个样本就烧掉上百美元。其思路是用廉价小模型当代理来近似昂贵大模型的局部决策边界，从而代生成解释。但小模型未必处处对齐，因此整套框架是一个"先筛选、再应用"的流程——先在部署前统计验证代理解释是否够保真，再对通过验证的实例用代理生成解释、对不通过的实例回退到昂贵 oracle。筛选本身又分离线的任务级和在线的实例级两层，输入是待解释样本，输出是一份在可靠性有统计保障下、成本大幅压低的解释。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["待解释样本 + 目标模型 f / 代理模型 f'"] --> B["任务级筛选（离线）<br/>顺序配对 t 检验：代理保真度 ≥ 0.9·oracle ？"]
    B -->|未通过| Z["代理弃用<br/>全部回退 oracle 解释"]
    B -->|通过，放行代理| C["实例级筛选（在线）<br/>检验 f(x) = f'(x) 预测是否一致"]
    C -->|预测一致| D["代理生成解释<br/>本地小模型跑 LIME / SHAP"]
    C -->|预测不一致| E["回退 oracle 生成解释"]
    D --> F["输出解释<br/>代理-回退混合，按成本降低比 CRR 核算节省"]
    E --> F
    Z --> F

关键设计¶

1. 任务级筛选：用顺序假设检验给整个数据集发"准入证"

盲目把小模型套上去存在系统性对齐不良的风险，所以在动用代理前，本文先一次性评估代理模型 $f'$ 能否在整个任务 $\mathbb{D}$ 上为目标模型 $f$ 提供足够保真的解释。具体用顺序单侧配对 $t$ 检验，对每个样本计算配对差异 $d_i = q_{\text{proxy}}(\mathbf{x}_i) - \tau \cdot q_{\text{oracle}}(\mathbf{x}_i)$，检验代理保真度是否达到 oracle 的 $\tau=0.9$ 倍，在 $H_0: \mu_d < 0$ 对 $H_1: \mu_d \geq 0$ 之间以 $1-\delta=0.99$ 的置信度判定。算出置信区间后，若整个区间大于零就接受 $H_1$ 放行该代理，否则继续采样直到最大样本数 $N=50$。这道离线安全阀确保只有平均足够保真的代理才被部署。

2. 实例级筛选：用预测一致性做逐样本的在线安全阀

任务级通过不代表每个样本都安全，于是运行时再加一层逐实例校验：$s_{\text{inst}}(\mathbf{x}; f, f') = \mathbf{1}[f(\mathbf{x}) = f'(\mathbf{x})]$，只有代理和目标模型在当前输入上预测一致时才采用代理解释。这背后有两层道理：一是局部解释本就是为模型当前的预测设计的，两模型预测不同时代理解释无从对应；二是预测分歧本身就暗示二者在 $\mathbf{x}$ 附近的局部决策行为不同，代理解释更可能失真。一旦不一致就回退到 oracle，把保真度兜住。

3. 代理-回退混合与成本核算：把节约量做成可量化指标

最终落到成本上，本文用成本降低比 $\text{CRR} = \frac{C_{\text{oracle}}}{C_{\text{proxy}} + C_{\text{fallback}} + C_{\text{screen}}}$ 来度量收益，分母三项分别是对一致实例的代理解释成本 $C_{\text{proxy}}$、对不一致实例回退 oracle 的成本 $C_{\text{fallback}}$、以及筛选成本 $C_{\text{screen}}$。由于代理可以是本地运行的开源模型，$C_{\text{proxy}}$ 可被压到接近零，于是"代理为主、回退兜底"的混合策略在保住保真度的前提下把整体成本最大化地省下来。

实验设置¶

本文不涉及模型训练。解释直接复用现成的 LIME 与 Kernel SHAP，每个方法用 1000 个扰动样本、其余超参取默认值。评测覆盖 12 个 LLM，包括 GPT-4o 系列、DeepSeek V3、7 个 Qwen 2.5 模型和 2 个 Llama 3.1 模型。

实验关键数据¶

主实验¶

成本降低比（CRR）——用代理模型解释昂贵 LLM

目标模型	CRR 类型	SST	MMLU	NQ
GPT-4o	CRR_max (API)	10.33	4.84	7.41
GPT-4o	CRR_local	14.17	5.62	10.53
DeepSeek V3	CRR_local	13.31	5.32	8.33
Qwen 2.5 72B	CRR_local	16.25	6.07	9.09

筛选步骤可靠性

指标	LIME (SST/MMLU/NQ)	Kernel SHAP (SST/MMLU/NQ)
Precision	100.0 / 99.4 / 94.1	100.0 / 100.0 / 100.0
Recall	80.2 / 77.6 / 76.1	96.3 / 97.2 / 96.2
F1	89.0 / 87.2 / 84.2	98.1 / 98.5 / 98.0

消融实验¶

Prompt 压缩比较（GPT-4o 上不同方法的压缩率 %）

方法	MMLU-Chem	MMLU-CS	HellaSwag	GSM8K	PIQA
Random	29.0	35.6	58.8	25.3	54.3
AttnComp	34.5	39.1	64.3	30.2	60.2
LLMLingua	38.7	38.3	62.7	28.9	58.7
Proxy Exp.	41.0	43.0	70.1	35.5	64.5
Oracle Exp.	49.2	50.2	75.5	37.2	69.2

中毒样本移除（GPT-4o 准确率 %）

任务	Oracle Exp.	Proxy Exp.	Random deletion
SST	94.2	94.0	87.1
HellaSwag	93.7	93.5	88.4
PIQA	91.5	90.7	79.6

关键发现¶

对最昂贵的 GPT-4o，代理解释最多可节省 88% 的成本（CRR_max 达到 14.17），同时保持超过 90% 的保真度
筛选步骤平均精确率达 98.9%，极少将不保真的代理标记为可用；即使罕见的假阳性，实际代理保真度仍超过 89%
代理解释在 Prompt 压缩中达到 oracle 的 91.7% 性能，显著优于随机删除和 LLMLingua/AttnComp 等 SOTA 方法
代理解释能准确识别和移除中毒样本，使 GPT-4o 准确率从 <80% 恢复至 94%，与 oracle 效果几乎一致
跨模型解释可迁移性在不同任务和数据集上保持一致，Qwen 7B/14B 对 GPT-4o 均能达到超过 90% 保真度

亮点与洞察¶

将 LLM 同质性从一个被动观察转化为主动利用的工具——不同 LLM 的局部决策边界相似性成为节约解释成本的基础
screen-and-apply 的双层筛选机制兼顾安全性和成本效率：任务级筛选一次性过滤不合格代理，实例级筛选提供逐样本安全阀
将可解释性从被动观察工具转变为主动优化原语（prompt 压缩、数据清洗），拓展了解释方法的应用边界

局限与展望¶

聚焦于扰动式特征归因方法（LIME、SHAP），对其他解释技术的适用性未探索
在需要极端推理能力的场景中（如复杂符号逻辑），小代理与大 oracle 的对齐可能减弱，此时框架会回退到 oracle，降低成本节约幅度
未探索通过轻量微调来对齐代理模型与 oracle 的方向
解释本身的双重用途风险——同样的工具可能被用于对抗性攻击或生成误导性解释

评分¶

新颖性: ⭐⭐⭐⭐ 利用 LLM 同质性构建代理解释框架是新颖视角，统计筛选机制设计严谨
实验充分度: ⭐⭐⭐⭐⭐ 12 个 LLM、7 个数据集、两种解释方法、两种下游任务，覆盖极为全面
写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰，统计框架严谨，实验组织条理分明
价值: ⭐⭐⭐⭐⭐ 使黑盒可解释性从"理论可行但实践不可用"变为"经济可行且实际有用"，开源基准数据集有长期价值