Faithfulness Under the Distribution: A New Look at Attribution Evaluation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=FF14TqjU3e
代码: https://github.com/LMBTough/FUD
领域: 可解释性 / 归因评估 (Attribution Evaluation)
关键词: 归因方法, 忠实度评估, 分布外问题 (OOD), 得分扩散模型, Langevin 动力学

一句话总结¶

现有归因评估指标（Insertion/Deletion、Infidelity）靠"置零/遮挡"来删特征，会把样本推出数据分布、引入虚假信息；本文提出 FUD，用得分扩散模型把被遮挡区域重建回数据流形上的"分布内"样本，给出更可信的归因忠实度评估。

研究背景与动机¶

领域现状：归因方法（Integrated Gradients、AGI 等）把模型预测映射回输入像素，是黑盒可解释性的主力工具。但不同归因方法对同一预测常给出迥异的解释图，于是需要"评估归因质量"的指标，忠实度（faithfulness） 成为核心标准——高忠实度意味着被标为重要的区域一旦移除，模型输出会显著变化。
现有痛点：主流评估指标（AEM）几乎都建立在"删特征"操作上。Insertion/Deletion 按归因分高低逐步插入/删除像素并记录置信度变化；Infidelity 用加噪扰动算归因值与输出变化的均方误差；Sensitivity-N 随机遮挡 top-N 特征看输出相关性。它们都隐含一个有缺陷的假设："删除一个特征 = 把它置零"。
核心矛盾：在图像里，0 往往代表黑色这种具体语义，置零不是删信息而是注入新信息——区分黑猫白猫时把区域涂黑反而强化了"黑猫"证据，置信度不降反升，与"删重要特征应让模型失效"的预期直接矛盾。更糟的是，半张图被涂黑的样本根本不会在真实数据中出现：模型只对训练分布 \(P(x)\) 负责，用分布外（OOD）的样本行为去评判分布内的归因，置信度曲线会出现不平滑、删重要特征反而升高的反常现象。本文用 Energy OOD 检测器和图像质量指标实证了这些 OOD 缺陷。
本文目标：构造既留在数据流形上、又精确保留待评估特征、且不引入支持目标类的新证据的评估样本。
核心 idea（分布感知重建）：借助从真实分布学到的得分函数 \(\nabla_x \log P(x)\)，用 Langevin 动力学把被遮挡产生的 OOD 样本"拉回"数据流形，同时用硬掩码固定保留区、用分类器梯度的反向项阻止生成新类证据——无需任何额外训练，直接套用现成扩散模型即可。

方法详解¶

整体框架¶

FUD 把"删特征做归因评估"重写成一个带约束的扩散式 inpainting：从"保留区=原图、遮挡区=噪声"的初始样本出发，用得分网络逐步去噪把样本拉回数据流形，期间硬性锁死保留像素，并在样本接近流形后加入"禁止生成目标类新证据"的偏置项；最终用 deletion 式协议（逐步删去归因认为不重要的特征）记录置信度衰减，衰减越平滑、保留同比例重要特征时置信度越高，说明归因越忠实。

flowchart LR
    A[原图 x + 归因图 A] --> B["初始化 x_T = M⊙x + (1-M)⊙ε<br/>保留区=原图, 遮挡区=噪声"]
    B --> C["Langevin 更新<br/>score 先验 s_θ 把样本拉回流形"]
    C --> D{是否接近<br/>数据流形?}
    D -- 否(前~5%步) --> C
    D -- 是 --> E["加入 -∇log P(y|x) 项<br/>禁止生成目标类新证据"]
    E --> F["硬掩码: 保留区 x_i := x̃_i 固定不变"]
    F --> G[分布内评估样本]
    G --> H["deletion 协议: 多档遮挡比例<br/>记录置信度衰减"]

关键设计¶

1. 用得分函数 + Langevin 动力学把样本拉回分布。 FUD 不直接构造 \(\tilde x = M\odot x+(1-M)\odot 0\) 这种 OOD 样本，而是先初始化 \(x_T = M\odot x + (1-M)\odot\epsilon,\ \epsilon\sim\mathcal N(0,I)\)——保留区沿用原图、遮挡区填噪声，再用 Langevin 更新逐步把它推向高密度区域：\(x_{t-1} = x_t + c\,\nabla_{x_t}\log P(x_t) + \sqrt{2c}\,\epsilon\)。真实得分 \(\nabla_{x_t}\log P(x_t)\) 由一个按标准 SGM 目标 \(\theta^*=\arg\min_\theta\sum_t\lambda(t)\,\mathbb E[\|s_\theta(x_t)-\nabla_{x_t}\log P_{\sigma_t}(x_t)\|_2^2]\) 训练好的得分网络 \(s_\theta\) 近似（也可用 DDPM 学）。这一步保证中间样本始终往数据流形走，而不是停在被涂黑的"人造"图像上。

2. 三项合一的目标分布：先验 + 反类梯度 + 硬掩码。 FUD 真正想采样的目标分布是 \(P(x_t\mid z,\tilde x,M)\propto P(x_t)\,P(z\mid x_t)\,P(\tilde x\mid x_t,M)\)，其对数梯度拆成三项：\(\nabla_{x_t}\log P(x_t)-\nabla_{x_t}\log P(y\mid x_t)+\nabla_{x_t}\log P(\tilde x\mid x_t,M)\)。第一项是图像先验（由 \(s_\theta\) 提供）；第二项是被评估分类器的输入梯度，引入"禁止生成新类证据"的事件 \(z\)，定义为梯度与 \(\nabla P(y\mid x_t)\) 相反（\(\nabla_{x_t}\tilde P(y\mid x_t)=-\nabla_{x_t}P(y\mid x_t)\)），防止重建过程偷偷往图里补上支持目标类的内容；第三项用 \(P(\tilde x\mid x_t,M)=\prod_{M_i=1}\delta(x_t^i-\tilde x_i)\) 把保留像素硬性锁死，实现上直接令 \(M_i=1\) 处 \(x_t^i:=\tilde x_i\)。三项融进同一个 Langevin 更新，既保真又不污染评估信号。

3. 延迟激活反类梯度（warm-up 调度）。 初始样本 \(x_T\) 远离流形，此时分类器在它上面的梯度 \(\nabla\log P(y\mid x_t)\) 毫无意义（分类器只在分布内可靠）。若强行用就得像某些 SGM 方法那样重训分类器以适应噪声样本，但那会牺牲分类性能、也无法评估任意预训练模型。FUD 的做法是先只用先验 + 掩码约束采样 \(P(x_t\mid\tilde x,M)\propto P(x_t)P(\tilde x\mid x_t,M)\)，把样本拉进分布内（实验显示约 5% 剩余步数后样本即进入分布内区域，且此时尚未生成接近原类的新特征），再切回完整目标分布 \(P(x_t\mid z,\tilde x,M)\) 继续采样。这一调度让分类器梯度只在"它说话算数"时才参与。

4. 只保留"留重要特征"方向 + 硬掩码优于软掩码。 FUD 放弃 insertion/deletion 双分数，只采用 deletion 式协议：逐档删不重要特征、用 FUD 生成对应样本、追踪置信度——归因越准，保留同比例特征时置信度越高。不评"只留不重要特征"方向，因为留几块背景草地对黑白猫分类毫无信息量，且 \(-\nabla\log P(y\mid x_t)\) 项会放大对抗效应、让指标不稳。掩码约束上，默认用硬约束（\(\delta\) 函数锁死保留像素）而非软约束（给保留区加高斯噪声 \(\tilde x\sim\mathcal N(M\odot x_t,\sigma^2 I)\)，得分 \(\frac{M\odot(\tilde x-x_t)}{\sigma^2}\)）——软约束会在保留区引入不连贯噪声、显著降低保真度（IG 50% 遮挡下 PSNR/SSIM 34.03/0.948 vs 软的 27.63/0.830）。

实验关键数据¶

设置：ResNet-50 与 ViT-B/16（ImageNet-1k 冻结权重）；ImageNet 验证集随机 1000 张；11 个归因 baseline（IG/GIG/BIG/SM/AGI/MFABA/AttExplore/ISA/EG/FIG/LA）；对比 INS/DEL、Sensitivity-N、Infidelity 三类指标。FUD 用无条件扩散生成器 256x256_diffusion_uncond.pt + 分类器引导（scale 4.0）。结果在 11×2×9=198 次运行上平均。

主实验：中间样本的 OOD 程度（用 Energy 检测器，值越接近 0.5 越"像分布内"）¶

评估指标	ResNet-50 AUROC ↓	ResNet-50 FPR95 ↑	ViT-B/16 AUROC ↓	ViT-B/16 FPR95 ↑
INS/DEL	0.8974	0.3603	0.8784	0.4761
Sensitivity-N	0.8773	0.5450	0.8781	0.5660
INFID	0.7801	0.7720	0.8181	0.7390
FUD (Ours)	0.6863	0.8317	0.6450	0.9404

FUD 的中间样本最难被 OOD 检测器识破（AUROC 最接近随机猜测 0.5），其余指标的样本则有明显 OOD 特征。

中间样本的感知/结构保真度（7 项图像质量指标平均）¶

评估指标	PSNR ↑	SSIM ↑	MS-SSIM ↑	FSIM ↑	GMSD ↓	HaarPSI ↑	VSI ↑
INS/DEL	10.49	0.27	0.48	0.58	0.271	0.292	0.780
Sensitivity-N	13.63	0.13	0.62	0.53	0.214	0.444	0.732
INFID	16.64	0.22	0.72	0.63	0.169	0.550	0.810
FUD (Ours)	25.20	0.75	0.78	0.86	0.124	0.663	0.946

FUD 的 PSNR 比次优（INFID）高 +8.6 dB，SSIM 提升约 0.53，失真指标 GMSD 降低 >25%。

消融：评估过程平滑度（Kendall's τ，越高越单调平滑）¶

模型	评估	FIG	GIG	IG	SM	MFABA	BIG
ResNet-50	INS/DEL	0.2006	0.2128	0.2176	0.2833	0.6774	0.6379
ResNet-50	FUD	0.8529	0.6845	0.6905	0.6728	0.9259	0.9129
ViT-B/16	INS/DEL	0.3767	0.4523	0.4615	0.6015	0.7406	0.7354
ViT-B/16	FUD	0.8654	0.7741	0.7803	0.7472	0.9206	0.9046

消融：硬 vs 软掩码约束（IG 50% 遮挡）¶

约束	PSNR ↑	SSIM ↑	MS-SSIM ↑	FSIM ↑	GMSD ↓
Hard (Ours)	34.03	0.948	0.985	0.970	0.0352
Soft	27.63	0.830	0.951	0.916	0.0811

关键发现¶

传统指标系统性产出 OOD 样本：INS/DEL/Sen-N/INFID 的中间样本极易被 OOD 检测器识别，置信度曲线不平滑甚至反常上升；FUD 样本统计上分布内、感知上也保真。
平滑度大幅提升：原本在 INS/DEL 下 τ≈0.22 的 IG/GIG 等梯度法，在 FUD 下升到 0.69–0.85，删特征时置信度单调下降，评估信号更可信。
FUD 给出"显著不同"的判断：作者强调 FUD 产生的归因排名与旧指标差异明显且更可靠，说明此前不少基于 OOD 样本的结论可能失真。

亮点与洞察¶

把"删特征"问题诊断得很透：明确区分了两类启发式错误——置零=注入新信息（黑猫例子非常直观）、被删样本是 OOD 假样本——并用 OOD 检测 + 图像质量两套客观证据坐实，而非仅靠直觉。
模型中心的 OOD 定义：OOD 是相对"被评估模型的流形"而言，而非人眼是否自然。这一立场和"评估原模型忠实度"的目标自洽，也解释了为何极端遮挡下 FUD 样本看着不直观但仍在流形上。
零额外训练即插即用：把目标分类器直接拼进现成得分函数，无需为噪声样本重训分类器，可评估任意预训练模型，工程上很友好。
三项分解 + warm-up 调度优雅地把"保真 / 不污染 / 锁保留区"三个约束统一进一个 Langevin 更新。

局限与展望¶

计算开销大：每个遮挡档位每张图都要跑扩散生成，单图需数秒，远慢于近乎瞬时的置零遮挡；虽可摊销得分网络训练成本，但大规模评估仍偏重。
依赖得分模型质量：评估忠实度的可信度被转嫁到扩散/得分模型对数据分布的拟合好坏上，分布建模不准会引入新偏差，论文未深入讨论这一替换风险。
只评 deletion 方向：放弃 insertion 方向虽有理由（对抗放大、信息量低），但也牺牲了一部分评估视角的完整性。
任务/模态范围有限：实验集中在 ImageNet 图像分类 + 两个 backbone，未覆盖检测、NLP、多模态等场景。
超参与引导尺度敏感性：分类器引导 scale、切换时机（~5% 步数）等是否稳健、跨数据集是否需重调，文中给的证据偏经验性。

评分¶

新颖性: ⭐⭐⭐⭐ — 把"评估归因"重新表述为"分布内受约束扩散重建"，并用反类梯度项防止信息污染，视角新颖且诊断深刻；扣分在核心组件（SGM/Langevin/分类器引导）均为现成。
实验充分度: ⭐⭐⭐⭐ — 2 模型 × 11 归因 × 9 遮挡档共 198 次运行，OOD 检测 + 7 项图像质量 + Kendall's τ 平滑度 + 硬/软掩码消融，证据链完整；但仅限 ImageNet 分类、缺跨模态与人类一致性验证。
写作质量: ⭐⭐⭐⭐ — 动机用黑白猫例子讲得清楚，推导分步呈现、图表规范；公式记号偶有小瑕疵。
价值: ⭐⭐⭐⭐ — 直接动摇了被广泛使用的 INS/DEL 等指标的可信度，并给出可复现的开源替代方案，对可解释性评估社区有实际影响；落地受限于计算开销。