The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions¶

会议: ICML2026
arXiv: 2606.14466
代码: https://github.com/cncPomper/Audio-XAI
领域: 可解释性 / XAI 安全 / 音频深伪检测
关键词: 归因图操纵, 心理声学掩蔽, 对抗扰动, 音频深伪, 可解释性脆弱性

一句话总结¶

作者把"解释操纵攻击"从视觉迁移到音频深伪检测，提出一个用心理声学掩蔽阈值约束的优化框架，能在完全听不见、且不改变模型最终判定的前提下系统性地篡改 Grad-CAM / LRP 的归因热力图，证明音频模型的"解释"在安全意义上是脆弱的。

研究背景与动机¶

领域现状：生成模型让合成音频泛滥，音频深伪检测变得关键。为了让人信任这些检测器，XAI（Grad-CAM、LRP 等事后归因方法）被用来高亮"驱动判定的声学伪迹"，给出可视化解释。

现有痛点：归因图的脆弱性在视觉领域已被反复证明（解释可被操纵），但音频领域几乎没人研究。更糟的是，视觉攻击用 \(L_p\) 范数衡量扰动代价，而 \(L_p\) 与人耳听觉感知根本不相关——一个 \(L_p\) 很小的扰动在音频里可能清晰可闻，攻击就失去意义。

核心矛盾：音频上一次"有效"的解释操纵攻击，必须同时满足三个互相拉扯的约束——(1) 把归因图改得面目全非；(2) 扰动对人耳不可闻；(3) 模型最终的深伪判定不变。三者缺一，攻击要么无意义、要么暴露、要么改变了语义。现有工作没有把这三者用领域专属的感知约束统一起来。

本文目标：检验音频事后解释方法在"听不见的掩蔽扰动"下是否稳定——XAI 给出的解释到底是对数据的稳健诠释，还是能被从分类决策边界上解耦出去。

切入角度：作者引入心理声学掩蔽（psychoacoustic masking）——人耳在强信号附近存在掩蔽效应，某些频段的能量低于掩蔽阈值就听不见。把这个阈值作为扰动预算，就能在"听不见"的硬约束下尽量扰乱归因。

核心 idea：设计一个三项损失的优化框架，用动态心理声学掩蔽阈值替代 \(L_p\) 约束，在保持预测、保持音质的同时最大化归因图位移；并提出一个连续的 Audio Fragility Score 来量化这种"稳定条件下的脆弱性"。

方法详解¶

整体框架¶

输入是一段音频（时频谱图表示）和一个待解释的深伪检测器；输出是一个加了不可闻扰动 \(\delta\) 的对抗音频，使其归因热力图被大幅改写、但分类标签和音质都不变。整条流程是：选定要攻击的事后解释方法（Grad-CAM / LRP）→ 在三种目标模型（VGGish / AST / SpecTTTra）上 → 用三项损失的优化器搜出扰动 \(\delta\) → 用一组领域专属感知指标和归因对齐指标评估"攻击是否既隐蔽又成功"，并用 Audio Fragility Score 汇总。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["音频谱图 x + 深伪检测器"] --> B["事后归因方法<br/>Grad-CAM / LRP"]
    B --> C["心理声学优化框架<br/>三项损失搜扰动 δ"]
    C -->|二阶梯度 Adam| D["对抗音频 x+δ<br/>掩蔽阈值内不可闻"]
    D --> E["归因图被改写<br/>但预测/音质不变"]
    E --> F["Audio Fragility Score<br/>稳定脆弱性量化"]
    F --> G["跨架构脆弱性排名<br/>AST 最脆 / SpecTTTra 最稳"]

关键设计¶

1. 心理声学掩蔽损失：用"听不见"替代 \(L_p\) 作为扰动预算

针对"\(L_p\) 与听觉感知脱节"这个痛点，作者把扰动约束直接建在人耳掩蔽阈值上。总损失为三项加权：

\[\mathcal{L}(\delta)=\mathcal{L}_{explain}(\delta)+\lambda_{aud}\mathcal{L}_{audibility}(\delta)+\lambda_{pred}\mathcal{L}_{pred\_preserve}(\delta)\]

其中可闻度惩罚项是核心创新：

\[\mathcal{L}_{audibility}(\delta)=\mathbb{E}\big[\max(0,\,20\log_{10}|\mathcal{F}(\delta)|-T(x))^2\big]\]

\(T(x)\) 是从干净输入预先算好的静态掩蔽阈值。这一项只惩罚超出人耳感知阈值的那部分扰动频谱能量——低于阈值的扰动"白送"，不计代价。这样优化器就被引导去那些"听不见"的频段塞扰动，从机制上保证隐蔽性。配合波形幅度硬约束 \(\delta\in[-\varepsilon,\varepsilon]\) 双重兜底。

2. 解释位移项 + 预测保持项：在"改解释"和"不改判定"之间硬拉开

\(\mathcal{L}_{explain}\) 最小化原始与扰动后归因图的余弦相似度，逼着热力图发生大位移；\(\mathcal{L}_{pred\_preserve}\) 是一个 margin-based hinge loss，惩罚任何改变原始预测的扰动。这两项一推一拉，正是攻击的本质——把解释从决策边界上解耦：让模型"还是判它是深伪"，但"给出的理由"已经被改写。由于攻击归因机制需要对梯度再求导（二阶导），作者用 Adam 优化整个损失，而非标准的 sign-based PGD。论文还把这套框架与两个 baseline 对比：标准 \(L_\infty\)-PGD（只压归因相似度、不管音质）和从视觉-语言模型迁移来的 X-Shift（把相关性强行推到一个无关目标区 \(M_{target}\)）。

3. Audio Fragility Score：连续度量"稳定条件下的可操纵性"

二值的攻击成功率说不清"在保持预测+保持音质的前提下，解释被挪动了多少"。作者定义连续指标 \(AFS^{stable}\)：

\[AFS^{stable}_i=\Big(1-\frac{C_i+T_i}{2}\Big)\mathbf{1}[\hat{y}^{orig}_i=\hat{y}^{adv}_i]\,Q_i\]

第一项 \(1-\frac{C_i+T_i}{2}\) 用余弦相似度 \(C_i\) 和 Top-10 重叠 \(T_i\) 的均值衡量归因位移幅度（挪得越多越大）；指示函数 \(\mathbf{1}[\cdot]\) 是硬闸门——一旦预测类别变了就直接归零；\(Q_i\in[0,1]\) 是归一化的感知音质分。三者相乘：\(AFS^{stable}\to 1\) 表示"既隐蔽又成功"的攻击，\(\to 0\) 表示要么没挪动解释、要么改了预测、要么音质崩了。这个指标把"攻击有效"的三个条件压进一个连续数，使跨模型/跨攻击的脆弱性可以统一排名。

实验关键数据¶

主实验¶

在 SONICS 深伪数据集、随机采 100 条音频上，对比三种攻击的感知音质（中位数，越高越隐蔽）：

模型	攻击	PESQ ↑	ViSQOL ↑	CDPAM ↑
AST	Psychoacoustic（本文）	4.06	4.64	0.989
AST	PGD	2.77	3.80	0.858
AST	X-Shift	3.87	4.46	0.950
VGGish	Psychoacoustic（本文）	4.43	4.89	0.995
VGGish	PGD	2.84	3.86	0.842

无约束的 PGD 把音质打到 PESQ≈2.8、引入明显可闻伪迹；本文心理声学框架把噪声压在掩蔽阈值内，保持 ViSQOL>4.1、CDPAM≥0.98，在听不见的前提下仍能大幅改写解释。

消融 / 鲁棒性排名¶

按 \(AFS^{stable}\) 把"模型×攻击"组合排名（rank 越低越易被操纵，即越脆弱）：

配置	中位 Rank	平均 Rank (±SD)	含义
SpecTTTra	8.0	7.83 ± 0.48	最抗操纵
VGGish	4.5	4.17 ± 0.95	中等
AST	3.0	3.00 ± 0.58	最脆弱
Psychoacoustic（本文攻击）	3.0	4.17 ± 1.28	攻击侧
PGD	5.5	5.00 ± 0.68	攻击侧

关键发现¶

架构决定脆弱性：基于 token 的 AST 最易被操纵（attention 图容易被定向引导），而 SpecTTTra 靠建模长程时序依赖"稀释"了受约束的对抗噪声，最抗操纵；PCA 分析显示注意力模型在归因空间里呈有方向的平滑位移，卷积模型则更多是方差收缩/聚类压缩而非被定向引导。
声学纹理决定攻击预算：把样本按 \(AFS^{stable}\) 排出最易/最难攻击的 Top-10，发现"易攻击"样本谱带宽、过零率、高频能量都更高（摇滚/电子乐这类"密集嘈杂"纹理给优化器更大的掩蔽预算）；"难攻击"样本是高动态范围、频繁静默的稀疏音频（古典/原声乐），严格的感知约束严重限制了可用扰动。
Grad-CAM 与 LRP 互补且都被攻破：LRP 给出高分辨率逐帧归因（集中在低频声学特征），Grad-CAM 把这些特征聚合成宏观时间窗；攻击同时利用两层抽象——在时间线上注入周期性像素级扰动（影响 LRP），从而平移模型的全局注意力窗口（影响 Grad-CAM）。

亮点与洞察¶

把 \(L_p\) 换成心理声学掩蔽阈值是本文最关键的"啊哈"点：它让攻击的"隐蔽性"对齐到真正的人耳感知，而不是数学范数，使"听不见的解释操纵"在音频域第一次落地。
\(AFS^{stable}\) 的硬闸门设计很巧：用指示函数把"预测一变就归零"写进指标，强制只奖励"判定不变下的解释位移"，干净地刻画了"稳定脆弱性"这个概念。
可迁移的诊断视角：把"解释能否被从决策边界解耦"作为衡量可解释方法可信度的探针——这个思路可迁移到任何高风险检测系统（语音反欺诈、医疗音频等）。
安全警示有实操价值：作者直接给出"哪类架构（attention）/哪类音频（密集宽带）更危险"的可操作结论，对部署方做风险评估有用。

局限与展望¶

掩蔽阈值是静态的：\(T(x)\) 从干净输入预算且固定，未随扰动动态更新，可能高估或低估真实可闻度。
评估规模有限：每模型仅随机采 100 条样本，且只在 SONICS 一个数据集、三个模型上验证，结论的普适性需更大规模检验。
只攻两类事后方法：Grad-CAM 和 LRP，未覆盖 SHAP、积分梯度等其它归因家族，"脆弱性是否普遍"仍待补全。
缺防御侧：论文只证明了攻击可行，没给出与分类器决策边界"数学绑定"的稳健解释方法——这正是作者点名的未来方向。
双刃剑：攻击机制本身可被滥用来掩盖模型行为，作者在 Impact Statement 里明确呼吁配套防御性使用规范。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把感知约束的解释操纵攻击落地到音频深伪检测，心理声学掩蔽损失 + AFS 指标都是新设计
实验充分度: ⭐⭐⭐ 覆盖 3 架构 × 3 攻击 + 多个感知指标，但每模型仅 100 样本、单数据集，规模偏小
写作质量: ⭐⭐⭐⭐ 动机清晰、指标定义严谨，攻击机制与架构/声学依赖分析到位
价值: ⭐⭐⭐⭐ 给"用归因图审计音频检测器"敲了警钟，安全与可解释性社区都该重视