Are Deep Speech Denoising Models Robust to Adversarial Noise?¶

会议: ICLR 2026
arXiv: 2503.11627
代码: GitHub（UMass Amherst + Dolby Labs）
领域: 图像复原
关键词: 对抗攻击, 语音去噪, 心理声学掩蔽, DNS, 对抗鲁棒性, PGD

一句话总结¶

首次系统性评估 4 款 SOTA 深度语音去噪（DNS）模型在对抗噪声下的鲁棒性：通过心理声学约束的 PGD 攻击生成人耳不可感知的对抗噪声，可令 Demucs、Full-SubNet+、FRCRN 和 MP-SENet 输出完全不可理解的 gibberish，实验覆盖多种声学条件和人类评估，同时揭示了目标攻击、通用扰动和跨模型迁移的局限性。

研究背景与动机¶

领域现状：深度语音去噪（DNS）模型（如 Demucs、Full-SubNet+、FRCRN、MP-SENet）在 PESQ/STOI 等客观指标上取得显著进展，被广泛部署在通信设备（手机、视频会议系统、助听器）。它们在标准条件下表现优秀，但对抗鲁棒性几乎未被研究。

现有痛点：(a) 图像领域的对抗鲁棒性研究已非常成熟，但语音去噪领域几乎空白——已有工作仅覆盖单一模型或单一攻击方式，且缺乏人类评估验证；(b) DNS 模型正被用于安全关键场景（助听器、紧急通信），若可被静默攻击则构成真实威胁；(c) 传统 Lp 范数约束在音频领域不足以保证不可感知性——人耳的频率掩蔽和时间掩蔽特性需要心理声学模型来建模。

核心矛盾：DNS 模型在标准 benchmark 上性能越来越好，但是否存在微小的、人耳听不到的声音扰动就能完全摧毁它们的去噪能力？

切入角度：借鉴 MP3 编码中的心理声学模型来约束对抗扰动的不可感知性，系统评估 4 款代表性 DNS 架构在多种声学条件（SNR、混响、OTA）下的脆弱程度。

核心 idea：用心理声学掩蔽约束的 PGD 攻击生成人耳不可感知但能让 SOTA DNS 模型输出 gibberish 的对抗噪声，并通过人类评估确认攻击效果。

方法详解¶

整体框架¶

这篇论文要回答一个安全问题：一段人耳完全听不出异常的微小声音扰动，能不能彻底摧毁 SOTA 语音去噪模型的去噪能力？为此它构造一个白盒攻击——干净语音 \(y\) 加环境噪声 \(b\) 时 DNS 模型 \(f\) 本应正常还原出干净语音，但在输入里再叠加一个对抗扰动 \(\delta\) 后，去噪输出 \(f(x+\delta)\) 就变成完全听不懂的 gibberish。整个攻击就是用投影梯度下降迭代求解这样一个 \(\delta\)，让它同时满足两个目标：一是 \(\delta\) 在人耳听感上不可感知（心理声学掩蔽约束），二是去噪输出的可懂度极低（STOI 趋近于 0）。下面三个设计分别对应"用什么当损失""怎么藏住扰动""怎么解出来"，第四点交代被攻击的 4 款模型为何有代表性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["干净语音 y + 背景噪声 b<br/>(模拟 OTA 时再过房间冲激 r*)"] --> B["叠加对抗扰动 δ<br/>得攻击输入 x+δ"]
    B --> C["受测 DNS 模型 f<br/>Demucs / FSN+ / FRCRN / MP-SENet"]
    C --> D["去噪输出 f(x+δ)"]
    D --> E["攻击目标：STOI 损失<br/>L = −STOI(f(x+δ), y)"]
    E -->|反向传播梯度| F["PGD 更新<br/>δ ← δ + α·sign(∇L)"]
    F --> G["投影 Π：STFT 幅度逐 bin<br/>裁剪到掩蔽阈值 θ − 12dB 之下"]
    G -->|迭代 5k–20k 步| B
    G --> H["输出：人耳不可感知的 δ<br/>令去噪结果变 gibberish"]

关键设计¶

1. 攻击目标：把 STOI 压到趋近 0，让"听不懂"变成可优化的损失

攻击要破坏的是"能不能听懂"，所以损失直接选短时客观可懂度（Short-Time Objective Intelligibility, STOI）而非音质指标。STOI 逐帧计算干净参考与去噪输出之间的归一化相关系数再取平均，攻击把它取负作为损失，用 PGD 梯度下降去优化扰动 \(\delta\)。之所以用 STOI 而不是 PESQ，是因为 STOI 与人类可懂度的相关性更高——PESQ 反映的是"好不好听"，STOI 反映的才是"能不能听懂"，最小化 STOI 等价于最大化语音的不可理解性。关键是 STOI 的计算是可微分的，梯度能一路反向传播回输入扰动，使得它可以直接当攻击目标。

2. 心理声学不可感知性约束：用 MP3 的掩蔽模型把扰动藏进人耳听不到的频段

传统对抗攻击常用的 \(L_\infty\) 范数约束在音频上并不合适——人耳在低频更敏感、在高频能容忍更大的扰动，一刀切的范数无法刻画这种差异。这里改用 ISO MPEG-1 Psychoacoustic Model 2（即 MP3 编码采用的标准心理声学模型）逐频率 bin 计算掩蔽阈值 \(T(k)\)，再额外减去 12 dB 安全偏移以确保充分不可感知，把扰动的功率谱密度约束在阈值之下：

\[\mathrm{PSD}(\delta, k) \le T(k) - 12\,\text{dB}\]

不仅如此，约束还纳入了前掩蔽（pre-masking，约 2 ms）和后掩蔽（post-masking，约 200 ms）的时间效应，在时间域上进一步放松约束以利用人耳的时间掩蔽特性。这样得到的约束集精确建模了频率掩蔽和时间掩蔽，比固定范数更贴合真实听感，也是攻击能"静默"的关键。

3. PGD 优化：梯度下降 + 投影到掩蔽阈值约束集

求解走的是标准投影梯度下降框架——每一步先沿梯度方向更新扰动 \(\delta \leftarrow \delta + \alpha \cdot \mathrm{sign}(\nabla_\delta \mathcal{L})\)（即压低 STOI），再用投影算子 \(\Pi\) 把更新后扰动的 STFT 频谱逐 bin 裁剪到掩蔽阈值以下，使其始终落在第 2 点定义的约束集 \(D(x)\) 内。迭代步数不按固定值定，而是按"让整套攻击在单张 L40S GPU 上跑约一小时"来卡——于是各模型不同：Demucs 与 FSN+ 各 20,000 步、MP-SENet 10,000 步、FRCRN 5,000 步。之所以统一算力预算而非统一步数，是因为作者把"发起攻击要花多少时间"也算进可攻击性里，给慢模型更多步数会掩盖它"算得慢"这一现实优势。无混响时投影就是直接裁剪、有闭式解；模拟 OTA 时扰动会被不可逆的房间冲激响应卷积，投影不再有闭式解，改用维纳反卷积 + 梯度下降近似求解。对 FSN+ 这种已知存在梯度爆炸的模型还需额外稳定化处理才能让优化收敛。

4. 受测的 4 款 DNS 架构：覆盖时域 / 频域 / 复数谱 / 幅相联合四类设计

选这 4 款是为了让结论不依赖某一种架构倾向：Demucs（Meta）是时域 U-Net + LSTM 的 encoder-decoder，参数量最大；Full-SubNet+（FSN+）是频域全带-子带网络，已知存在梯度爆炸问题（obfuscated gradient）；FRCRN（Alibaba）是频率递归 CRN，在复数谱上处理，参数量中等；MP-SENet 是同时预测幅度和相位的掩码增强网络，属于最新架构。四者分别代表了主流 DNS 的四类技术路线，因此"全部被攻破"才有普适意义。

评估设置¶

声学条件：5 种 SNR（70dB / 30dB / 10dB / 5dB / 0dB）乘以有无混响，外加模拟 OTA（over-the-air）传输，构成从理想到接近真实的完整谱系
人类评估：(a) 转录测试——让受试者听去噪输出并尝试转录，计算 WER，验证输出确实不可懂；(b) ABX 测试——给受试者三个音频让其辨别哪个是对抗信号，验证扰动确实不可感知
客观指标：STOI、PESQ、ViSQOL、SI-SDR 全面评估

实验关键数据¶

主实验——无目标攻击效果（70dB SNR, 无混响）¶

模型	攻击前 STOI	攻击后 STOI	攻击前 PESQ	攻击后 PESQ
Demucs	0.97	0.12	3.5	1.1
FSN+	0.96	0.35	3.3	1.3
FRCRN	0.97	0.08	3.5	1.0
MP-SENet	0.96	0.15	3.4	1.1

不同声学条件下的攻击效果¶

条件	Demucs STOI	FRCRN STOI	MP-SENet STOI	说明
70dB SNR, 无混响	0.12	0.08	0.15	最理想条件
10dB SNR, 无混响	0.15	0.11	0.18	中等噪声
5dB SNR + 混响	0.20	0.14	0.22	困难条件
模拟 OTA	0.25	0.18	0.28	最接近真实场景

人类评估结果¶

转录测试：攻击后去噪输出的 WER > 95%，受试者基本无法理解任何词汇内容，确认输出确实是 gibberish
ABX 不可感知性测试：受试者辨别对抗信号与干净信号的准确率仅约 55%（接近随机猜测 50%），确认扰动在人耳听感上不可感知
12dB 安全偏移的保守设置被实验验证为有效——比仅依靠掩蔽阈值更可靠

核心发现¶

所有 4 款 DNS 模型均可被攻破：STOI 从约 0.97 降至 0.08-0.35，输出变为完全不可理解的乱码
FSN+ 看似最"鲁棒"但实为假象：其较高的攻击后 STOI（0.35 vs 其他模型 0.08-0.15）源于梯度爆炸导致 PGD 优化困难（obfuscated gradient），而不是真正的鲁棒性——这是已知的脆弱防御机制，可被自适应攻击（如 Carlini et al.）绕过
模型大小与鲁棒性无关：Demucs 参数量最大但同样脆弱；FRCRN 参数量中等但最易攻破。关键因素是梯度流的稳定性而非模型容量
攻击跨声学条件泛化：从理想条件（70dB SNR 无混响）到困难条件（低 SNR + 混响）甚至模拟 OTA 场景，攻击均持续有效，只是效果程度略有下降

负面结果（同样重要的发现）¶

攻击类型	客观指标	主观评估	原因分析
目标攻击（使输出为特定语音）	部分成功	人类无法听出目标内容	语音感知高维且非线性，低级特征匹配不等于可懂度匹配
通用扰动（一个 delta 攻击所有输入）	失败	STOI 仅轻微下降	不同语音的频谱差异过大，心理声学约束集太小无法找到通用解
跨模型迁移攻击	基本不迁移	其他模型不受影响	不同架构的梯度方向差异大，白盒攻击高度依赖特定模型

防御探索¶

高斯噪声注入防御：在 DNS 输入端加小量高斯噪声可部分缓解攻击（STOI 从 0.08 恢复到约 0.5），但代价是正常使用时音质也显著下降——部分保护但不充分
对抗训练：论文指出值得探索但因 DNS 训练成本高而未深入实验
输入变换防御：随机化输入可能有帮助，但会引入额外延迟

亮点与洞察¶

心理声学掩蔽约束的精妙运用：直接复用 MP3 编码的 Psychoacoustic Model 2 是非常工程化且有理论支撑的方案，12dB 安全偏移加上前掩蔽/后掩蔽的时间效应使得不可感知性在人类实验中得到充分验证——这比简单的 L-infinity 约束更符合音频领域的实际需求，也为后续音频对抗攻击研究树立了不可感知性约束的标杆
负面结果的诚实报告：目标攻击的主客观不一致、通用扰动和迁移攻击的失败都被详细分析和讨论，这在对抗鲁棒性论文中非常有价值——展示了这类攻击的真实能力边界，避免了过度渲染威胁
梯度爆炸不等于鲁棒性：FSN+ 的"看似鲁棒"实际是 obfuscated gradient 的典型案例，呼应了 Athalye et al. (2018) 和 Carlini (2023) 的经验教训——防御评估必须使用自适应攻击，gradient masking 不是真正的安全保障
完整的实用威胁模型：从理想条件（70dB SNR 无混响）到现实条件（5dB SNR + 混响 + OTA 传输），构成了完整的威胁评估谱系，模拟 OTA 传输是对实际部署场景的重要补充
模型规模不决定安全性：参数量更大的 Demucs 并不比小模型更安全，梯度流特性才是决定对抗鲁棒性的关键因素——这对 DNS 模型的安全设计与架构选择具有实际指导意义

评分¶

新颖性: 4/5 — 首次系统性评估多 DNS 模型的对抗鲁棒性；心理声学约束在 DNS 攻击中是新颖的应用；但 PGD 攻击框架本身不新
实验: 5/5 — 4 个模型 x 多声学条件 x 人类评估（转录 + ABX）x 详细的负面结果分析，实验设计全面严谨
写作: 5/5 — 结构清晰流畅，正面和负面结果都有充分讨论，威胁模型定义精确完整
价值: 4/5 — 为 DNS 模型安全敲响了真实的警钟，但防御方案仍停留在初步探索阶段，需要后续工作跟进