Are Deep Speech Denoising Models Robust to Adversarial Noise?¶
会议: ICLR 2026
arXiv: 2503.11627
代码: GitHub(UMass Amherst + Dolby Labs)
领域: 图像复原
关键词: 对抗攻击, 语音去噪, 心理声学掩蔽, DNS, 对抗鲁棒性, PGD
一句话总结¶
首次系统性评估 4 款 SOTA 深度语音去噪(DNS)模型在对抗噪声下的鲁棒性:通过心理声学约束的 PGD 攻击生成人耳不可感知的对抗噪声,可令 Demucs、Full-SubNet+、FRCRN 和 MP-SENet 输出完全不可理解的 gibberish,实验覆盖多种声学条件和人类评估,同时揭示了目标攻击、通用扰动和跨模型迁移的局限性。
研究背景与动机¶
领域现状:深度语音去噪(DNS)模型(如 Demucs、Full-SubNet+、FRCRN、MP-SENet)在 PESQ/STOI 等客观指标上取得显著进展,被广泛部署在通信设备(手机、视频会议系统、助听器)。它们在标准条件下表现优秀,但对抗鲁棒性几乎未被研究。
现有痛点:(a) 图像领域的对抗鲁棒性研究已非常成熟,但语音去噪领域几乎空白——已有工作仅覆盖单一模型或单一攻击方式,且缺乏人类评估验证;(b) DNS 模型正被用于安全关键场景(助听器、紧急通信),若可被静默攻击则构成真实威胁;(c) 传统 Lp 范数约束在音频领域不足以保证不可感知性——人耳的频率掩蔽和时间掩蔽特性需要心理声学模型来建模。
核心矛盾:DNS 模型在标准 benchmark 上性能越来越好,但是否存在微小的、人耳听不到的声音扰动就能完全摧毁它们的去噪能力?
切入角度:借鉴 MP3 编码中的心理声学模型来约束对抗扰动的不可感知性,系统评估 4 款代表性 DNS 架构在多种声学条件(SNR、混响、OTA)下的脆弱程度。
核心 idea:用心理声学掩蔽约束的 PGD 攻击生成人耳不可感知但能让 SOTA DNS 模型输出 gibberish 的对抗噪声,并通过人类评估确认攻击效果。
方法详解¶
整体框架¶
这篇论文要回答一个安全问题:一段人耳完全听不出异常的微小声音扰动,能不能彻底摧毁 SOTA 语音去噪模型的去噪能力?为此它构造一个白盒攻击——干净语音 \(y\) 加环境噪声 \(b\) 时 DNS 模型 \(f\) 本应正常还原出干净语音,但在输入里再叠加一个对抗扰动 \(\delta\) 后,去噪输出 \(f(x+\delta)\) 就变成完全听不懂的 gibberish。整个攻击就是用投影梯度下降迭代求解这样一个 \(\delta\),让它同时满足两个目标:一是 \(\delta\) 在人耳听感上不可感知(心理声学掩蔽约束),二是去噪输出的可懂度极低(STOI 趋近于 0)。下面三个设计分别对应"用什么当损失""怎么藏住扰动""怎么解出来",第四点交代被攻击的 4 款模型为何有代表性。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["干净语音 y + 背景噪声 b<br/>(模拟 OTA 时再过房间冲激 r*)"] --> B["叠加对抗扰动 δ<br/>得攻击输入 x+δ"]
B --> C["受测 DNS 模型 f<br/>Demucs / FSN+ / FRCRN / MP-SENet"]
C --> D["去噪输出 f(x+δ)"]
D --> E["攻击目标:STOI 损失<br/>L = −STOI(f(x+δ), y)"]
E -->|反向传播梯度| F["PGD 更新<br/>δ ← δ + α·sign(∇L)"]
F --> G["投影 Π:STFT 幅度逐 bin<br/>裁剪到掩蔽阈值 θ − 12dB 之下"]
G -->|迭代 5k–20k 步| B
G --> H["输出:人耳不可感知的 δ<br/>令去噪结果变 gibberish"]
关键设计¶
1. 攻击目标:把 STOI 压到趋近 0,让"听不懂"变成可优化的损失
攻击要破坏的是"能不能听懂",所以损失直接选短时客观可懂度(Short-Time Objective Intelligibility, STOI)而非音质指标。STOI 逐帧计算干净参考与去噪输出之间的归一化相关系数再取平均,攻击把它取负作为损失,用 PGD 梯度下降去优化扰动 \(\delta\)。之所以用 STOI 而不是 PESQ,是因为 STOI 与人类可懂度的相关性更高——PESQ 反映的是"好不好听",STOI 反映的才是"能不能听懂",最小化 STOI 等价于最大化语音的不可理解性。关键是 STOI 的计算是可微分的,梯度能一路反向传播回输入扰动,使得它可以直接当攻击目标。
2. 心理声学不可感知性约束:用 MP3 的掩蔽模型把扰动藏进人耳听不到的频段
传统对抗攻击常用的 \(L_\infty\) 范数约束在音频上并不合适——人耳在低频更敏感、在高频能容忍更大的扰动,一刀切的范数无法刻画这种差异。这里改用 ISO MPEG-1 Psychoacoustic Model 2(即 MP3 编码采用的标准心理声学模型)逐频率 bin 计算掩蔽阈值 \(T(k)\),再额外减去 12 dB 安全偏移以确保充分不可感知,把扰动的功率谱密度约束在阈值之下:
不仅如此,约束还纳入了前掩蔽(pre-masking,约 2 ms)和后掩蔽(post-masking,约 200 ms)的时间效应,在时间域上进一步放松约束以利用人耳的时间掩蔽特性。这样得到的约束集精确建模了频率掩蔽和时间掩蔽,比固定范数更贴合真实听感,也是攻击能"静默"的关键。
3. PGD 优化:梯度下降 + 投影到掩蔽阈值约束集
求解走的是标准投影梯度下降框架——每一步先沿梯度方向更新扰动 \(\delta \leftarrow \delta + \alpha \cdot \mathrm{sign}(\nabla_\delta \mathcal{L})\)(即压低 STOI),再用投影算子 \(\Pi\) 把更新后扰动的 STFT 频谱逐 bin 裁剪到掩蔽阈值以下,使其始终落在第 2 点定义的约束集 \(D(x)\) 内。迭代步数不按固定值定,而是按"让整套攻击在单张 L40S GPU 上跑约一小时"来卡——于是各模型不同:Demucs 与 FSN+ 各 20,000 步、MP-SENet 10,000 步、FRCRN 5,000 步。之所以统一算力预算而非统一步数,是因为作者把"发起攻击要花多少时间"也算进可攻击性里,给慢模型更多步数会掩盖它"算得慢"这一现实优势。无混响时投影就是直接裁剪、有闭式解;模拟 OTA 时扰动会被不可逆的房间冲激响应卷积,投影不再有闭式解,改用维纳反卷积 + 梯度下降近似求解。对 FSN+ 这种已知存在梯度爆炸的模型还需额外稳定化处理才能让优化收敛。
4. 受测的 4 款 DNS 架构:覆盖时域 / 频域 / 复数谱 / 幅相联合四类设计
选这 4 款是为了让结论不依赖某一种架构倾向:Demucs(Meta)是时域 U-Net + LSTM 的 encoder-decoder,参数量最大;Full-SubNet+(FSN+)是频域全带-子带网络,已知存在梯度爆炸问题(obfuscated gradient);FRCRN(Alibaba)是频率递归 CRN,在复数谱上处理,参数量中等;MP-SENet 是同时预测幅度和相位的掩码增强网络,属于最新架构。四者分别代表了主流 DNS 的四类技术路线,因此"全部被攻破"才有普适意义。
评估设置¶
- 声学条件:5 种 SNR(70dB / 30dB / 10dB / 5dB / 0dB)乘以有无混响,外加模拟 OTA(over-the-air)传输,构成从理想到接近真实的完整谱系
- 人类评估:(a) 转录测试——让受试者听去噪输出并尝试转录,计算 WER,验证输出确实不可懂;(b) ABX 测试——给受试者三个音频让其辨别哪个是对抗信号,验证扰动确实不可感知
- 客观指标:STOI、PESQ、ViSQOL、SI-SDR 全面评估
实验关键数据¶
主实验——无目标攻击效果(70dB SNR, 无混响)¶
| 模型 | 攻击前 STOI | 攻击后 STOI | 攻击前 PESQ | 攻击后 PESQ |
|---|---|---|---|---|
| Demucs | 0.97 | 0.12 | 3.5 | 1.1 |
| FSN+ | 0.96 | 0.35 | 3.3 | 1.3 |
| FRCRN | 0.97 | 0.08 | 3.5 | 1.0 |
| MP-SENet | 0.96 | 0.15 | 3.4 | 1.1 |
不同声学条件下的攻击效果¶
| 条件 | Demucs STOI | FRCRN STOI | MP-SENet STOI | 说明 |
|---|---|---|---|---|
| 70dB SNR, 无混响 | 0.12 | 0.08 | 0.15 | 最理想条件 |
| 10dB SNR, 无混响 | 0.15 | 0.11 | 0.18 | 中等噪声 |
| 5dB SNR + 混响 | 0.20 | 0.14 | 0.22 | 困难条件 |
| 模拟 OTA | 0.25 | 0.18 | 0.28 | 最接近真实场景 |
人类评估结果¶
- 转录测试:攻击后去噪输出的 WER > 95%,受试者基本无法理解任何词汇内容,确认输出确实是 gibberish
- ABX 不可感知性测试:受试者辨别对抗信号与干净信号的准确率仅约 55%(接近随机猜测 50%),确认扰动在人耳听感上不可感知
- 12dB 安全偏移的保守设置被实验验证为有效——比仅依靠掩蔽阈值更可靠
核心发现¶
- 所有 4 款 DNS 模型均可被攻破:STOI 从约 0.97 降至 0.08-0.35,输出变为完全不可理解的乱码
- FSN+ 看似最"鲁棒"但实为假象:其较高的攻击后 STOI(0.35 vs 其他模型 0.08-0.15)源于梯度爆炸导致 PGD 优化困难(obfuscated gradient),而不是真正的鲁棒性——这是已知的脆弱防御机制,可被自适应攻击(如 Carlini et al.)绕过
- 模型大小与鲁棒性无关:Demucs 参数量最大但同样脆弱;FRCRN 参数量中等但最易攻破。关键因素是梯度流的稳定性而非模型容量
- 攻击跨声学条件泛化:从理想条件(70dB SNR 无混响)到困难条件(低 SNR + 混响)甚至模拟 OTA 场景,攻击均持续有效,只是效果程度略有下降
负面结果(同样重要的发现)¶
| 攻击类型 | 客观指标 | 主观评估 | 原因分析 |
|---|---|---|---|
| 目标攻击(使输出为特定语音) | 部分成功 | 人类无法听出目标内容 | 语音感知高维且非线性,低级特征匹配不等于可懂度匹配 |
| 通用扰动(一个 delta 攻击所有输入) | 失败 | STOI 仅轻微下降 | 不同语音的频谱差异过大,心理声学约束集太小无法找到通用解 |
| 跨模型迁移攻击 | 基本不迁移 | 其他模型不受影响 | 不同架构的梯度方向差异大,白盒攻击高度依赖特定模型 |
防御探索¶
- 高斯噪声注入防御:在 DNS 输入端加小量高斯噪声可部分缓解攻击(STOI 从 0.08 恢复到约 0.5),但代价是正常使用时音质也显著下降——部分保护但不充分
- 对抗训练:论文指出值得探索但因 DNS 训练成本高而未深入实验
- 输入变换防御:随机化输入可能有帮助,但会引入额外延迟
亮点与洞察¶
- 心理声学掩蔽约束的精妙运用:直接复用 MP3 编码的 Psychoacoustic Model 2 是非常工程化且有理论支撑的方案,12dB 安全偏移加上前掩蔽/后掩蔽的时间效应使得不可感知性在人类实验中得到充分验证——这比简单的 L-infinity 约束更符合音频领域的实际需求,也为后续音频对抗攻击研究树立了不可感知性约束的标杆
- 负面结果的诚实报告:目标攻击的主客观不一致、通用扰动和迁移攻击的失败都被详细分析和讨论,这在对抗鲁棒性论文中非常有价值——展示了这类攻击的真实能力边界,避免了过度渲染威胁
- 梯度爆炸不等于鲁棒性:FSN+ 的"看似鲁棒"实际是 obfuscated gradient 的典型案例,呼应了 Athalye et al. (2018) 和 Carlini (2023) 的经验教训——防御评估必须使用自适应攻击,gradient masking 不是真正的安全保障
- 完整的实用威胁模型:从理想条件(70dB SNR 无混响)到现实条件(5dB SNR + 混响 + OTA 传输),构成了完整的威胁评估谱系,模拟 OTA 传输是对实际部署场景的重要补充
- 模型规模不决定安全性:参数量更大的 Demucs 并不比小模型更安全,梯度流特性才是决定对抗鲁棒性的关键因素——这对 DNS 模型的安全设计与架构选择具有实际指导意义
评分¶
- 新颖性: 4/5 — 首次系统性评估多 DNS 模型的对抗鲁棒性;心理声学约束在 DNS 攻击中是新颖的应用;但 PGD 攻击框架本身不新
- 实验: 5/5 — 4 个模型 x 多声学条件 x 人类评估(转录 + ABX)x 详细的负面结果分析,实验设计全面严谨
- 写作: 5/5 — 结构清晰流畅,正面和负面结果都有充分讨论,威胁模型定义精确完整
- 价值: 4/5 — 为 DNS 模型安全敲响了真实的警钟,但防御方案仍停留在初步探索阶段,需要后续工作跟进