跳转至

Audio Super-Resolution with Latent Bridge Models

会议: NeurIPS 2025
arXiv: 2509.17609
代码: 有(Demo: https://AudioLBM.github.io/
领域: 音频超分辨率 / 生成模型
关键词: 音频超分辨率, 隐空间桥模型, 频率感知训练, 级联超分, any-to-192kHz

一句话总结

提出 AudioLBM,将音频波形压缩到连续隐空间,用桥模型实现从低分辨率到高分辨率的 latent-to-latent 生成过程,配合频率感知训练扩展数据利用和级联设计突破 48kHz 上限,在语音/音效/音乐上全面超越 AudioSR 等方法,并首次实现 any-to-192kHz 音频超分。

研究背景与动机

领域现状:音频超分辨率(SR)旨在将低分辨率波形上采样到高分辨率。现有方法涵盖映射式、GAN、扩散模型和桥模型。AudioSR 是目前最有代表性的跨域 any-to-48kHz 方法,基于梅尔频谱图隐空间的扩散模型。A2SB 在 STFT 域用 Schrödinger Bridge 做音乐带宽扩展。

现有痛点:现有方法的生成质量受限于生成先验与超分任务的不匹配:(1)AudioSR 从高斯噪声生成高分辨率内容(noise-to-latent),忽略了 LR 波形中丰富的先验信息;(2)A2SB 在 STFT 域将高频区域视为缺失并用高斯噪声填充,先验同样缺乏信息。此外,所有方法均无法超越 48kHz 上限,而专业音频制作需要 96kHz 甚至 192kHz。

核心矛盾:LR 波形本身已是 HR 目标的高信息量先验,但现有框架未能有效利用。生成过程应该是 LR→HR 的条件转换,而非从噪声出发。高分辨率训练数据稀缺也限制了方法的扩展性。

本文目标(1)设计能充分利用 LR 先验信息的生成框架;(2)解决高采样率训练数据稀缺问题;(3)突破 48kHz 超分上限至 96kHz 和 192kHz。

切入角度:将音频波形直接压缩到连续隐空间(保留 LR 先验信息),用桥模型连接 LR 和 HR 隐表示。引入频率感知训练实现 any-to-any 上采样,以及级联设计和先验增强突破采样率上限。

核心 idea:用波形隐空间中的桥模型替代噪声→数据的扩散生成,配合频率感知 + 级联设计实现高质量音频超分。

方法详解

整体框架

输入:LR 波形 \(\bm{x}^{LR}\) → 波形 VAE 编码 → LR 隐向量 \(\bm{z}^{LR}\) → 桥模型反向采样 → HR 隐向量 \(\bm{z}^{HR}\) → VAE 解码 → HR 波形 \(\bm{x}^{HR}\)。训练时以 LR-HR 隐向量对为桥模型的两端边界分布,学习从 LR 到 HR 的生成路径。

关键设计

  1. 波形隐空间桥模型(AudioLBM):

    • 功能:在连续隐空间中建立从 LR 到 HR 的生成路径,充分利用 LR 先验
    • 核心思路:训练卷积 VAE 将波形压缩为 \(\bm{z} \in \mathbb{R}^{c \times l}\)。以 \(\bm{z}^{LR}\) 为先验(\(t=T\), Dirac 分布)、\(\bm{z}^{HR}\) 为目标(\(t=0\)),建立桥过程。训练噪声预测网络 \(\epsilon_\theta(\bm{z}_t, t, \bm{z}_T)\),损失为 \(\|\epsilon_\theta - (\bm{z}_t - \alpha_t \bm{z}_0)/(\alpha_t \sigma_t)\|_2^2\)。推理时从 \(\bm{z}^{LR}\) 出发执行一阶 SDE 反向采样(50步)
    • 设计动机:与 AudioSR 的 noise-to-latent 不同,桥模型的 latent-to-latent 路径天然继承 LR 波形的频谱结构和能量分布;与在 STFT 域操作相比,直接压缩波形避免了频率带不对齐
  2. 频率感知训练(Frequency-aware LBMs):

    • 功能:克服高采样率训练数据稀缺,实现 any-to-any 超分
    • 核心思路:训练时动态采样 LR/HR 采样率对:先滤波得到 HR 版本(采样率 \(SR_{HR}\) 低于原始但保留核心频段),再随机采样 \(SR_{LR} \sim \mathcal{U}(0, SR_{HR})\) 生成 LR 版本。将先验频率 \(f_{prior}\) 和目标频率 \(f_{target}\) 作为正弦嵌入 token 前置到 DiT 输入。同时用常数缩放因子 \(s\) 重缩放隐向量稳定训练
    • 设计动机:固定采样率训练浪费了大量非 48kHz 数据。频率感知使模型显式学习不同频带映射,推理时指定目标频率即可。实验证实训练数据多样性远比仅用 48kHz 数据重要
  3. 级联 LBMs + 先验增强:

    • 功能:突破单模型容量限制,实现 48→96→192kHz 渐进超分
    • 核心思路:分阶段训练多个 AudioLBM。为缓解级联误差,提出两种先验增强:(i)波形域退化——随机移除 HR 先验在 Nyquist 边界附近的部分高频细节;(ii)隐空间模糊——沿时间轴施加动态高斯平滑,比率 \(b_r \sim \mathcal{U}(0, b_r^{max})\)。训练目标变为从退化/模糊后的先验生成 UHR 目标
    • 设计动机:与扩散模型的噪声增强不同,桥模型边界是 Dirac 分布,模糊/退化更加自然。让模型训练时就接触降质先验,推理时对前级输出瑕疵更鲁棒

损失函数 / 训练策略

基础损失为噪声预测 MSE。频率感知版本增加频率条件输入。级联版本引入模糊先验和退化条件 \(b_r\)。训练数据约 5000 小时(语音+音效+音乐),有效 batch 128,1M 迭代。推理用 50 步一阶 SDE 采样。

实验关键数据

主实验

设定 指标 AudioSR 本文 (zero-shot) 提升
VCTK 8→48kHz LSD↓ 0.940 0.753 19.9%
VCTK 8→48kHz SSIM↑ 0.809 0.893 +0.084
VCTK 8→48kHz SigMOS↑ 2.846 3.023 +0.177
48Audio 8→48kHz LSD↓ 1.468 1.066 27.4%
ESC-50 16→44.1kHz LSD↓ 1.292 0.999 22.7%
SDS 16→44.1kHz LSD↓ 1.352 1.160 14.2%

消融实验

配置 ESC-50 LSD↓ SDS LSD↓ 说明
w/o Filter 1.366 1.461 不过滤低采样率数据
w/o Input-A 1.052 1.187 无输入频率感知
w/o Target-A 1.022 1.166 仅输入频率感知
Full (Ours) 0.994 1.124 双向频率感知
only 48kHz 1.127 1.198 仅用48kHz训练数据

关键发现

  • 频率感知训练逐步贡献明确:数据过滤、输入频率感知、输出频率感知三组件依次改善,总共约 20% LSD 提升
  • 级联系统显著优于直接训练:16→96kHz 时,级联模型比直接 any-to-96kHz 模型降低 LSD(0-48) 达 0.415,ViSQOL 提升 0.32——让每阶段专注特定频段更有效
  • 噪声预测优于数据预测:在隐空间中,噪声预测目标优于桥模型文献中常用的数据预测目标
  • 仅在 VCTK 训练的模型可进一步超越 zero-shot 版本,SigMOS 达 3.095 超过 GAN 方法 AP-BWE 的 3.082
  • 192kHz 超分首次实现:LSD 从直接训练的 1.913 降至级联 1.365

亮点与洞察

  • LR→HR 先验利用的范式突破:桥模型的 latent-to-latent 路径与超分本质完全对齐——LR 波形不是噪声而是 HR 的有信息降质版本。可迁移到图像/视频超分等条件生成任务
  • 频率感知 + any-to-any 训练非常巧妙:将固定条件变为可学习条件,用所有可用数据训练,同时模型获得了更好的频率理解能力。这是克服数据稀缺的通用范式
  • 先验增强策略与桥模型特性的匹配:扩散模型用加噪做级联增强,桥模型边界是 Dirac 分布用模糊更自然。"退化模拟前一阶段瑕疵"的思路对任何级联生成系统适用
  • 首次突破 48kHz 上限至 192kHz,开辟专业音频制作新可能

局限与展望

  • Zero-shot 模型在语音场景下有时将低频噪声误认为音效纹理,可通过域自适应改善
  • 192kHz 阶段数据极度稀缺,必须依赖微调和数据增强,训练不够充分
  • 50 步 SDE 采样速度较慢,可探索一致性蒸馏或流匹配加速
  • VAE 压缩损失是系统上界——VAE 重建质量限制了最终性能上限
  • 未在真实退化场景(混响、压缩伪影)下系统评估

相关工作与启发

  • vs AudioSR: 在梅尔频谱图隐空间做 noise-to-latent 扩散,LR 仅作为条件。本文在波形隐空间做 latent-to-latent 桥过程,先验利用更自然有效
  • vs Bridge-SR: 在波形域直接做桥模型(WaveNet 架构),泛化弱。本文提升到隐空间 + DiT 骨干
  • vs A2SB: 在 STFT 域做桥模型但高频区域用噪声填充。本文避免了"挖空再填"

评分

  • 新颖性: ⭐⭐⭐⭐ 桥模型+波形隐空间+频率感知三位一体的系统设计
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖三域、多采样率、完整消融和级联验证
  • 写作质量: ⭐⭐⭐⭐ 图示清晰,方法描述完整
  • 价值: ⭐⭐⭐⭐ 音频超分新 SOTA,打开了 >48kHz 方向