Audio Super-Resolution with Latent Bridge Models¶

会议: NeurIPS 2025
arXiv: 2509.17609
代码: 有（Demo: https://AudioLBM.github.io/）
领域: 音频超分辨率 / 生成模型
关键词: 音频超分辨率, 隐空间桥模型, 频率感知训练, 级联超分, any-to-192kHz

一句话总结¶

提出 AudioLBM，将音频波形压缩到连续隐空间，用桥模型实现从低分辨率到高分辨率的 latent-to-latent 生成过程，配合频率感知训练扩展数据利用和级联设计突破 48kHz 上限，在语音/音效/音乐上全面超越 AudioSR 等方法，并首次实现 any-to-192kHz 音频超分。

研究背景与动机¶

领域现状：音频超分辨率（SR）旨在将低分辨率波形上采样到高分辨率。现有方法涵盖映射式、GAN、扩散模型和桥模型。AudioSR 是目前最有代表性的跨域 any-to-48kHz 方法，基于梅尔频谱图隐空间的扩散模型。A2SB 在 STFT 域用 Schrödinger Bridge 做音乐带宽扩展。

现有痛点：现有方法的生成质量受限于生成先验与超分任务的不匹配：（1）AudioSR 从高斯噪声生成高分辨率内容（noise-to-latent），忽略了 LR 波形中丰富的先验信息；（2）A2SB 在 STFT 域将高频区域视为缺失并用高斯噪声填充，先验同样缺乏信息。此外，所有方法均无法超越 48kHz 上限，而专业音频制作需要 96kHz 甚至 192kHz。

核心矛盾：LR 波形本身已是 HR 目标的高信息量先验，但现有框架未能有效利用。生成过程应该是 LR→HR 的条件转换，而非从噪声出发。高分辨率训练数据稀缺也限制了方法的扩展性。

本文目标（1）设计能充分利用 LR 先验信息的生成框架；（2）解决高采样率训练数据稀缺问题；（3）突破 48kHz 超分上限至 96kHz 和 192kHz。

切入角度：将音频波形直接压缩到连续隐空间（保留 LR 先验信息），用桥模型连接 LR 和 HR 隐表示。引入频率感知训练实现 any-to-any 上采样，以及级联设计和先验增强突破采样率上限。

核心 idea：用波形隐空间中的桥模型替代噪声→数据的扩散生成，配合频率感知 + 级联设计实现高质量音频超分。

方法详解¶

整体框架¶

输入：LR 波形 \(\bm{x}^{LR}\) → 波形 VAE 编码 → LR 隐向量 \(\bm{z}^{LR}\) → 桥模型反向采样 → HR 隐向量 \(\bm{z}^{HR}\) → VAE 解码 → HR 波形 \(\bm{x}^{HR}\)。训练时以 LR-HR 隐向量对为桥模型的两端边界分布，学习从 LR 到 HR 的生成路径。

关键设计¶

波形隐空间桥模型（AudioLBM）:
- 功能：在连续隐空间中建立从 LR 到 HR 的生成路径，充分利用 LR 先验
- 核心思路：训练卷积 VAE 将波形压缩为 \(\bm{z} \in \mathbb{R}^{c \times l}\)。以 \(\bm{z}^{LR}\) 为先验（\(t=T\), Dirac 分布）、\(\bm{z}^{HR}\) 为目标（\(t=0\)），建立桥过程。训练噪声预测网络 \(\epsilon_\theta(\bm{z}_t, t, \bm{z}_T)\)，损失为 \(\|\epsilon_\theta - (\bm{z}_t - \alpha_t \bm{z}_0)/(\alpha_t \sigma_t)\|_2^2\)。推理时从 \(\bm{z}^{LR}\) 出发执行一阶 SDE 反向采样（50步）
- 设计动机：与 AudioSR 的 noise-to-latent 不同，桥模型的 latent-to-latent 路径天然继承 LR 波形的频谱结构和能量分布；与在 STFT 域操作相比，直接压缩波形避免了频率带不对齐
频率感知训练（Frequency-aware LBMs）:
- 功能：克服高采样率训练数据稀缺，实现 any-to-any 超分
- 核心思路：训练时动态采样 LR/HR 采样率对：先滤波得到 HR 版本（采样率 \(SR_{HR}\) 低于原始但保留核心频段），再随机采样 \(SR_{LR} \sim \mathcal{U}(0, SR_{HR})\) 生成 LR 版本。将先验频率 \(f_{prior}\) 和目标频率 \(f_{target}\) 作为正弦嵌入 token 前置到 DiT 输入。同时用常数缩放因子 \(s\) 重缩放隐向量稳定训练
- 设计动机：固定采样率训练浪费了大量非 48kHz 数据。频率感知使模型显式学习不同频带映射，推理时指定目标频率即可。实验证实训练数据多样性远比仅用 48kHz 数据重要
级联 LBMs + 先验增强:
- 功能：突破单模型容量限制，实现 48→96→192kHz 渐进超分
- 核心思路：分阶段训练多个 AudioLBM。为缓解级联误差，提出两种先验增强：（i）波形域退化——随机移除 HR 先验在 Nyquist 边界附近的部分高频细节；（ii）隐空间模糊——沿时间轴施加动态高斯平滑，比率 \(b_r \sim \mathcal{U}(0, b_r^{max})\)。训练目标变为从退化/模糊后的先验生成 UHR 目标
- 设计动机：与扩散模型的噪声增强不同，桥模型边界是 Dirac 分布，模糊/退化更加自然。让模型训练时就接触降质先验，推理时对前级输出瑕疵更鲁棒

损失函数 / 训练策略¶

基础损失为噪声预测 MSE。频率感知版本增加频率条件输入。级联版本引入模糊先验和退化条件 \(b_r\)。训练数据约 5000 小时（语音+音效+音乐），有效 batch 128，1M 迭代。推理用 50 步一阶 SDE 采样。

实验关键数据¶

主实验¶

设定	指标	AudioSR	本文 (zero-shot)	提升
VCTK 8→48kHz	LSD↓	0.940	0.753	19.9%
VCTK 8→48kHz	SSIM↑	0.809	0.893	+0.084
VCTK 8→48kHz	SigMOS↑	2.846	3.023	+0.177
48Audio 8→48kHz	LSD↓	1.468	1.066	27.4%
ESC-50 16→44.1kHz	LSD↓	1.292	0.999	22.7%
SDS 16→44.1kHz	LSD↓	1.352	1.160	14.2%

消融实验¶

配置	ESC-50 LSD↓	SDS LSD↓	说明
w/o Filter	1.366	1.461	不过滤低采样率数据
w/o Input-A	1.052	1.187	无输入频率感知
w/o Target-A	1.022	1.166	仅输入频率感知
Full (Ours)	0.994	1.124	双向频率感知
only 48kHz	1.127	1.198	仅用48kHz训练数据

关键发现¶

频率感知训练逐步贡献明确：数据过滤、输入频率感知、输出频率感知三组件依次改善，总共约 20% LSD 提升
级联系统显著优于直接训练：16→96kHz 时，级联模型比直接 any-to-96kHz 模型降低 LSD(0-48) 达 0.415，ViSQOL 提升 0.32——让每阶段专注特定频段更有效
噪声预测优于数据预测：在隐空间中，噪声预测目标优于桥模型文献中常用的数据预测目标
仅在 VCTK 训练的模型可进一步超越 zero-shot 版本，SigMOS 达 3.095 超过 GAN 方法 AP-BWE 的 3.082
192kHz 超分首次实现：LSD 从直接训练的 1.913 降至级联 1.365

亮点与洞察¶

LR→HR 先验利用的范式突破：桥模型的 latent-to-latent 路径与超分本质完全对齐——LR 波形不是噪声而是 HR 的有信息降质版本。可迁移到图像/视频超分等条件生成任务
频率感知 + any-to-any 训练非常巧妙：将固定条件变为可学习条件，用所有可用数据训练，同时模型获得了更好的频率理解能力。这是克服数据稀缺的通用范式
先验增强策略与桥模型特性的匹配：扩散模型用加噪做级联增强，桥模型边界是 Dirac 分布用模糊更自然。"退化模拟前一阶段瑕疵"的思路对任何级联生成系统适用
首次突破 48kHz 上限至 192kHz，开辟专业音频制作新可能

局限与展望¶

Zero-shot 模型在语音场景下有时将低频噪声误认为音效纹理，可通过域自适应改善
192kHz 阶段数据极度稀缺，必须依赖微调和数据增强，训练不够充分
50 步 SDE 采样速度较慢，可探索一致性蒸馏或流匹配加速
VAE 压缩损失是系统上界——VAE 重建质量限制了最终性能上限
未在真实退化场景（混响、压缩伪影）下系统评估

评分¶

新颖性: ⭐⭐⭐⭐ 桥模型+波形隐空间+频率感知三位一体的系统设计
实验充分度: ⭐⭐⭐⭐⭐ 覆盖三域、多采样率、完整消融和级联验证
写作质量: ⭐⭐⭐⭐ 图示清晰，方法描述完整
价值: ⭐⭐⭐⭐ 音频超分新 SOTA，打开了 >48kHz 方向