MAPSS: Manifold-Based Assessment of Perceptual Source Separation¶

会议: ICLR 2026
arXiv: 2509.09212
代码: 有（https://github.com/Amir-Ivry/MAPSS-measures）
领域: 音频语音
关键词: 音源分离评估, 感知度量, 扩散映射, 流形学习, 自监督表示

一句话总结¶

提出 Perceptual Separation（PS）和 Perceptual Match（PM）两个互补度量，利用扩散映射将自监督编码表示嵌入低维流形，首次在功能上解耦音源分离中的泄漏和自失真，与 18 种主流指标对比在与主观评分的相关性上几乎始终排名第一或第二。

研究背景与动机¶

音源分离的客观评估与人类主观感知长期存在不匹配。现有指标的根本缺陷：

混淆泄漏与失真：SDR、SI-SDR 等将竞争说话人泄漏和目标信号失真混合为全局能量比，无法判断错误来源

缺乏细粒度分析：PESQ、STOI 将整段语音映射为单一 MOS 分数，无帧级定位能力

黑盒缺乏置信度：DNSMOS 等学习型指标无法量化决策可靠性

无法兼顾多维需求：没有现有指标族能同时实现解耦泄漏/失真、帧级分析和误差估计

核心目标：设计互补的感知度量——PS 量化分离程度（泄漏），PM 量化匹配程度（失真），均可微、帧级操作（75 fps）、具备理论误差保证。

方法详解¶

整体框架¶

MAPSS 是一个纯评估框架（不训练任何网络），目标是把音源分离里一直被混在一起的两类错误——别的说话人"泄漏"进来、目标语音自身"失真"——在功能上拆开来分别打分。它的核心思路是：与其在波形/能量域里算比值，不如把信号送进一个能反映人耳感知的低维几何空间，让"距离"直接等于"听起来有多不一样"，再在这个空间里量出输出离目标源有多近、像不像目标源。

整条管线是这样走通的：先对混合中每个参考源施加几十种基础失真，把它和系统输出一起用预训练 wav2vec 2.0 编码成高维表示；这些表示经扩散映射统一投射到低维感知流形上，每个源的"参考 + 失真"自然聚成一团点（感知聚类），而系统输出则作为一个"外部待测点"落在流形某处；最后在流形上算两个互补分数——PS 看输出离哪团聚类更近（泄漏多少），PM 看输出落在目标聚类失真分布的哪个位置（失真多少），并给每一帧的分数配一个可证明的误差半径。全程帧级操作（75 fps），PS/PM 都可微。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    REF["参考源 + 混合"] --> DIST["感知失真生成<br/>每源 Np 种失真"]
    DIST --> ENC["wav2vec 2.0 编码<br/>75 fps 高维表示"]
    OUT["系统输出"] --> ENC
    ENC --> DM["扩散映射嵌入<br/>→ 低维感知流形"]
    DM --> CLU["感知聚类 Ci<br/>参考+失真构成邻域"]
    DM --> EXT["输出嵌入<br/>外部待测点"]
    CLU --> PS["PS：归属/非归属<br/>距离比 → 泄漏"]
    EXT --> PS
    CLU --> PM["PM：Gamma 尾概率<br/>→ 失真"]
    EXT --> PM
    PS --> ERR["帧级误差半径<br/>+ 置信区间"]
    PM --> ERR
    ERR --> SCORE["PS / PM 帧级分数"]

关键设计¶

1. 扩散映射：让流形上的欧氏距离直接等于感知相异度

整套度量的几何根基是扩散映射，它要解决的是"在什么空间里算距离才对应人的听感"这个根本问题。把编码后的高维向量集记为 \(\mathcal{X} = \{\mathbf{x}_i\}_{i=1}^N\)，先用高斯核衡量两两相似度 \(\mathbf{K}_{i,j} = \exp(-\|\mathbf{x}_i - \mathbf{x}_j\|_2^2 / \sigma_\mathbf{K}^2)\)，再做 \(\alpha\)-归一化抵消采样密度不均的影响，归一成行随机转移矩阵 \(\mathbf{P} = \mathbf{D}^{-1}\mathbf{K}\)。对 \(\mathbf{P}\) 做谱分解得到低维嵌入 \(\boldsymbol{\Psi}_t(\mathbf{x}_i) = (\lambda_1^t \mathbf{u}_1(i), \ldots, \lambda_d^t \mathbf{u}_d(i))^T\)。这样做的关键收益是：嵌入空间里的欧氏距离恰好等于原空间的扩散距离 \(D_t^2(i,j) = \|\boldsymbol{\Psi}_t(\mathbf{x}_i) - \boldsymbol{\Psi}_t(\mathbf{x}_j)\|_2^2\)，于是后面所有"算距离"的操作都能直接在低维流形上做，而距离值仍忠实反映表示的感知相异性。它是 PS、PM 共享的舞台——没有这层几何，后面"离哪团聚类更近"的判断就没有感知意义。

2. 感知失真聚类：用几十种失真把每个源的"感知邻域"撑成一团点

要判断系统输出离哪个源更近，先得给每个源在流形上画出它的"势力范围"。对第 \(i\) 个参考源，对它施加 \(N_p \in [60,70]\) 种基础失真（截幅、陷波滤波、音高偏移、混响、有色噪声等），失真从轻度（15 dB SNR 有色噪声）一路覆盖到重度（重尾混响、硬削波），让这组样本撑满人耳能接受的感知波动范围。把这些失真波形连同参考自身经 wav2vec 2.0 编码、扩散映射嵌入后，构成感知聚类

\[\mathcal{C}_i^{(d)} = \{\boldsymbol{\Psi}_t^{(d)}(\mathbf{x}_i), \boldsymbol{\Psi}_t^{(d)}(\mathbf{x}_{i,p}) \mid p=1,\ldots,N_p\}\]

一个刻意的设计是：系统输出的嵌入不放进聚类里——聚类只由参考及其失真构成，输出始终作为"外部待测点"来度量，避免输出自己影响自己的归属判断而引入循环偏差。正是这团失真点把"目标源在感知上还能接受的范围"具象成了几何区域，PS/PM 才有了可比较的参照系。

3. PS 与 PM：解耦泄漏与失真的两个互补度量

有了流形和聚类，MAPSS 用两个独立分数分别回答两个被传统指标搅在一起的问题。

PS（感知分离）回答"输出里混进了多少别的源"。它用 Mahalanobis 距离比较输出到两类聚类的远近：

\[\widehat{\text{PS}}_i^{(d)} = 1 - \frac{\hat{A}_i^{(d)}}{\hat{A}_i^{(d)} + \hat{B}_i^{(d)}} \in [0,1]\]

其中 \(\hat{A}_i^{(d)}\) 是输出到自身归属聚类的距离，\(\hat{B}_i^{(d)}\) 是到最近的非归属聚类的距离。当 \(\hat{A} \ll \hat{B}\)，即输出牢牢贴着目标源、远离其他源时，PS → 1 表示分离干净；反之若输出被其他源拉近，\(\hat{B}\) 变小、PS 下降，恰好对应泄漏增多。它只看"相对归属"而非绝对能量，这正是它能把泄漏从失真里单独拎出来的原因。

PM（感知匹配）回答另一半问题"输出对目标源本身有多大失真"。做法是先收集聚类内各失真样本到参考的距离集 \(\hat{\mathcal{G}}_i^{(d)}\)，经 KS 检验确认这些距离近似服从 Gamma 分布，再用矩匹配估出 Gamma 参数 \(\hat{k}_i^{(d)}, \hat{\theta}_i^{(d)}\)。把输出到参考的实际距离代入 Gamma 的尾概率，就得到

\[\widehat{\text{PM}}_i^{(d)} = Q(\hat{k}_i^{(d)}, \hat{a}_i^{(d)} / \hat{\theta}_i^{(d)}) \in [0,1]\]

直观上，只要输出落在"可接受失真"的分布范围内，PM → 1；输出偏离参考越远、落到分布尾部，PM 越低。把失真建模成概率分布而非单一阈值，让 PM 能容忍合理的感知波动、只惩罚真正异常的偏离。两者一个看"是否站对了源"、一个看"像不像自己"，归一化互信息分析证实它们提供不重叠的评估视角。

4. 理论误差保证：给每一帧的分数配一个可证明的误差半径

因为流形维度 \(d\) 是有限截断的，PS/PM 必然和理论真值有偏差，这个偏差需要可控，否则"带置信度"无从谈起。论文基于 Schur 补分解推导出帧级的确定性误差半径，例如对 PS

\[|\text{PS}_i - \text{PS}_i^{(d)}| \leq \frac{B_i^{(d)} |\delta_{i,i}| + A_i^{(d)} |\delta_{i,j^*}|}{(A_i^{(d)} + B_i^{(d)})^2}\]

并进一步给出非渐近的高概率置信区间。实验中代入这个最坏情况误差半径后，PS/PM 与主观分的排名几乎不变——说明截断带来的误差小到不影响实际选型判断，这也是 MAPSS 敢称"带置信度"的依据。

损失函数 / 训练策略¶

MAPSS 不涉及任何网络训练，编码器直接用预训练 wav2vec 2.0。核心计算全是确定性步骤：失真生成（信号处理）、wav2vec 2.0 前向推理、扩散映射谱分解、Mahalanobis 距离与 Gamma 拟合。由于 PS、PM 均可微，它们也可反过来直接作为训练损失去优化分离模型，打通了评估与优化的壁垒。

实验关键数据¶

主实验¶

与 18 种主流指标在 SEBASS 数据库上的对比

在英语/西班牙语/音乐混合场景中，PS 和 PM 与人类主观 MOS 的线性（Pearson）和秩（Spearman）相关性：

指标类别	代表指标	排名表现
能量比	SDR, SI-SDR, SIR, SAR	中等偏下
经典感知	PESQ, STOI, ESTOI	中等
学习型	DNSMOS, SpeechBERTscore	中上
MAPSS	PS, PM	几乎总排第1或第2

互补性验证：PS 和 PM 的归一化互信息（NMI）分析表明二者高度互补——PS 捕捉泄漏，PM 捕捉失真，提供不重叠的评估视角。

消融实验¶

编码器选择：wav2vec 2.0 表现最佳，其自监督表示与人类感知对齐度最高

失真集大小：\(N_p \in [60,70]\) 为最佳范围，过少覆盖不足，过多收益递减

误差半径验证：帧级确定性误差半径在几乎所有场景下不改变 PS/PM 排名，高概率置信区间进一步提供统计保证

关键发现¶

解耦确实有效：PS 专门捕获泄漏、PM 专门捕获失真，NMI 证实互补性
自监督表征 + 流形学习 > 传统特征：扩散映射下自然形成有意义的感知聚类
帧级粒度价值：75 fps 的帧级评估可精细定位分离质量问题
跨语言/跨模态泛化：英语、西班牙语和音乐场景均表现优异

亮点与洞察¶

首个功能性解耦泄漏与失真的音源分离评估指标，填补方法论空白
"感知-几何假说"被实验验证：扩散距离→欧氏距离→感知相似性的链条成立
可微性使其可作为训练损失，打破评估与优化的壁垒
基础失真集设计精巧：从轻度到重度创建参考信号的"感知邻域"
首次为分离度量提供理论误差保证：确定性半径 + 非渐近置信区间

局限与展望¶

每源需编码 60-70 种失真，计算开销较高，实时应用受限
依赖 wav2vec 2.0，对非语音音频（纯乐器）可能非最优
\(N_f \geq 2\) 假设：PS 需要非归属聚类，单源增强场景下无法直接使用
手工失真集可能存在盲区，可探索数据驱动的失真生成
西班牙语秩相关较弱，跨语言鲁棒性需更多验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 全新评估范式，理论和实践均有开创性贡献
技术深度: ⭐⭐⭐⭐⭐ — 扩散映射推导充分，误差保证完整且非平凡
实验充分度: ⭐⭐⭐⭐ — 18 种基线对比全面，但仅用一个评估数据库
实用价值: ⭐⭐⭐⭐ — 可微可做训练损失，但计算开销可能限制大规模应用