跳转至

A Data-Driven Prism: Multi-View Source Separation with Diffusion Model Priors

会议: NeurIPS 2025
arXiv: 2510.05205
代码: GitHub
领域: 扩散模型 / 科学计算 / 信号分离
关键词: source separation, diffusion model, multi-view, expectation-maximization, Bayesian inverse problem

一句话总结

提出 DDPRISM 方法,利用多视图观测中不同线性变换的结构性差异,在 EM 框架下为每个未知源学习独立的扩散模型先验,无需预先获得任何单独的源样本即可完成源分离和后验采样,在合成问题和真实星系观测上超越现有方法。

研究背景与动机

领域现状:在自然科学中,许多观测数据是多个未知源的混合——星系图像中多个天体叠加、脑电信号中多个神经元活动叠加、地震信号混合背景噪声。传统源分离方法(ICA、NMF、模板拟合)需要强先验假设或源的训练样本,形成鸡生蛋蛋生鸡的困境:分离源需要先验,但获得先验需要分离的源。

现有痛点:(a) 对比学习方法(CPCA、CLVM、CVAE)假设存在只含背景源的"背景视图"——但很多场景下每个视图都包含所有源;(b) 现有方法要么表达能力有限(线性模型)、要么无法处理不完整数据(CVAE);(c) 深度学习方法(VAE 等)需要干净的源样本作为训练数据。

核心矛盾:如何在没有任何单独源样本、且观测是有噪声、不完整、不同分辨率的情况下,学习每个源的先验分布?

本文目标 - 从混合观测中学习各源的先验分布(无监督) - 给定新观测,进行后验采样(分离各源)

切入角度:利用"多视图"结构——不同观测集包含相同源的不同线性变换(不同混合矩阵),提供了分离源的约束。结合扩散模型的强表达能力和 EM 框架的迭代优化,可以在无源样本的情况下逐步学习源先验。

核心 idea:在 EM 框架下,E 步用当前扩散模型做联合后验采样(分离源),M 步用分离出的源样本训练更好的扩散模型,迭代收敛到正确的源先验。

方法详解

整体框架

DDPRISM 是一个迭代式框架,由 E 步和 M 步交替组成。输入是多个视图的混合观测 \(\mathbf{y}^\alpha = \sum_\beta \mathbf{A}^{\alpha\beta} \mathbf{x}^\beta + \eta\),已知混合矩阵 \(\mathbf{A}^{\alpha\beta}\) 和噪声协方差 \(\Sigma^\alpha\)。输出是每个源 \(\beta\) 的独立扩散模型 \(d_{\theta^\beta}\),可以用于先验采样和后验推断。

关键设计

  1. 问题建模(多视图线性源分离)

    • 功能:统一建模各种科学信号分离问题。
    • 核心思路:观测 \(\mathbf{y}^\alpha_{i_\alpha} = \sum_{\beta=1}^{N_s} \mathbf{A}^{\alpha\beta}_{i_\alpha} \mathbf{x}^\beta_{i_\alpha} + \eta^\alpha_{i_\alpha}\),其中不同视图 \(\alpha\) 的观测维度 \(d_\alpha\) 可以不同,混合矩阵可以是不全秩的(产生不完整数据),各源独立。关键假设:混合矩阵已知,源之间独立,问题可辨识。
    • 设计动机:相比对比学习方法只能处理"背景+目标"两源设置,这个建模框架更一般——支持任意多源、任意多视图、每个视图可以包含所有源、观测可以是不完整的。
  2. M 步:独立训练源扩散模型

    • 功能:用分离出的源样本更新每个扩散模型。
    • 核心思路:由于源独立性,总优化目标分解为各源的独立优化:\(\Theta_{k+1} = \arg\max_\Theta \sum_\beta \mathbb{E}[\log q_{\theta^\beta}(\mathbf{x}_0^\beta)]\),每个扩散模型用标准去噪得分匹配目标(denoiser 参数化)单独训练。
    • 设计动机:源的独立性使得优化天然可分解,每个扩散模型只需关注自己的源,计算高效。
  3. E 步:联合后验采样(Joint Posterior Sampling)

    • 功能:给定当前扩散模型和观测,从联合后验 \(q_{\Theta_k}(\{\mathbf{x}^\beta\} | \mathbf{y}^\alpha, \{\mathbf{A}^{\alpha\beta}\})\) 中采样。
    • 核心思路:联合后验得分分解为先验得分(各扩散模型得分之和)+ 似然得分。先验得分直接由各扩散模型给出(源独立性)。似然得分利用 MMPS(Moment Matching Posterior Sampling)近似:用 Tweedie 公式估计 \(\mathbb{E}[\mathbf{x}_0 | \mathbf{x}_t]\)\(\mathbb{V}[\mathbf{x}_0 | \mathbf{x}_t]\),使得高斯近似下的似然积分可解析求解。关键创新是将 MMPS 从单源扩展到多源联合采样——似然中的协方差变为所有源方差的加权和:\(\Sigma^\alpha + \sum_\beta \mathbf{A}^{\alpha\beta} \mathbb{V}[\mathbf{x}_0^\beta | \mathbf{x}_t^\beta] (\mathbf{A}^{\alpha\beta})^\top\)
    • 设计动机:直接联合采样所有源(DDPRISM-Joint)比交替 Gibbs 采样(DDPRISM-Gibbs)更高效且效果更好——因为联合采样能利用源之间的约束关系。
  4. 多视图联合使用

    • 功能:利用所有视图的约束来分离源。
    • 核心思路:在 E 步中对每个视图独立计算似然得分,然后对所有视图的得分取平均。这等价于在所有视图上做联合最大似然。在 M 步中,从不同视图得到的源后验样本都用于训练对应的扩散模型。
    • 设计动机:多视图提供了额外的约束——即使单个视图的混合矩阵不可逆(数据不完整),多个视图联合可能使问题可辨识。

损失函数 / 训练策略

  • 扩散模型:variance exploding SDE,denoiser 参数化,predictor-corrector (PC) 采样
  • EM 迭代:典型 5-10 轮收敛
  • 似然得分计算:MMPS 近似 + conjugate gradient 求解矩阵逆(避免显式计算 Jacobian)

实验关键数据

主实验:1D 流形(合成)

方法 后验 PSNR↑ 后验 SD↓ 先验 SD↓
PCPCA 9.35 7.69 7.91
CLVM-Linear 9.58 5.80 5.86
CLVM-VAE 17.15 1.81 2.91
DDPRISM-Gibbs 12.66 3.96 3.92
DDPRISM-Joint 38.27 0.35 0.37

DDPRISM-Joint 在后验 PSNR 上达到 38.27(CLVM-VAE 仅 17.15),先验的 Sinkhorn 距离仅 0.37。

消融实验:3源 / 非对比设置

设置 DDPRISM-Joint 后验 PSNR 最佳基线 PSNR
对比 2 源 38.27 17.15 (CLVM-VAE)
对比 3 源 19.78 13.09 (CLVM-VAE)
混合 (f_mix=0.1) 24.15 17.69 (DDPRISM-Gibbs)

传统方法仅支持对比 2 源,DDPRISM 可处理 3 源和所有视图都包含所有源的混合设置。

真实数据:星系去混叠

在真实星系观测(GMNIST)上,DDPRISM-Joint 在后验和先验 FID 上全面超越所有基线。

关键发现

  • DDPRISM-Joint 远优于 DDPRISM-Gibbs:联合采样比 Gibbs 采样效果好得多,说明源之间的约束关系很重要
  • 非对比设置可行:即使没有只含单一源的"干净"视图,方法依然有效——这是相比所有基线的关键优势
  • 不同维度/分辨率可处理:观测维度可以不同于源维度,混合矩阵可以是不全秩的
  • EM 稳定收敛:通常 5-10 轮 EM 迭代即可收敛

亮点与洞察

  • 将 EM + 扩散后验采样应用于源分离是一个非常自然且优雅的组合:EM 提供迭代框架解决鸡蛋问题,扩散模型提供强大的先验表达能力,MMPS 提供高效的后验采样。
  • 多源联合后验采样(DDPRISM-Joint)的设计巧妙:利用源独立性将先验得分分解,利用线性观测模型使似然得分可解析计算,整体复杂度可控。
  • 不需要对比视图打破了现有方法的核心假设限制,大大拓展了适用范围——这在很多科学场景中是关键需求。
  • 实用性强:代码开源,直接可用于天文(星系去混叠)、神经科学(spike sorting)等实际问题。

局限与展望

  • 要求已知混合矩阵:不是盲源分离,需要知道每个观测中各源的线性变换——在很多场景中这并非总是已知的
  • 线性混合假设:只支持线性混合 \(\mathbf{y} = \sum \mathbf{A}\mathbf{x} + \eta\),非线性混合场景无法处理
  • 可辨识性假设:不是所有混合矩阵配置都能唯一分离源,作者假设问题可辨识但没提供可辨识性的充分条件
  • EM 的局部最优:Monte Carlo EM 没有单调递增的理论保证,可能收敛到局部最优
  • 计算成本:每轮 EM 需要对所有观测做后验采样(需要完整的扩散反向 SDE),然后重新训练扩散模型,多轮迭代计算量较大

相关工作与启发

  • vs CLVM-VAE:CLVM 用 VAE 作为源先验,DDPRISM 用扩散模型——后者表达能力更强,且支持非对比设置
  • vs PCPCA:线性方法,只能学习线性子空间中的目标源,无法处理复杂非线性源分布
  • vs DDPRISM-Gibbs:作者自己的 Gibbs 变体,交替固定一个源采样另一个,DDPRISM-Joint 联合采样效果显著更好
  • vs Ambient Diffusion:Ambient Diffusion 在不完整数据上训练扩散模型,DDPRISM 将其扩展到源分离场景
  • 可迁移思路:EM + 扩散后验采样的框架可能适用于其他隐变量问题——如混合分布学习、缺失数据补全等

评分

  • 新颖性: ⭐⭐⭐⭐ 将扩散后验采样嵌入 EM 框架做源分离是新颖的组合,但各组件都是已有技术
  • 实验充分度: ⭐⭐⭐⭐ 合成 1D 流形 + GMNIST + 真实星系观测,但缺少大规模高分辨率实验
  • 写作质量: ⭐⭐⭐⭐⭐ 问题建模清晰,推导严谨,动机和方法的关系链非常清楚
  • 价值: ⭐⭐⭐⭐ 对科学数据分析(天文、神经科学等)有实际意义,方法通用性强