跳转至

Partial Information Decomposition via Normalizing Flows in Latent Gaussian Distributions

会议: NeurIPS 2025
arXiv: 2510.04417
代码: https://github.com/warrenzha/flow-pid
领域: 可解释性 / 信息论
关键词: 部分信息分解、normalizing flow、高斯分布、多模态学习、互信息

一句话总结

提出两个互补工具:Thin-PID 是一种高效高斯 PID 算法(比已有方法快 10×),Flow-PID 用 normalizing flow 将任意输入分布转换为高斯再计算 PID,解决了 PID 在连续高维数据上不可行的问题,并证明了"联合高斯解是否最优"这一开放问题。

研究背景与动机

领域现状:部分信息分解(PID)是信息论中量化多源信息交互的框架,将两个信源 \(X_1, X_2\) 关于目标 \(Y\) 的总互信息分解为四个非负部分:冗余信息 \(R\)(两者共有)、唯一信息 \(U_1, U_2\)(各自独有)和协同信息 \(S\)(必须结合才有)。PID 已在多模态学习中被用于理解模态交互。

现有痛点:PID 的计算涉及在满足边际约束的联合分布集合上求解优化问题,对离散小规模数据可行(CVX),但对连续高维数据几乎不可能——互信息和熵的估计本身就极其困难。BATCH 方法用神经网络参数化但精度差。Tilde-PID 限制为高斯但未证明最优性。

核心矛盾:PID 的理论优美性与计算不可行性之间的鸿沟——理论上能精确量化模态交互,实际上只能处理离散低维数据。

本文目标 (1) 证明高斯 PID 中联合高斯解的最优性;(2) 设计比 Tilde-PID 更高效的算法;(3) 推广到非高斯高维连续数据。

切入角度:两个洞察——高斯分布下 PID 有闭式解且可高效计算;normalizing flow 的可逆性保证互信息不变,可以先变换到高斯空间再算 PID。

核心 idea:用 normalizing flow 把数据变成高斯,然后在高斯空间里高效算 PID。

方法详解

整体框架

分两层:(1) Thin-PID 处理高斯 PID——将优化目标重新表述为最小化噪声相关矩阵的函数,用投影梯度下降求解;(2) Flow-PID 处理一般分布——训练 Cartesian product 的 normalizing flow \(f_1 \times f_2 \times f_Y\)\((X_1, X_2, Y)\) 映射到高斯边际空间,然后调用 Thin-PID。

关键设计

  1. Thin-PID:高效高斯 PID 算法:

    • 功能:高效求解已知边际为高斯时的 PID 优化问题
    • 核心思路:将 PID 重新解释为高斯广播信道模型——\(Y\) 是发送信号,\(X_1 = H_1 Y + n_1\), \(X_2 = H_2 Y + n_2\)。协同信息等价于最不利噪声相关下的合作增益。优化变量只是噪声交叉协方差矩阵 \(\Sigma_{n_1 n_2}^{\text{off}}\)\(d_{X_1} \times d_{X_2}\)),用投影梯度下降求解。梯度有闭式解(Proposition 3.4),投影通过 SVD 实现(截断奇异值到 \([0,1]\))。复杂度 \(O(\min(d_{X_1}, d_{X_2})^3)\)
    • 设计动机:Tilde-PID 需要对完整 \((d_{X_1}+d_{X_2}) \times (d_{X_1}+d_{X_2})\) 矩阵做特征分解,Thin-PID 只需对 \(d_{X_1} \times d_{X_2}\) 的交叉协方差做 SVD,当 \(d_{X_1} \gg d_{X_2}\) 时加速极显著
  2. 联合高斯最优性证明:

    • 功能:证明 GPID 定义下最优联合分布必然是高斯的(解决开放问题)
    • 核心思路:关键引理:对任意 \(q\)\(h_q(Y|X_1,X_2) \leq h_{\hat{q}}(Y|X_1,X_2)\),其中 \(\hat{q}\) 是与 \(q\) 有相同一二阶矩的高斯分布(利用条件熵的高斯上界性质)。由于优化目标等价于最大化 \(h_q(Y|X_1,X_2)\),且 \(\hat{q}\) 保持边际约束,高斯解必然是最优的
    • 设计动机:之前的 Tilde-PID 只是假设高斯解够好而没有证明。这个证明将"启发式近似"升级为"精确解"
  3. Flow-PID:normalizing flow 编码器:

    • 功能:将非高斯连续数据转换到边际高斯空间,使 Thin-PID 可用
    • 核心思路:训练三个独立 normalizing flow \(f_1, f_2, f_Y\),使 \((f_1(X_1), f_Y(Y))\)\((f_2(X_2), f_Y(Y))\) 的边际近似高斯。由 Theorem 4.1,可逆映射保持总互信息不变;Corollary 4.2 保证 PID 也不变。训练目标是最小化到变分高斯边际的 KL 散度
    • 设计动机:直接估计高维 MI 极难,但高斯 MI 有闭式解。flow 的可逆性保证潜在空间的 PID 等价于原始空间

训练策略

Flow-PID 损失为两个边际的高斯边际正则化之和:\(\mathcal{L}_{\text{flow}} = \mathcal{L}_\mathcal{N}(\{(X_1, Y)\}) + \mathcal{L}_\mathcal{N}(\{(X_2, Y)\})\),等价于最大化变换后样本的高斯对数似然加 Jacobian 项。

实验关键数据

主实验:非高斯合成数据

维度 方法 R U1 U2 S 说明
(2,2,2) Tilde-PID 0.18 0.29 0.76 0.02 严重偏差
(2,2,2) Flow-PID 0.62 0.91 0.50 0.11 接近真值
(2,2,2) 真值 0.79 1.46 0.58 0.18
(100,60,2) Tilde-PID 1.48 0 1.97 0.13 高维下更差
(100,60,2) Flow-PID 4.34 0.36 0 0.25 接近真值
(100,60,2) 真值 5.71 1.01 0 0.57

消融:计算效率

方法 主要瓶颈 \(\min(d_{X_1},d_{X_2})>100\)
Thin-PID SVD on \(\min(d_{X_1},d_{X_2})\) 10×+ 快于 Tilde-PID
Tilde-PID ED on \(d_{X_1}+d_{X_2}\) 基线

关键发现

  • Thin-PID 精度极高:高斯合成数据上绝对误差 \(<10^{-12}\),Tilde-PID 误差 \(>10^{-8}\)
  • Flow-PID 正确恢复了非高斯数据的交互结构:Tilde-PID 直接用样本协方差导致交互类型完全错误(如将唯一信息误判为冗余),Flow-PID 通过学习逆变换正确识别
  • 协同信息最难估计:BATCH 倾向于高估冗余、低估协同;Flow-PID 改善了这一偏差
  • 真实多模态数据应用:在 MultiBench 6 个数据集上,Flow-PID 识别的总互信息远大于 BATCH,与模型实际表现更一致
  • 模型选择准确率:Flow-PID 的 PID 估计用于多模态模型选择达到 96-100% 准确率

亮点与洞察

  • 解决开放问题的理论贡献:证明联合高斯解在 GPID 中的最优性虽然证明不复杂,但意义重大——将 Tilde-PID 的"启发式"升级为"精确解"
  • 广播信道重新解释非常巧妙:将 PID 等价为高斯广播信道中的最不利噪声优化,建立了信息论和多模态学习之间的优美桥梁
  • Flow 保持 PID 不变的理论保证:不是"训练一个好的 encoder 然后拿来用",而是有严格数学保证可逆映射保持整个 PID 分解不变

局限与展望

  • Flow-PID 的精度依赖 normalizing flow 对真实分布的逼近质量,复杂分布可能需要更强的 flow 架构
  • 目前只处理两个信源的 PID,扩展到多信源理论可行但复杂度增加
  • 真实数据集上没有 PID ground truth,只能通过间接指标评估
  • Thin-PID 的白化预处理假设噪声独立,某些场景中可能过强
  • 未与 MINE 等神经互信息估计器做直接比较

相关工作与启发

  • vs CVX/BATCH:CVX 只能处理离散小规模数据,BATCH 用神经网络参数化但精度差(协同信息被严重低估);Flow-PID 在连续高维数据上准确且高效
  • vs Tilde-PID:同样的高斯 PID 定义但计算更慢约 10×,且未证明高斯解最优性
  • vs MINE/NWJ:这些方法只估计 MI 不能直接用于 PID,因为 PID 还需在约束集上优化

评分

  • 新颖性: ⭐⭐⭐⭐ 解决开放问题 + flow 编码器设计都有原创性
  • 实验充分度: ⭐⭐⭐⭐ 合成数据有 ground truth 验证,真实数据覆盖多个 benchmark
  • 写作质量: ⭐⭐⭐⭐ 数学表述严谨,paper 组织清晰
  • 价值: ⭐⭐⭐⭐ 将 PID 推广到实际多模态场景,对理解模态交互有重要意义