Partial Information Decomposition via Normalizing Flows in Latent Gaussian Distributions¶
会议: NeurIPS 2025
arXiv: 2510.04417
代码: https://github.com/warrenzha/flow-pid
领域: 可解释性 / 信息论
关键词: 部分信息分解、normalizing flow、高斯分布、多模态学习、互信息
一句话总结¶
提出两个互补工具:Thin-PID 是一种高效高斯 PID 算法(比已有方法快 10×),Flow-PID 用 normalizing flow 将任意输入分布转换为高斯再计算 PID,解决了 PID 在连续高维数据上不可行的问题,并证明了"联合高斯解是否最优"这一开放问题。
研究背景与动机¶
领域现状:部分信息分解(PID)是信息论中量化多源信息交互的框架,将两个信源 \(X_1, X_2\) 关于目标 \(Y\) 的总互信息分解为四个非负部分:冗余信息 \(R\)(两者共有)、唯一信息 \(U_1, U_2\)(各自独有)和协同信息 \(S\)(必须结合才有)。PID 已在多模态学习中被用于理解模态交互。
现有痛点:PID 的计算涉及在满足边际约束的联合分布集合上求解优化问题,对离散小规模数据可行(CVX),但对连续高维数据几乎不可能——互信息和熵的估计本身就极其困难。BATCH 方法用神经网络参数化但精度差。Tilde-PID 限制为高斯但未证明最优性。
核心矛盾:PID 的理论优美性与计算不可行性之间的鸿沟——理论上能精确量化模态交互,实际上只能处理离散低维数据。
本文目标 (1) 证明高斯 PID 中联合高斯解的最优性;(2) 设计比 Tilde-PID 更高效的算法;(3) 推广到非高斯高维连续数据。
切入角度:两个洞察——高斯分布下 PID 有闭式解且可高效计算;normalizing flow 的可逆性保证互信息不变,可以先变换到高斯空间再算 PID。
核心 idea:用 normalizing flow 把数据变成高斯,然后在高斯空间里高效算 PID。
方法详解¶
整体框架¶
分两层:(1) Thin-PID 处理高斯 PID——将优化目标重新表述为最小化噪声相关矩阵的函数,用投影梯度下降求解;(2) Flow-PID 处理一般分布——训练 Cartesian product 的 normalizing flow \(f_1 \times f_2 \times f_Y\) 将 \((X_1, X_2, Y)\) 映射到高斯边际空间,然后调用 Thin-PID。
关键设计¶
-
Thin-PID:高效高斯 PID 算法:
- 功能:高效求解已知边际为高斯时的 PID 优化问题
- 核心思路:将 PID 重新解释为高斯广播信道模型——\(Y\) 是发送信号,\(X_1 = H_1 Y + n_1\), \(X_2 = H_2 Y + n_2\)。协同信息等价于最不利噪声相关下的合作增益。优化变量只是噪声交叉协方差矩阵 \(\Sigma_{n_1 n_2}^{\text{off}}\)(\(d_{X_1} \times d_{X_2}\)),用投影梯度下降求解。梯度有闭式解(Proposition 3.4),投影通过 SVD 实现(截断奇异值到 \([0,1]\))。复杂度 \(O(\min(d_{X_1}, d_{X_2})^3)\)
- 设计动机:Tilde-PID 需要对完整 \((d_{X_1}+d_{X_2}) \times (d_{X_1}+d_{X_2})\) 矩阵做特征分解,Thin-PID 只需对 \(d_{X_1} \times d_{X_2}\) 的交叉协方差做 SVD,当 \(d_{X_1} \gg d_{X_2}\) 时加速极显著
-
联合高斯最优性证明:
- 功能:证明 GPID 定义下最优联合分布必然是高斯的(解决开放问题)
- 核心思路:关键引理:对任意 \(q\),\(h_q(Y|X_1,X_2) \leq h_{\hat{q}}(Y|X_1,X_2)\),其中 \(\hat{q}\) 是与 \(q\) 有相同一二阶矩的高斯分布(利用条件熵的高斯上界性质)。由于优化目标等价于最大化 \(h_q(Y|X_1,X_2)\),且 \(\hat{q}\) 保持边际约束,高斯解必然是最优的
- 设计动机:之前的 Tilde-PID 只是假设高斯解够好而没有证明。这个证明将"启发式近似"升级为"精确解"
-
Flow-PID:normalizing flow 编码器:
- 功能:将非高斯连续数据转换到边际高斯空间,使 Thin-PID 可用
- 核心思路:训练三个独立 normalizing flow \(f_1, f_2, f_Y\),使 \((f_1(X_1), f_Y(Y))\) 和 \((f_2(X_2), f_Y(Y))\) 的边际近似高斯。由 Theorem 4.1,可逆映射保持总互信息不变;Corollary 4.2 保证 PID 也不变。训练目标是最小化到变分高斯边际的 KL 散度
- 设计动机:直接估计高维 MI 极难,但高斯 MI 有闭式解。flow 的可逆性保证潜在空间的 PID 等价于原始空间
训练策略¶
Flow-PID 损失为两个边际的高斯边际正则化之和:\(\mathcal{L}_{\text{flow}} = \mathcal{L}_\mathcal{N}(\{(X_1, Y)\}) + \mathcal{L}_\mathcal{N}(\{(X_2, Y)\})\),等价于最大化变换后样本的高斯对数似然加 Jacobian 项。
实验关键数据¶
主实验:非高斯合成数据¶
| 维度 | 方法 | R | U1 | U2 | S | 说明 |
|---|---|---|---|---|---|---|
| (2,2,2) | Tilde-PID | 0.18 | 0.29 | 0.76 | 0.02 | 严重偏差 |
| (2,2,2) | Flow-PID | 0.62 | 0.91 | 0.50 | 0.11 | 接近真值 |
| (2,2,2) | 真值 | 0.79 | 1.46 | 0.58 | 0.18 | — |
| (100,60,2) | Tilde-PID | 1.48 | 0 | 1.97 | 0.13 | 高维下更差 |
| (100,60,2) | Flow-PID | 4.34 | 0.36 | 0 | 0.25 | 接近真值 |
| (100,60,2) | 真值 | 5.71 | 1.01 | 0 | 0.57 | — |
消融:计算效率¶
| 方法 | 主要瓶颈 | \(\min(d_{X_1},d_{X_2})>100\) 时 |
|---|---|---|
| Thin-PID | SVD on \(\min(d_{X_1},d_{X_2})\) | 10×+ 快于 Tilde-PID |
| Tilde-PID | ED on \(d_{X_1}+d_{X_2}\) | 基线 |
关键发现¶
- Thin-PID 精度极高:高斯合成数据上绝对误差 \(<10^{-12}\),Tilde-PID 误差 \(>10^{-8}\)
- Flow-PID 正确恢复了非高斯数据的交互结构:Tilde-PID 直接用样本协方差导致交互类型完全错误(如将唯一信息误判为冗余),Flow-PID 通过学习逆变换正确识别
- 协同信息最难估计:BATCH 倾向于高估冗余、低估协同;Flow-PID 改善了这一偏差
- 真实多模态数据应用:在 MultiBench 6 个数据集上,Flow-PID 识别的总互信息远大于 BATCH,与模型实际表现更一致
- 模型选择准确率:Flow-PID 的 PID 估计用于多模态模型选择达到 96-100% 准确率
亮点与洞察¶
- 解决开放问题的理论贡献:证明联合高斯解在 GPID 中的最优性虽然证明不复杂,但意义重大——将 Tilde-PID 的"启发式"升级为"精确解"
- 广播信道重新解释非常巧妙:将 PID 等价为高斯广播信道中的最不利噪声优化,建立了信息论和多模态学习之间的优美桥梁
- Flow 保持 PID 不变的理论保证:不是"训练一个好的 encoder 然后拿来用",而是有严格数学保证可逆映射保持整个 PID 分解不变
局限与展望¶
- Flow-PID 的精度依赖 normalizing flow 对真实分布的逼近质量,复杂分布可能需要更强的 flow 架构
- 目前只处理两个信源的 PID,扩展到多信源理论可行但复杂度增加
- 真实数据集上没有 PID ground truth,只能通过间接指标评估
- Thin-PID 的白化预处理假设噪声独立,某些场景中可能过强
- 未与 MINE 等神经互信息估计器做直接比较
相关工作与启发¶
- vs CVX/BATCH:CVX 只能处理离散小规模数据,BATCH 用神经网络参数化但精度差(协同信息被严重低估);Flow-PID 在连续高维数据上准确且高效
- vs Tilde-PID:同样的高斯 PID 定义但计算更慢约 10×,且未证明高斯解最优性
- vs MINE/NWJ:这些方法只估计 MI 不能直接用于 PID,因为 PID 还需在约束集上优化
评分¶
- 新颖性: ⭐⭐⭐⭐ 解决开放问题 + flow 编码器设计都有原创性
- 实验充分度: ⭐⭐⭐⭐ 合成数据有 ground truth 验证,真实数据覆盖多个 benchmark
- 写作质量: ⭐⭐⭐⭐ 数学表述严谨,paper 组织清晰
- 价值: ⭐⭐⭐⭐ 将 PID 推广到实际多模态场景,对理解模态交互有重要意义