ICLR 2026 最优传输概率度量表示学习积分概率度量 Sobolev IPM Tree-Sliced Wasserstein 高阶最优传输球面分布

Tree-sliced Sobolev IPM¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HHNQSXaLkF
代码: https://github.com/thanhquangtran/TS-Sobolev
领域: 最优传输 / 概率度量 / 表示学习
关键词: 积分概率度量, Sobolev IPM, Tree-Sliced Wasserstein, 高阶最优传输, 球面分布

一句话总结¶

本文用「树上可闭式求解的正则化 Sobolev IPM」替换 Tree-Sliced Wasserstein (TSW) 内核里那个只能在 \(p=1\) 闭式求解的 1-Wasserstein，得到 TS-Sobolev：一族对任意阶 \(p\ge 1\) 都能高效计算的树切片度量，\(p=1\) 时精确退回 TSW，\(p>1\) 时计算复杂度与 \(p=1\) 的 TSW 完全相同，并在梯度流、扩散模型、自监督和主题建模等下游任务上全面超越 SW/TSW 系列。

研究背景与动机¶

领域现状：比较两个概率分布是机器学习的基础操作（点云、词袋文档都是分布）。最优传输（OT）能给出尊重几何结构的距离，但 \(O(n^3\log n)\) 的复杂度让它对大数据不可用。Sliced Wasserstein (SW) 把高维分布往随机一维方向投影、利用一维 OT 的闭式解、再对各切片求平均，把复杂度压到排序级别 \(O(n\log n)\)。近年的 Tree-Sliced Wasserstein (TSW) 更进一步：把分布投影到「树度量空间」而非一维线，因为树上 1-Wasserstein 同样有闭式解，却能比单条直线表达更复杂的拓扑结构，下游性能更好。

现有痛点：TSW 的高效完全依赖于「树上 1-Wasserstein 有闭式解」这一事实——而这个解析解只对 \(p=1\) 成立。对一般的 \(p>1\)，树上的 \(p\)-Wasserstein 没有已知闭式解，算起来很贵，于是 TSW 实际上被锁死在 \(p=1\)。

核心矛盾：但在基于梯度的学习里，大家其实更想要高阶度量（\(p>1\)）。\(p>1\) 的 Wasserstein 具有严格凸性、梯度更平滑，优化景观更友好；而 \(p=1\) 的梯度是常数（与误差大小无关），训练时不够稳定。于是出现了「想用 \(p>1\) 的优化优势」和「树上 \(p>1\) 算不动」之间的根本张力。

切入角度与核心 idea：作者绕开「直接算树上 \(p\)-Wasserstein」这条死路，转而回到积分概率度量（IPM）框架。IPM 通过在某个函数类里找一个最能区分两分布的「评论函数（critic）」来定义距离；其中 Sobolev IPM 把 critic 约束在 Sobolev 范数的单位球内，理论性质好但历来没有闭式解。关键转机是 Le et al. (2025) 证明了：树上的正则化 Sobolev IPM 对任意 \(p\ge1\) 都有闭式解。本文正是把这个闭式 Sobolev IPM 嵌进 TSW 的树切片框架，一句话概括即「用可闭式求解的正则化 Sobolev IPM 取代 1-Wasserstein 作为树上内核」，从而解锁任意阶 \(p\)。

方法详解¶

整体框架¶

TS-Sobolev 的鸟瞰非常清晰：它沿用 TSW 的「把欧氏分布投影到随机树、在树上算一个闭式距离、再对很多棵树求期望」三段式管线，唯一改动是把树上那一步的距离从 1-Wasserstein 换成正则化 Sobolev IPM。

具体地，给定两个欧氏空间分布 \(\mu,\nu\in\mathcal P(\mathbb R^d)\)：① 从采样分布 \(\sigma\) 抽出一个树系统 \(\mathcal T\)（一组带树结构的直线）；② 用树系统上的 Radon 变换 \(R^\alpha_{\mathcal T}\) 把 \(\mu,\nu\) 的密度投影成树上的测度 \(\mu_{\mathcal T},\nu_{\mathcal T}\)；③ 在该树上计算正则化 Sobolev IPM \(\hat S_p(\mu_{\mathcal T},\nu_{\mathcal T})\)（闭式，对任意 \(p\) 都能算）；④ 对 \(L\) 棵随机树系统做蒙特卡洛平均，得到最终距离。形式上

\[\text{TS-Sobolev}_p(\mu,\nu):=\left(\int_{\mathbb T}\hat S_p(\mu_{\mathcal T},\nu_{\mathcal T})^p\,d\sigma(\mathcal T)\right)^{1/p}.\]

因为整套树系统、采样分布 \(\sigma\)、分裂映射 \(\alpha\) 都直接复用 Db-TSW 的成熟配置，且 \(p=1\) 时 \(\hat S_1\) 精确等于树上 1-Wasserstein，所以 TS-Sobolev 是 TSW 的严格泛化 + 即插即用替换。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：欧氏分布<br/>μ, ν ∈ P(R^d)"] --> B["采样树系统 T ~ σ<br/>(一组带树结构的直线)"]
    B --> C["树系统 Radon 变换<br/>投影成树上测度 μ_T, ν_T"]
    C --> D["正则化 Sobolev IPM<br/>闭式 Ŝ_p，对任意 p≥1 可算"]
    D -->|对 L 棵树<br/>蒙特卡洛平均| E["TS-Sobolev_p(μ, ν)"]
    E -->|换球面树系统<br/>+球面 Radon| F["STS-Sobolev_p<br/>球面分布版本"]

关键设计¶

1. 正则化 Sobolev IPM：给树上 \(p>1\) 一个闭式且优化友好的内核

这是全文的发动机，直接解决「树上 \(p>1\) 没闭式解」的痛点。标准 Sobolev IPM 定义为在 Sobolev 单位球 \(B(p')\) 内找 critic \(f\) 最大化两分布期望之差 \(S_p(\mu,\nu)=\sup_{f\in B(p')}|\int f\,d\mu-\int f\,d\nu|\)（\(p'\) 是 \(p\) 的共轭指数），本身不可解。作者采用 Le et al. (2025) 的正则化版本，它对树上连续测度有显式积分解

\[\hat S_p(\mu,\nu)^p=\int_{\mathcal T}\hat w(x)^{1-p}\,\big|\mu(\Lambda(x))-\nu(\Lambda(x))\big|^p\,\omega(dx),\]

其中 \(\Lambda(x)\) 是以 \(x\) 为根的子树、\(\hat w(x):=1+\omega(\Lambda(x))\) 是权重函数。对节点上的离散测度，积分进一步化简为沿树边 \(E\) 的高效求和 \(\hat S_p(\mu,\nu)^p=\sum_{e\in E}\beta_e\,|\mu(\gamma_e)-\nu(\gamma_e)|^p\)，其中系数 \(\beta_e\) 可预计算（\(p=2\) 时为 \(\log(1+\frac{w_e}{1+\omega(\gamma_e)})\)，其余情形为 \(\frac{(1+\omega(\gamma_e)+w_e)^{2-p}-(1+\omega(\gamma_e))^{2-p}}{2-p}\)）。

这个形式不仅闭式可算，还自带两个优化优势：其一，\(p>1\) 时梯度随误差幅值 \(|\mu(\Lambda(x))-\nu(\Lambda(x))|\) 缩放（而非 \(p=1\) 的常数梯度），优化更平滑；其二，\(\hat w(x)^{1-p}\) 这一项会压低靠近根部的全局梯度，让优化把精力放在叶子端的细粒度局部结构上——这正是它在扩散模型上能保住图像细节的理论来源，也是相对标准 \(p\)-Wasserstein 的独有好处。

2. 树切片框架：把欧氏高维分布搬到能用 Sobolev IPM 的树上

Sobolev IPM 只对「支撑在树上的测度」有效，而真实数据住在 \(\mathbb R^d\)，这个设计负责架桥。作者复用 Db-TSW 的树切片机制：一条直线是 \(\mathbb R^d\times S^{d-1}\) 的元素，\(k\) 条线再赋予树结构就构成树系统 \(\mathcal T\)，其上所有点构成一个连续树度量空间。通过树系统上的 Radon 变换 \(R^\alpha_{\mathcal T}f(x,l_i)=\int_{\mathbb R^d}f(y)\,\alpha(y,\mathcal T)_i\,\delta(t_x-\langle y-x_i,\theta_i\rangle)\,dy\)（\(\alpha\) 是把质量分配到各条线的分裂映射），把欧氏密度投影成树上测度。该算子是单射的，保证了信息不被投影抹掉；而采用 \(E(d)\)-不变（平移+正交变换不变）的分裂映射 \(\alpha\) 是关键——本文证明（Theorem 3.2）正是这种不变性保证了 TS-Sobolev 是 \(\mathcal P(\mathbb R^d)\) 上的合法度量，比 2-Wasserstein 仅「拥有」该不变性更进一步，是度量性的根基。同时 Theorem 3.3 给出 \(\text{TS-Sobolev}_p^p\le\text{TSW}\) 且 \(p=1\) 取等，从理论上钉死「TS-Sobolev 是 TSW 的泛化」。

3. 蒙特卡洛聚合与复杂度对齐：高阶度量却不付额外代价

式 (9) 里对所有树系统求期望的积分不可解，用 \(L\) 棵采样树系统做蒙特卡洛估计 \(\widehat{\text{TS-Sobolev}}_p=(\frac1L\sum_{i=1}^L\hat S_p(\mu_{\mathcal T_i},\nu_{\mathcal T_i})^p)^{1/p}\)，逼近误差以 \(O(L^{-1/2})\) 收敛（Theorem 3.5）。最关键的是复杂度账：整体为 \(O(Lkn\log n+Lkdn)\)（\(k\) 为每棵树线数、\(d\) 为维度），与一阶 Db-TSW 完全相同，因为预计算 \(\beta_e\) 只增加可忽略的 \(O(Lkn)\)。这意味着用户白拿了 \(p>1\) 的优化优势，却没有付出任何运行时代价；超参上则存在「增大 \(k\) 提升表达力 vs 增大 \(L\) 降方差」的自然权衡。

4. 球面扩展 STS-Sobolev：同一套机制搬到超球面

许多表示学习把特征归一化到超球面（如自监督的 uniformity 项），所以作者把框架推广到 \(\mu,\nu\in\mathcal P(S^d)\)。做法是把欧氏树系统换成球面树系统、把 Radon 变换换成球面 Radon 变换，其余完全对称，定义 \(\text{STS-Sobolev}_p(\mu,\nu):=(\int_{\mathbb T}\hat S_p(\mu_{\mathcal T},\nu_{\mathcal T})^p\,d\sigma(\mathcal T))^{1/p}\)。由于实现沿用了 STSW 的分裂映射与采样方式，\(p=1\) 时 STS-Sobolev 精确退回球面 TSW (STSW)，保持了与欧氏版一致的「泛化 + 即插即用」性质。

损失函数 / 训练策略¶

TS-Sobolev 本身是一个距离，按下游任务插入不同目标即可。例如自监督学习里替换对比损失的 uniformity 项：\(L=\frac1n\sum_i\|z_i^A-z_i^B\|_2^2+\frac\lambda2(\text{STS-Sobolev}_p(z^A,\nu)+\text{STS-Sobolev}_p(z^B,\nu))\)，其中 \(\nu=U(S^d)\) 是球面均匀分布；主题建模里则用 STS-Sobolev 替换 VAE 的 KL 正则项。实验主要取 \(p\in\{1.2,1.5,2\}\)。

实验关键数据¶

主实验¶

欧氏梯度流（Table 1，Wasserstein 距离，越小越好）：在 8 Gaussians 与 Gaussian 30d 上，TS-Sobolev 的最终收敛优于所有 SW/TSW 基线。

数据集	指标(2500 iter)	TS-Sobolev\(_{1.2}\)	最强基线 Db-TSW	TSW-SL
8 Gaussians	W 距离	8.88e-7	2.50e-6	1.17e-6
Gaussian 30d	W 距离(×10⁻¹)	1.40	1.78	1.93

扩散模型（Table 2，CIFAR-10 无条件生成，FID 越低越好）：把 TS-Sobolev 接进 DDGAN 的 AGME 损失。

模型	FID ↓	时间/epoch(s)
Db-TSW-DD\(^\perp\)（最强基线）	2.53	85
TS-Sobolev\(_{1.5}\)-DD	2.302 ± 0.004	84
TS-Sobolev\(_2\)-DD	2.277 ± 0.003	84

FID 较最强基线降低 0.228 / 0.253，且每 epoch 训练时间与其它树切片变体相当——性能提升不以效率为代价。

球面自监督（Table 3，CIFAR-10 + ResNet18 线性评测，准确率越高越好）：STS-Sobolev\(_2\) 取得 80.6% (Encoded) / 77.65% (Projected)，超过直接对手 STSW (80.53 / 76.78) 以及 SSW、S3W 系列。

主题建模（Table 5，主题一致性 \(C_V\) 越高越好）：

设置	方法	BBC	M10
欧氏	最强基线 (TSW-SL/EBRPSW)	0.796 / 0.490	—
欧氏	TS-Sobolev\(_2\)	0.805	0.497
球面	最强基线 (SSW/STSW)	0.755	0.408
球面	STS-Sobolev\(_2\)	0.776	0.423

关键发现¶

阶数 \(p\) 的影响有最优区间：欧氏梯度流里 TS-Sobolev\(_{1.2}\) 最好，而 TS-Sobolev\(_2\) 在 Gaussian 30d 上反而退化（最终 3.68，差于 \(p=1.2\) 的 1.40），说明 \(p\) 太大未必好；但在扩散、自监督、主题建模这些更复杂任务上 \(p=2\) 往往最优。\(p\) 是个需要按任务调的超参。
\(\hat w(x)^{1-p}\) 的根部降权是细节保持的关键：作者将扩散模型上 FID 的提升归因于该项让优化聚焦叶子端的细粒度局部结构，从而保住图像细节（理论与实证见原文 Appendix F.8，⚠️ 细节以原文为准）。
高阶不加成本：实测 TS-Sobolev 运行时几乎与一阶 Db-TSW 相同，验证了复杂度分析。

亮点与洞察¶

"换内核"式的优雅泛化：不去硬攻「树上 \(p\)-Wasserstein 闭式解」这道难题，而是换一类同样刻画分布差异、但恰好有闭式解的度量（Sobolev IPM），就把 TSW 从 \(p=1\) 解放到任意 \(p\)。这是把别人刚证出的理论结果（Le et al. 2025）精准嫁接到工程框架的典范。
\(p=1\) 精确退回 + 复杂度对齐，意味着它是真正的 drop-in replacement：任何现在用 Db-TSW 的代码，换成 TS-Sobolev 不增加成本、还多了一个可调的 \(p\) 旋钮。
根部降权权重 \(\hat w(x)^{1-p}\) 是可迁移的洞察：在任何树/层次结构的距离上，给靠近根的全局差异降权、放大叶子端局部差异，都可能有助于细粒度任务，这个 trick 可借鉴到层次化表示或多尺度损失设计。

局限与展望¶

作者承认的局限：TS-Sobolev 只能比较平衡测度（总质量相等），无法处理不平衡 OT（输入分布质量不同）的情形；作者把扩展到 unbalanced OT 列为未来方向。
自己发现的局限：阶数 \(p\) 缺乏自动选择机制，从 Gaussian 30d 上 \(p=2\) 反而变差可见 \(p\) 对任务敏感，目前要靠经验/调参；正则化 Sobolev IPM 是一个有偏于标准 Sobolev IPM 的代理，正则化带来的近似偏差对最终度量性质的影响文中未深入量化。
改进思路：可探索按任务/数据自适应选 \(p\)（甚至每棵树/每条边用不同 \(p\)），以及把根部降权权重做成可学习的尺度函数。

评分¶

新颖性: ⭐⭐⭐⭐ 不是全新框架，但「用闭式 Sobolev IPM 替换 1-Wasserstein 解锁任意阶 \(p\)」的切入点干净有力。
实验充分度: ⭐⭐⭐⭐ 覆盖梯度流、扩散、自监督、主题建模、欧氏与球面双设置，基线全面。
写作质量: ⭐⭐⭐⭐ 理论与动机衔接清晰，复杂度账算得明白；部分关键机制细节压在附录。
价值: ⭐⭐⭐⭐ 即插即用、零额外成本、多一个 \(p\) 旋钮，对所有用 TSW 的下游都有直接实用价值。