Estimation of Stochastic Optimal Transport Maps¶

会议: NeurIPS 2025
arXiv: 2512.09499
代码: 无
领域: 最优传输 / 统计学习理论
关键词: 随机OT映射, 传输误差, 有限样本估计, 鲁棒统计, Markov核

一句话总结¶

提出适用于随机OT映射的传输误差指标 \(\mathcal{E}_p\)（由优化间隙与可行性间隙组成），在无需Brenier映射存在或唯一性的最小假设下，构造了计算高效的rounding估计器达到近最优收敛率 \(\tilde{O}(n^{-1/(d+2p)})\)，并推广至Hölder连续核与对抗污染场景，建立了首个通用OT映射估计理论。

研究背景与动机¶

最优传输（OT）为比较和变换概率分布提供了基于几何的原则性框架，其核心——传输映射——在域适应、单细胞基因组学、风格迁移和生成建模等领域有广泛应用。现有OT映射估计理论几乎完全依赖Brenier定理（\(p=2\)、源分布绝对连续）来保证唯一确定性映射的存在，并在此基础上附加密度上下界、Lipschitz连续性和Hölder光滑性等难以验证的正则性假设以获得定量误差界。

然而，许多实际场景根本不满足这些前提。例如在域适应中，源分布可能位于低维流形上（如文本到图像翻译），确定性映射不存在；在单细胞发育轨迹重建中，发育路径随时间分叉，从早期快照到晚期快照的保测映射本质上必须是随机的。此外，现有理论使用的 \(L^p(\mu)\) 误差要求映射唯一，否则该指标没有意义。

本文的核心切入点是：放弃要求映射唯一或确定性，转而定义一个新的传输质量评价指标 \(\mathcal{E}_p\)，使其同时适用于确定性和随机传输映射（即Markov核），从而在最小假设下建立通用的映射估计理论。

方法详解¶

整体框架¶

论文围绕新定义的传输误差 \(\mathcal{E}_p\) 展开四层递进分析：(1) 建立基本性质和稳定性引理；(2) 在无正则性假设下给出有限样本估计器和收敛率；(3) 在Hölder连续核假设下通过WDRO估计器获得更优收敛率；(4) 在TV+\(W_p\)混合对抗污染模型下给出鲁棒估计保证。

关键设计¶

传输误差 \(\mathcal{E}_p\)（核心贡献）:
- 功能：评价Markov核 \(\kappa\) 对于 \(W_p(\mu,\nu)\) 问题的传输质量
- 核心思路：\(\mathcal{E}_p(\kappa;\mu,\nu) = [\text{传输成本} - W_p(\mu,\nu)]_+ + W_p(\kappa_\sharp\mu, \nu)\)，第一项为"优化间隙"（成本超出最优值多少），第二项为"可行性间隙"（推前测度偏离目标多少）
- 设计动机：\(\mathcal{E}_p = 0\) 当且仅当 \(\kappa\) 为最优核（无需唯一性），同时 \(\mathcal{E}_p \leq 2\|T - T^\star\|_{L^p(\mu)}\) 保持对已有 \(L^p\) 基准的兼容性（Proposition 1）。Figure 2展示了 \(L^p\) 可与 \(\mathcal{E}_p\) 任意大地偏离——当确定性映射高度振荡时，点态偏差极大但传输质量差别很小
稳定性引理体系（技术基础）:
- 功能：刻画 \(\mathcal{E}_p\) 对源分布和目标分布扰动的响应
- 核心思路：Lemma 3给出关于 \(\nu\) 的 \(W_p\) 稳定性（\(2W_p(\nu,\nu')\)）；Lemma 4给出在核Hölder连续时关于 \(\mu\) 的 \(W_p\) 稳定性；Lemma 5给出关于 \(\mu\) 的TV稳定性；Lemma 6关于核的组合稳定性
- 设计动机：这些引理构成后续所有估计率分析的骨架——将"population层面的误差"分解为"empirical层面的误差+经验分布到总体分布的逼近误差"
Rounding估计器（主力估计器）:
- 功能：在仅要求亚高斯性（或有界\(2p\)阶矩）的最小假设下达到近最优收敛率
- 核心思路：三步法——(a)将经验测度 \(\hat\mu_n\) 通过rounding函数投射到正则网格上得 \(\mu_n'\)；(b)在网格上求解近似最优核 \(\bar\kappa_n\)；(c)返回组合核 \(\hat\kappa_n = \bar\kappa_n \circ r_{\mathcal{P}}\)
- 设计动机：rounding引入TV扰动（而非\(W_p\)扰动），可直接利用TV稳定性Lemma 5获得更锋利的速率。关键推导链：\(\mathcal{E}_p(\hat\kappa_n;\mu,\nu) \leq \mathcal{E}_p(\bar\kappa_n;\mu',\nu) + \sqrt{d}r \lesssim W_p(\nu,\hat\nu_n) + (nr^d)^{-1/(2p)} + \sqrt{d}r\)
- 结果：\(\mathbb{E}[\mathcal{E}_p(\hat\kappa_n;\mu,\nu)] = \tilde{O}_{p,d}(n^{-1/(d+2p)})\)，计算量为 \(O(n^{2+o_d(1)})\)（一次低精度熵OT调用）

损失函数 / 训练策略¶

非机器学习训练方法，而是统计估计框架。估计器的性能通过期望传输误差 \(\mathbb{E}[\mathcal{E}_p]\) 衡量。Rounding估计器的超参数（网格边长 \(r\)、截断半径 \(R\)、求解精度 \(\delta\)）均可独立于 \(\mu,\nu\) 调节。

实验关键数据¶

主实验¶

论文在两个合成场景（Setting A: 1D→2D随机分裂、Setting B: 正交象限推开）中验证理论。

设置	维度d	估计器	度量	趋势
A	3,5,10	NN	L1	始终>1，无法收敛
A	3,5,10	NN	ℰ1	随n增大持续下降
A	3,5,10	Rounding	ℰ1	持续下降，高维与NN差距缩小
B	3,5,10	NN vs Rounding	ℰ1	NN略优但差距随d缩小

消融实验¶

配置	关键指标	说明
ℰ1 vs L1 (Setting A)	NN的L1>1 vs ℰ1→0	\(L^p\)在不规则OT映射时完全失效
d=1特殊情况	收敛率\(n^{-1/2}\)	利用KS距离稳定性可提升到参数速率

关键发现¶

\(\mathcal{E}_p\)在确定性映射不存在或高度不规则时仍能有效评估传输质量，而 \(L^p\) 指标完全失效
最近邻(NN)估计器在\(\mathcal{E}_1\)下的经验表现优于rounding估计器，但差距在高维缩小
收敛率上界 \(n^{-1/(d+2p)}\) 与下界 \(n^{-1/(d\vee 2p)}\) 之间存在间隙，\(d=1\)时可封闭

亮点与洞察¶

首个通用OT映射估计理论：同时覆盖确定性和随机映射，假设从"Brenier映射存在+光滑"放宽至"矩条件"
\(\mathcal{E}_p\)是评价指标而非训练目标：论文在Remark 5中发现用 \(\mathcal{E}_p\) 直接训练神经映射效果不佳（梯度信号弱于Monge gap），其价值在于提供可证明的评价保证
TV与\(W_p\)污染的干净解耦：\(\mathcal{E}_p\) 的双重稳定性使得对抗估计分析极为简洁，两种污染各自独立贡献误差项
鲁棒估计中的本质分离：minimax下界中 \(d^{1/4}\rho^{1/2}\) 项证明鲁棒映射估计比鲁棒分布估计本质上更困难——无法从分布估计的 \(W_p\) 保证无损推导映射估计保证

局限与展望¶

收敛率在 \(d \geq 3\) 时存在gap（上界 \(n^{-1/(d+2p)}\) vs 下界 \(n^{-1/(d\vee 2p)}\)），多尺度分析方法可能有助于封闭
WDRO估计器虽达到信息论最优速率但计算上不可行，需要开发计算高效的Lipschitz核估计器
对神经网络映射估计器在 \(\mathcal{E}_p\) 下的收敛率分析是重要的未来方向
框架原则上可扩展至熵OT、弱OT、条件OT等变体，但稳定性引理需要针对性适配

评分¶

新颖性: ⭐⭐⭐⭐⭐ 开创性地定义了适用于随机OT映射的传输误差指标，建立了完整的理论体系
实验充分度: ⭐⭐⭐ 以理论为主，合成实验充分验证了关键性质但未涉及真实应用
写作质量: ⭐⭐⭐⭐⭐ 定理-引理-推论层次清晰，图示直观，技术与直觉兼备
价值: ⭐⭐⭐⭐⭐ 解决了OT映射估计理论的根本性覆盖范围问题，对统计学习和应用OT社区有深远影响