Neural Optimal Transport Meets Multivariate Conformal Prediction¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ylaKpd7tmA
代码: 待确认（作者承诺接收后开源）
领域: 优化 / 最优传输 / 不确定性量化
关键词: 向量分位数回归, 神经最优传输, 多元共形预测, 输入凸神经网络, 摊销优化

一句话总结¶

用神经最优传输学一个连续、循环单调的「向量分位数函数」（把参考分布搬运到条件分布），再把它诱导出的多元秩当作共形分数，构造出既有有限样本覆盖保证、又能自适应条件分布几何形状的多元预测区域。

研究背景与动机¶

领域现状：标量分位数回归（Koenker）是刻画异方差、偏态、尾部行为的基石；共形预测能给出分布无关、有限样本的边际覆盖保证。但这两套工具在多元响应 $Y\in\mathbb{R}^d$ 上都不好用。
现有痛点：$\mathbb{R}^d$ 上没有自然的全序，导致分位数难以定义。已有的多元共形方法要么逐坐标处理（产生保守的矩形盒子，忽略坐标间相关性），要么把多维问题压成一维标量分数（球/盒形状受限），要么依赖深度生成嵌入的启发式分数，缺乏理论指导，也不显式利用联合条件分布的几何。
核心矛盾：最优传输理论已经给出了多元秩/分位数的「正确」定义（把分位数看成从参考分布到 $Y$ 律的传输映射，恢复中心向外的秩与嵌套分位数区域），但之前没人用神经 OT 把向量分位数回归（VQR）规模化——已有连续 VQR 都困在「分位映射对 $X$ 嵌入仿射」的假设里，表达力受限，且只能给出离散逐点解，无法得到连续的秩函数。
本文目标：学一个连续、参数化、循环单调的条件向量分位数函数（CVQF）及其逆（多元秩），并把秩函数无缝接入共形预测，得到自适应几何的有效预测区域。
为什么是 OT：把分位数看成「从参考分布到目标分布的传输映射」，自然恢复中心向外的秩、嵌套的分位数区域，把一维序统计量干净地推广到高维。
核心 idea：(1) 用输入凸神经网络（PICNN）+ 摊销优化把神经 OT 扩展到「条件」VQR，从单一联合采样直接学凸势函数；(2) 把学到的多元秩范数 $\|\hat Q^{-1}_{Y|X}(y,x)\|$ 当共形分数，并证明在径向结构下这种「拉回球」就是体积最优的最高密度区域（HPD）。

方法详解¶

整体框架¶

方法分两段：先用神经 OT 学一个把参考分布 $F_U$（如球内均匀/高斯）搬到条件分布 $F_{Y|X=x}$ 的向量分位数映射 $Q_{Y|X}(u,x)=\nabla_u\varphi(u,x)$，它是某个凸势 $\varphi$ 的梯度（保证循环单调/可逆）；其逆 $Q^{-1}_{Y|X}(y,x)=\nabla_y\psi(y,x)$ 就是多元秩，且条件于 $X$ 服从 $F_U$。第二段把秩范数 $S=\|\hat Q^{-1}_{Y|X}(Y,X)\|$ 作为共形分数，用校准集分位数定一个半径 $\rho_{1-\alpha}$，预测集就是秩落在半径球内的所有 $y$。

flowchart LR
    A[参考分布 F_U<br/>球内均匀/高斯] -->|凸势 φθ 的梯度<br/>PICNN 参数化| B[向量分位数<br/>Q_Y|X = ∇φ]
    B -->|Legendre 共轭<br/>c-transform| C[多元秩<br/>Q⁻¹ = ∇ψ]
    C -->|秩范数当共形分数<br/>S = ‖Q⁻¹‖| D[校准集求<br/>1-α 分位 ρ]
    D --> E[拉回球预测集<br/>‖Q⁻¹y,x‖ ≤ ρ]
    C -.可选 reranking R.-> E

关键设计¶

1. 半对偶 + PICNN 把条件 VQR 变成单凸势优化（C-NQR）： 出发点是 Carlier 等人给出的 OT 对偶——条件向量分位数由一对互为 Legendre 共轭的凸势 $\varphi(u,x),\psi(y,x)$ 决定，$Q_{Y|X}=\nabla_u\varphi$、$Q^{-1}_{Y|X}=\nabla_y\psi$。本文把对偶问题改写成只对单个凸势 $\varphi_\theta$ 的优化，通过 c-transform 自动得到共轭：目标 $\mathcal V(\theta)=\mathbb E_{F_U\otimes F_X}[\varphi_\theta(U,X)]+\mathbb E_{F_{YX}}[\varphi_\theta^*(Y,X)]$，其中共轭 $\varphi^*_\theta(y,x)=\max_u\{u^\top y-\varphi_\theta(u,x)\}$。$\varphi_\theta$ 用 PICNN（部分输入凸网络）参数化，对第一参数 $u$ 保持凸性，从而梯度天然循环单调、映射可逆。靠 Danskin 定理，对共轭求导只需 $\varphi_\theta$ 的导数。训练时用 L-BFGS 精确求内层 argmax（式 7），外层对 PICNN 做 SGD。这一版直接但贵——每个 mini-batch 的每个 $x$ 都要解一次内层凸优化。

2. 摊销优化甩掉内层求解（AC-NQR）： 为消除反复解 argmax 的开销，引入一个摊销网络 $\tilde u_\vartheta(y,x)\approx\check u_{\varphi_\theta(\cdot,x)}(y)$ 直接预测近似最大化点，用二次损失逼着它对齐真实 argmax，并采用两时间尺度训练（摊销网络更新更快、$\varphi_\theta$ 更慢）。这样把「解优化」换成「前向预测一次」，实验里 AC-NQR 训练/推理都最快（约 8.9 sec/epoch、1.1 sec 推理 8192 点），是后续共形实验的默认基模型。作者还区分 $U$/$Y$ 两种参数化方向（下标 U/Y），因为对偶的对称性允许参数化任意一侧的势。

3. 熵正则化的可扩展变体（EC-NQR）： 当维度更高、解凸共轭仍嫌贵时，给原始 OT 问题加熵正则项，使目标平滑、共轭的 argmax 退化成 softmax 闭式，内层优化变成可采样逼近的期望，从而能用纯随机梯度求解、扩展性更好。代价是熵会引入偏差、可能扭曲分位映射几何，所以它是「扩展性 vs 几何保真」的折中选项。作者特别在附录用反例论证：循环单调性不可丢——不能拿普通非凸的 normalizing flow 替掉凸势，否则得不到统计上有意义的多元秩。

4. 秩范数共形分数 + 拉回球的体积最优性： 把多元秩范数 $S_i=\|\hat Q^{-1}_{Y|X}(Y_i,X_i)\|$ 当共形分数，取 $\{S_i\}$ 的 $\lceil(n{+}1)(1{-}\alpha)\rceil$ 阶统计量 $\rho_{1-\alpha}$，预测集 $\hat C^{pb}_\alpha(x)=\{y:\hat Q^{-1}_{Y|X}(y,x)\in B(0,\rho_{1-\alpha})\}$ 立刻享有有限样本边际覆盖 $\ge 1-\alpha$。这是 CQR 从一维到多维的自然推广。理论亮点（定理 3）：当逆传输的 Jacobian 行列式具径向结构（$\det\nabla_yQ^{-1}=j_x(\|Q^{-1}\|)$ 且 $r\mapsto\phi(r)j_x(r)$ 严格递减，涵盖椭圆/高斯情形）时，这个拉回球在所有满足条件覆盖 $\ge1-\alpha$ 的集合里体积最小，即它就是 $Y|X=x$ 的最高密度区域（HPD）——把「有效率」做到了理论极致。

5. Reranking 修正各向异性（RPB）： 拉回球隐含假设秩 $U=\hat Q^{-1}(Y,X)$ 径向对称；当模型被误设、秩呈各向异性时欧氏半径不可靠。本文把向量秩本身视作多元分数，套上 Thurin 等人的 OT-CP reranking 算子 $R$ 校正对参考分布 $F_U$ 的偏离，得到新分数 $S^{rpb}_i=\|R(U_i)\|$ 再做共形校准。实验显示 reranking 能让条件覆盖更锐利，但预测集体积变大，性价比存疑——侧面说明对作者的 VQR 模型而言「裸的 split conformal 已经够用」。

实验关键数据¶

主实验表格（生成质量，S-W2 越小越好；合成数据）¶

数据集	AC-NQRU（本文）	VQR	FN-VQR	CPQ	CVQR
Star	0.182	0.270	0.271	0.274	0.443
Glasses	0.771	1.964	2.017	0.931	1.170
Banana	0.073	0.389	0.398	0.237	0.401
Convex Glasses	0.657	1.961	1.954	0.793	0.953

训练时间 AC-NQRU 约 8.89 sec/epoch、推理 1.12 sec（8192 点），是所有变体里最快的；本文系列在多数数据集上 S-W2 同时拿到最佳/次佳。

消融实验表格（L2-UV，恢复真实分位算子，越小越好）¶

函数	数据集	C-NQRU	C-NQRY	AC-NQRU	AC-NQRY	CPF
$Q^{-1}_{Y	X}$	Convex Banana	3.784	0.212	0.106	0.206
$Q^{-1}_{Y	X}$	Convex Glasses	0.332	0.068	0.203	0.109
$Q_{U	X}$	Convex Banana	7.665	0.660	0.545	0.569

本文模型在重建真实分位算子上对 CPF 等基线有数量级优势（如 Convex Banana 的 9.479 → 0.106）。

关键发现¶

共形实验（scm20d/sgemm/blog/bio，$\alpha=0.1$）：PB / PBS 在 4 个数据集中的 3 个上同时给出有竞争力的条件覆盖和最小预测集体积（以 $\log V/d_y$ 衡量），明显优于 OT-CP、OT-CP+ 与局部椭球（ELL）。
残差版更稳：在信号残差 $s=y-\hat f(x)$（$\hat f$ 为随机森林）上再拟合 VQR 的 PBS/RPBS 变体进一步提升表现，说明 VQR 与点预测器可正交组合。
Reranking 是把双刃剑：RPB/RPBS 让 worst-slab 覆盖更锐利，但体积增大，作者判定对自家 VQR 模型「split conformal 就够」。
自适应性：与 Thurin/Klein 等并发的离散 OT-CP 不同（其集合大小不随 $X$ 变），本文直接学神经 VQR、不依赖条件密度估计，预期在高维更占优。
多模态可扩展：附录给出基于变量替换公式的密度型分数，能刻画 $F_{Y|X=x}$ 为高斯混合时的不连通几何，弥补球形拉回集的局限。

亮点与洞察¶

把三条线拧成一股绳：神经 OT（学凸势）+ 向量分位数回归（多元秩）+ 共形预测（覆盖保证），各取所长——OT 给几何，VQR 给连续可逆映射，CP 给有限样本保证。
理论与实用兼得：定理 3 把「拉回球 = HPD = 体积最优」钉死，给了「为什么用秩范数当分数」一个干净的最优性解释，而不只是工程启发。
摊销是关键工程支点：AC-NQR 用一个前向网络替掉每 batch 的内层凸优化，是把 OT-VQR 规模化、进而能跑真实多目标回归基准的现实前提。
强调凸性不可省：用反例说明不能拿任意 flow 顶替凸势，点出「循环单调性」才是多元秩有统计意义的根。
两种参数化方向对称：可参数化 $\varphi_\theta$（绑 $F_U$）或 $\psi_\theta$（绑 $F_{Y|X}$），实验里两侧都试，给了实践者按数据几何选侧的余地。
可与点预测器解耦：既能直接拟合 $y$，也能拟合随机森林残差 $y-\hat f(x)$，让 VQR 当「不确定性外壳」套在任意回归器上。

局限与展望¶

模型类受限于凸势：PICNN 的凸性既是保证也是枷锁，表达力天花板可能在复杂多模态条件分布上吃亏（虽附录给了密度法处理多峰）。
熵正则的偏差：EC-NQR 扩展性最好但会扭曲分位几何，高维下「扩展性 vs 保真」仍需更细的权衡。
响应维度仍偏低：真实实验维度只到 16/4/2/2，「高维优势」更多是论证/预期而非大规模验证。
依赖可交换性假设：共形保证建立在校准/测试样本可交换之上，分布漂移或时序场景下覆盖可能失效。
效率优势依赖建模正确：定理 3 的体积最优只在径向/椭圆假设下成立，模型误设时拉回球未必最优，这也正是引入 reranking 的原因。
未来方向：作者自陈要扩到更广的生成模型类、并探索高维下更紧的效率（体积）保证。

评分¶

新颖性: ⭐⭐⭐⭐ — 神经 OT 首次规模化到「条件」VQR，并把多元秩干净地接入共形预测，定理 3 的 HPD 最优性是扎实的理论贡献；但底层 OT/CVQF/共形各组件均有成熟前作，属高质量整合而非全新范式。
实验充分度: ⭐⭐⭐ — 合成数据上生成质量与算子恢复对比详尽，真实多目标回归覆盖-体积权衡也站得住，但响应维度偏低、缺真正高维压力测试，未能充分验证「高维占优」的主张。
写作质量: ⭐⭐⭐⭐ — 从一维直觉过渡到多元、再到共形，逻辑链清晰，理论与算法层次分明（C/AC/EC-NQR + PB/RPB）。
价值: ⭐⭐⭐⭐ — 为「带覆盖保证又自适应几何」的多元不确定性量化提供了一个可扩展、有理论支撑的实用工具，对 UQ/共形预测社区有实际参考价值。