Efficient Sliced Wasserstein Distance Computation via Adaptive Bayesian Optimization¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=6IZAOTfXUT
代码: 论文称已提供可复现代码与固定随机种子(具体仓库链接见补充材料)
领域: image generation / optimal transport
关键词: Sliced Wasserstein、Bayesian Optimization、QSW、方向采样、最优传输
一句话总结¶
这篇论文把 Sliced Wasserstein 距离中的“投影方向选择”从固定的低差异采样改成可学习的贝叶斯优化过程,提出 BOSW/RBOSW/ABOSW/ARBOSW 四种可插拔策略,在不改下游损失和梯度公式的前提下,在多个 SW-in-the-loop 任务上达到或逼近 SOTA。
研究背景与动机¶
领域现状:Sliced Wasserstein(SW)通过把高维最优传输投影到一维来降复杂度。对离散分布而言,单次 1D Wasserstein 主要开销是排序,整体代价约为 \(O(n\log n)\),因此比直接高维 WD 更适合生成建模、配准、梯度流等任务。当前主流做法是给定 \(L\) 个方向后做平均。
现有痛点:方向集 \(\Theta_L\) 的质量直接决定 SW 估计误差。纯 MC 的误差随样本数只按 \(O(L^{-1/2})\) 收敛;QSW/RQSW 虽然用低差异点列改善了“均匀覆盖”,但本质仍是数据无关的几何采样,无法利用当前任务里已观察到的切片代价信息。
核心矛盾:SW 的积分域是整个球面,但“有信息量”的方向往往集中在局部结构区域。固定预算下,如果仍追求全局均匀覆盖,就会把不少切片浪费在低贡献方向;而优化回路中的分布又会随迭代变化,最优方向集合也应随时间更新。
本文目标:作者把问题拆成两个子目标: 1. 在固定切片预算 \(L\) 下,找到更“任务相关”的方向集以加速收敛。 2. 在 SW 反复被调用的优化过程中,允许方向集进行轻量重学习,同时保持对现有 QSW 管线的兼容。
切入角度:作者将 \(f(\theta;\mu,\nu)=W_p^p(\theta_\sharp\mu,\theta_\sharp\nu)\) 视为定义在单位球面上的黑盒函数,使用 GP + UCB 的 Bayesian Optimization(BO)按“观测到的切片代价”自适应选方向,而不是只看几何均匀性。
核心 idea:用 BO 学习“哪里的投影方向更值得评估”,并把这套学习器做成 drop-in 的方向选择模块,可与 QSW 种子方向组合(ABOSW/ARBOSW),达到“低差异覆盖 + 任务自适应”的折中。
方法详解¶
整体框架¶
论文先回到 SW 定义: $$ SW_p^p(\mu,\nu)=\mathbb{E}{\theta\sim U(S^{d-1})}\left[W_p^p(\theta\sharp\mu,\theta_\sharp\nu)\right], $$ 实践中以 \(L\) 个方向近似: $$ \widehat{SW}p^p(\mu,\nu;\Theta_L)=\frac{1}{L}\sumW_p^p\big((\theta_\ell)}^{L\sharp\mu,(\theta\ell)_\sharp\nu\big). $$ 因此关键不是改 SW 损失本身,而是改“如何选 \(\Theta_L\)”。作者把每个方向对应的一维代价记作 \(f(\theta)\),然后在球面上做 BO,输出方向集合再交给原 SW 估计器与下游优化器。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A[输入分布对 μ, ν] --> B[评估已有方向的切片代价 f(θ)]
B --> C[球面 GP 代理建模]
C --> D[UCB 采集函数选新方向]
D --> E[去重与批量更新方向集]
E --> F[计算 SW 估计并驱动下游优化]
F --> G{是否周期刷新}
G -->|是| B
G -->|否| H[保持方向集继续迭代]
关键设计¶
1. 球面核 GP:在方向空间上建模“切片代价地形”
BO 的核心是对 \(f(\theta)\) 做后验建模。作者使用球面角距离上的 RBF 核: $$ k(\theta,\theta')=\exp\left(-\frac{1}{2}\left(\frac{d_S(\theta,\theta')}{\ell}\right)^2\right),\quad d_S(\theta,\theta')=\arccos\langle \theta,\theta'\rangle. $$ 这里长度尺度 \(\ell\) 用当前样本对之间的球面距离中位数启发式设定。这样做的意义是:相近方向的切片代价共享统计相关性,BO 能据此推断“尚未采样但潜在高价值”的方向区域。
2. UCB 批量提案 + 近重复抑制:在开销可控前提下做自适应探索
每轮 BO 先在球面均匀采样候选池(默认 \(n_c=4096\)),再用 \(\alpha_{\text{UCB}}(\theta)=\mu(\theta)+\beta\sigma(\theta)\) 打分(文中默认 \(\beta=0.7\)),选择小批量方向(默认 \(b=5\))。 为避免方向扎堆,作者加入余弦相似度阈值(>0.98 则剔除)抑制近重复。该设计把每轮附加开销压在 \(O(n_c n_t)\) 量级,并且新增真值评估点只有 \(b\) 个,实测 overhead 维持在“可接受的轻量级”区间。
3. 四种 BO 变体:一次性学习、周期刷新、QSW 混合与重启混合
论文不是只给一个算法,而是给四个可替换选择器: - BOSW:一次性 BO 选满 \(L\) 个方向,后续固定。 - RBOSW:每隔 \(R\) 步(实验常用 \(R=25\))重新运行 BOSW。 - ABOSW:先用强 QSW 集合作种子,再做少量 BO 微调(文中常用 \(r=2,b=5\),即最多替换 10% 方向)。 - ARBOSW:周期性重启 ABOSW,每次都从 QSW 重新播种再短程 BO。
这组设计对应了不同任务形态:若分布变化快,刷新/重启更有利;若训练分布稳定,固定或轻微微调方向通常更稳。
4. 与 QSW/RQSW 的组合策略:不改目标函数,只换方向生成器
论文强调 BO 模块是“插拔式”的:不需要改 SW 目标、反向传播公式或优化器超参,只在“方向采样器”这一层替换。ABOSW/ARBOSW 就是 QSW(低差异几何先验)与 BO(任务自适应)的组合。
同时作者明确:BO 导向的方向集通常引入偏差,因此它不追求“有限样本下的无偏 SW 估计”;若任务必须依赖无偏随机梯度,可继续用 RQSW 机制,再叠加 BO 作为可选 refinement。
一个完整示例¶
以文中的点云梯度流任务为例,假设预算 \(L=100\): 1. 先初始化方向集(例如 CQSW 种子)并计算当前每个方向的一维 OT 代价。 2. ABOSW 用这些观测训练球面 GP,在 4096 个候选方向中找 UCB 值最高的 5 个新方向。 3. 将方向集中贡献最低的 5 个方向替换掉;重复 2 轮后,最多替换 10 个方向。 4. 用更新后的方向集继续做梯度流迭代。 5. 若采用 ARBOSW,则每 25 步重新执行“QSW 播种 + 2 轮 BO 微调”。
这个流程的关键不是“让每个方向都最优”,而是把有限预算尽量放到对当前优化最有区分度的切片区域。
损失函数 / 训练策略¶
论文并未提出新的下游损失,核心是替换 SW 估计时的方向选择器。实验设置尽量与 QSW 论文保持一一对应:同数据、同优化器、同学习率、同停止准则,仅替换方向构造方法,保证横向比较公平。
实验关键数据¶
主实验¶
论文在多类任务评估:合成方向搜索、点云插值梯度流、图像风格迁移、点云自编码器。最核心结论是: - 纯“近似 SW 积分”场景里,QSW 依旧强(因为它擅长均匀覆盖)。 - SW-in-the-loop 的动态优化任务里,BO 混合方法(特别 ARBOSW、ABOSW)更有优势或至少持平。
下表摘自点云梯度流(\(L=100\),指标为 \(W_2\downarrow\),文中表值按 \(10^2\) 缩放):
| 方法 | Step 100 | Step 200 | Step 300 | Step 400 | Step 500 | 时间(s) |
|---|---|---|---|---|---|---|
| MCSW | 5.749 | 0.187 | 0.031 | 0.013 | 0.006 | 4.06 |
| CQSW | 5.603 | 0.183 | 0.078 | 0.073 | 0.071 | 3.96 |
| RCQSW | 5.708 | 0.181 | 0.027 | 0.011 | 0.005 | 3.95 |
| RBOSW (ours) | 2.213 | 0.083 | 0.047 | 0.033 | 0.025 | 44.58 |
| ARBOSW (ours) | 5.717 | 0.186 | 0.025 | 0.012 | 0.003 | 6.91 |
可见 RBOSW 在早期迭代显著领先,但代价是高刷新开销;ARBOSW 在后期达到最优或并列最优,同时保持中等额外耗时。
消融实验¶
论文还在点云自编码器上比较了多种估计器(\(L=100\),400 epoch,表值同样按 \(10^2\) 缩放):
| 方法 | SW2 @100 | W2 @100 | SW2 @200 | W2 @200 | SW2 @400 | W2 @400 |
|---|---|---|---|---|---|---|
| MCSW | 2.25 | 10.58 | 2.11 | 9.92 | 1.94 | 9.21 |
| CQSW | 2.22 | 10.54 | 2.05 | 9.81 | 1.84 | 9.06 |
| BOSW | 2.20 | 10.34 | 2.02 | 9.78 | 1.80 | 9.01 |
| ABOSW | 2.18 | 10.27 | 2.01 | 9.76 | 1.81 | 9.01 |
| ARBOSW | 2.21 | 10.44 | 2.04 | 9.80 | 1.85 | 9.07 |
这里 ABOSW 在多个检查点上给出最低重建误差,说明在“分布较稳定、长周期训练”场景,QSW 播种 + 少量 BO 微调比频繁刷新更合适。
关键发现¶
- 方向选择不是单一最优策略:静态积分近似偏向 QSW,动态优化回路更适合 BO 自适应机制。
- “刷新频率”是性能-效率关键旋钮:RBOSW 精度收益高但时间成本大,ARBOSW 提供更平衡的折中。
- ABOSW 的性价比很高:仅替换少量方向(最多约 10%)就能在多任务中得到稳定收益。
亮点与洞察¶
- 亮点 1:把 SW 的改进点精准定位在“方向集设计”而非“损失重写”。这让方法能无缝接入现有 OT/SW 训练代码,工程迁移成本低。
- 亮点 2:提出“QSW 几何先验 + BO 数据自适应”的混合范式。它不是抛弃低差异采样,而是把其作为稳定起点,再用 BO 做局部预算再分配。
- 亮点 3:作者对偏差问题态度诚实。论文明确 BO 方向会引入偏置,不把它包装成无偏估计器,而是把目标设为“优化收敛效率”。
- 洞察:在 SW 被反复调用的场景里,“估计器与任务共适应”比“一次性全局好积分规则”更重要,这一点对生成模型与配准任务都很有启发。
局限与展望¶
- 偏差问题:BO 选方向不是经典无偏球面积分,理论上不保证有限样本无偏估计 SW 真值;论文也把这一点列为未来研究重点。
- 维度扩展:尽管文中讨论了高维 BO 进展,但 GP 代理在超高维和超大预算下仍可能受限,需更强 surrogate(如神经代理)或并行加速。
- 超参依赖:刷新间隔 \(R\)、候选池大小 \(n_c\)、批量大小 \(b\)、UCB 的 \(\beta\) 都会影响效果,跨任务迁移时仍需调参。
- 计算开销:在强调快速收敛的同时,RBOSW 这类高频刷新方案在时间上明显更重,真实部署需要基于任务时延预算选型。
相关工作与启发¶
- vs QSW/RQSW(Nguyen et al., 2024):QSW 系列优势是球面覆盖质量与稳定实现;本文优势是任务自适应。ABOSW/ARBOSW 证明两者可以组合而非二选一。
- vs Importance-weighted SW(Nguyen & Ho, 2023):后者通过重加权切片构造新的切片分布;本文通过 BO 直接学习方向集,本质更接近“自适应实验设计”。
- vs Bayesian Quadrature:BQ 面向积分本身,但在“每步积分对象都变”的优化回路中需要频繁重拟合权重,代价较高;本文改为学习方向选择器,更适配迭代任务。
- 启发:未来可把“方向学习器”做成元学习模块,在一类任务上预训练方向策略,再迁移到新数据分布,实现 warm-start 的自适应 SW。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 方向选择器 BO 化并与 QSW 组合的思路清晰且有增量创新。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖合成验证与三类下游任务,且与强基线保持同协议比较。
- 写作质量: ⭐⭐⭐⭐☆ 方法定义和工程细节交代完整,偏差与适用边界说明较诚实。
- 价值: ⭐⭐⭐⭐☆ 对需要 SW-in-the-loop 的实践场景有较高可落地价值,尤其是 ABOSW/ARBOSW 的折中方案。