Mirror Mean-Field Langevin Dynamics¶

会议: ICML2026
arXiv: 2505.02621
代码: 未公开
领域: 优化
关键词: mean-field Langevin, 镜像下降, 约束采样, 混沌传播, 对数 Sobolev 不等式

一句话总结¶

本文把 mean-field Langevin dynamics (MFLD) 与 mirror Langevin dynamics (MLD) 缝合成"镜像 mean-field Langevin dynamics" (MMFLD)，第一次给出在凸约束域 \(X\subseteq\mathbb{R}^d\) 上最小化熵正则化泛函 \(\mathcal{L}(\mu)=F(\mu)+\lambda\,\mathrm{Ent}(\mu)\) 的全局收敛算法 —— 连续时间下用均匀 mirror LSI 证 \(e^{-2C_{\mathrm{LSI}}\lambda t}\) 线性收敛，离散化下用 \(N\)-粒子 + Euler-Maruyama 给出 uniform-in-time propagation of chaos。

研究背景与动机¶

领域现状：分布优化目标 \(\mathcal{L}(\mu)=F(\mu)+\lambda\,\mathrm{Ent}(\mu)\) 把许多机器学习问题（无穷宽双层神经网络、张量分解、稀疏 spike 反卷积、密度估计、discrepancy 最小化）写成 Wasserstein 空间上的凸优化。当 \(X=\mathbb{R}^d\) 时，MFLD（McKean-Vlasov 过程 \(dX_t=-\nabla\frac{\delta F(\mu_t)}{\delta \mu}(X_t)dt+\sqrt{2\lambda}dB_t\)）配合均匀 LSI 已经给出 \(L(\mu_t)-L(\mu^\ast)\le e^{-2C_{\mathrm{LSI}}\lambda t}\cdot\) 线性收敛和成熟的 propagation of chaos 分析。

现有痛点：现实里很多 \(X\) 是有界凸集（trajectory inference 要求概率单纯形、Wasserstein barycenter 要求支撑集有界、discrepancy 最小化的 mean-matching 通常约束在 simplex 或谱形状、norm-constrained 神经网络要求参数球内）。直接对 MFLD 加投影会把质量堆到边界 \(\partial X\) 上，单粒子层面的 mirror Langevin 又不能处理 \(F\) 是分布泛函（非线性 \(\frac{\delta F}{\delta\mu}\)）的情形。这就留下了一个开放问题：对约束分布优化目标 \(\mathcal{L}\)，到底有没有一个具备全局收敛保证的 mean-field 算法？

核心矛盾：MFLD 的扩散是"全空间高斯"，必然把质量送出 \(X\)；MLD 的 mirror map 改了几何，能把扩散限在 \(X\) 内，但被设计来 sample 一个固定的 \(\mu^\ast\propto e^{-f/\lambda}\)，无法处理"目标分布依赖当前 \(\mu\)"的 mean-field 耦合。两套机制是分裂的。

本文目标：(1) 提出一个统一两者的 SDE，使得扩散自动留在 \(X\) 而 drift 处理 \(\frac{\delta F(\mu_t)}{\delta \mu}\) 的 mean-field 项；(2) 在连续时间下用 mirror LSI 证全局指数收敛；(3) 在 \(N\) 粒子 + 时间离散的实际算法上证 uniform-in-time propagation of chaos，且 LSI 常数与粒子数解耦；(4) 加上 stochastic gradient 也照样推得到收敛率。

切入角度：作者注意到 MLD 的 dual-space SDE \(dY_t=-\nabla f(X_t)dt+\sqrt{2\lambda\nabla^2\phi(X_t)}dB_t\) 跟 MFLD 的差别只在 drift 把 \(\nabla f\) 换成 \(\nabla\frac{\delta F(\mu_t)}{\delta\mu}\)，于是直接把这一替换搬过去，得到 mean-field 版的 mirror dynamics；然后把 Nitanda 2024 那套"配置空间 + 熵 sandwich" 证明套到 mirror 几何里。

核心 idea：把 mirror map \(\nabla\phi\) 当成把约束几何"折叠"进扩散里的工具，把 MFLD 的所有理论组件（Wasserstein gradient flow、entropy sandwich、uniform LSI、propagation of chaos）都升级到 Hessian metric \(\nabla^2\phi\) 下，得到统一的"镜像 MFLD"。

方法详解¶

整体框架¶

要最小化 \(\mathcal{L}(\mu)=F(\mu)+\lambda\,\mathrm{Ent}(\mu)\)，\(\mu\in\mathcal{P}_2(X)\)，\(X\subseteq\mathbb{R}^d\) 凸。取 thrice-differentiable、Legendre 型的 barrier \(\phi:X\to\mathbb{R}\)（典型选择：simplex 上 \(\phi(x)=\sum_i x_i\log x_i\)、谱形状上 \(\phi(\Sigma)=\mathrm{Tr}(\Sigma\log\Sigma-\Sigma)\)、球内 \(\phi(z)\propto-\log(1-\|z\|^2)\)）。\(\phi\) 在 \(\partial X\) 上爆炸保证扩散不出 \(X\)。MMFLD 的连续时间 SDE 是 \(X_t=\nabla\phi^\ast(Y_t)\)，\(dY_t=-\nabla\tfrac{\delta F(\mu_t)}{\delta\mu}(X_t)\,dt+\sqrt{2\lambda\nabla^2\phi(X_t)}\,dB_t\)，它的 Fokker-Planck 写成 \(\partial_t\mu_t=\lambda\nabla\cdot(\mu_t[\nabla^2\phi]^{-1}\nabla\log(\mu_t/\hat\mu_t))\)，\(\hat\mu_t\propto\exp(-\tfrac{1}{\lambda}\tfrac{\delta F(\mu_t)}{\delta\mu})\) 是 proximal Gibbs 分布。这一形式既保留了 mean-field 耦合（drift 里出现 \(\mu_t\)），又把扩散写到了 Hessian metric 下（自动限在 \(X\) 内）。\(N\) 粒子算法（Algorithm 1）就是把这个 SDE 在每步用 mirror gradient + Euler-Maruyama 离散：粒子 \(X_k^i\) 经 mirror map 进入 dual 空间，扣掉 \(\eta_k\nabla\frac{\delta F(\mu_k)}{\delta\mu}(X_k^i)\) drift，再小步模拟纯扩散 \(dY_t^i=\sqrt{2\lambda[\nabla^2\phi^\ast(Y_t^i)]^{-1}}dB_t\)，最后用 \(\nabla\phi^\ast\) 回到原空间。

关键设计¶

1. 连续时间收敛：mirror entropy sandwich + uniform mirror LSI

第一块要证的是连续时间指数收敛 \(L(\mu_t)-L(\mu^\ast)\le e^{-2C_{\mathrm{LSI}}\lambda t}(L(\mu_0)-L(\mu^\ast))\)（Theorem 3.2），思路是把 MFLD 的整套收敛证明逐件升级到约束几何里。先用 Assumption 5（relative Lipschitz 和 relative smoothness，把所有范数换成局部范数 \(\|\cdot\|_{[\nabla^2\phi(x)]^{-1}}\)）证最小化器唯一且满足不动点条件 \(\mu^\ast\propto\exp(-\tfrac{1}{\lambda}\frac{\delta F(\mu^\ast)}{\delta\mu})\)（Theorem 3.1）。接着假设 proximal Gibbs \(\hat\mu\) 一致满足 mirror 版 LSI：对任意 \(\mu\in\mathcal{P}_2(X)\)，

\[\mathrm{KL}(\mu\|\hat\mu)\le \frac{1}{2C_{\mathrm{LSI}}}\,\mathrm{FI}_\phi(\mu\|\hat\mu),\qquad \mathrm{FI}_\phi(\mu\|\nu)=\mathbb{E}_\mu\big[\langle\nabla\log(\mu/\nu),[\nabla^2\phi]^{-1}\nabla\log(\mu/\nu)\rangle\big].\]

最后沿用 Nitanda–Chizat 的 entropy sandwich（Lemma C.2）把 \(L(\mu_t)-L(\mu^\ast)\) 与 \(\mathrm{KL}(\mu_t\|\hat\mu_t)\) 双向夹住，对 \(\frac{d}{dt}L(\mu_t)\) 做 Lyapunov 估计就得到指数衰减。这套之所以能整体平移，靠的是两点：mirror LSI 可由经典 LSI + \(\alpha\)-强凸的 \(\phi\) 自动推出（常数 \(C_0/\alpha\)），现实里可验证；而 entropy sandwich 在约束情形仍然成立。

2. 离散化 + uniform-in-time propagation of chaos

理论要落地必须处理 \(N\) 粒子 + 时间离散，难点在于"粒子近似误差和 LSI 常数耦合时会随 \(N\) 爆掉"。作者先把 \(N\) 粒子问题 lift 到配置空间，定义 \(L^{(N)}(\mu^{(N)})=N\mathbb{E}_{X\sim\mu^{(N)}}[F(\mu_X)]+\lambda\mathrm{Ent}(\mu^{(N)})\)，其 Gibbs 最优解 \(\mu^{(N)}_\ast\propto\exp(-\tfrac{N}{\lambda}F(\mathbf{x}))\)；Theorem 4.1 给出一个 LSI-free 的粒子近似误差 \(\tfrac{1}{N}L^{(N)}(\mu^{(N)}_\ast)-L(\mu^\ast)\le \tfrac{LR^2}{2N}\)（把 Nitanda 2024 推广到 vector-valued loss + 约束域）。再用 Ahn–Chewi 的 forward discretization（drift 离散 + 纯扩散精确模拟）配合 self-concordance 假设 \(|\nabla^3\phi^\ast[u,u,u]|\le 2c_1\langle u,\nabla^2\phi u\rangle^{3/2}\)、uniform-in-\(N\) mirror LSI 和 one-step interpolation，控制离散偏差 \(\delta_\eta=2\eta M_2^4 M(\eta M_1^2+2\lambda d)\)，最终得到 Theorem 4.2 的 bound。关键在于继承了 LSI-free 项：\(1/N\) 项只依赖 \(LR^2\) 而不依赖 \(C_{\mathrm{LSI}}\)，于是 \(N\to\infty\) 时误差均匀消失——这正是与现有 MLD 离散化分析最大的技术差别；stochastic gradient 版本（Theorem 4.3）只多一个 \(\sigma^2/c_2\) 项，结构不变。

3. mirror 几何选择与边界处理：把抽象 SDE 落到三类经典约束域

最后要让算法真能跑，得为每类约束选对 mirror map：unit simplex \(\Delta^d\) 用 entropy mirror \(\phi(x)=\sum_i x_i\log x_i\)、\(\phi^\ast(y)=\log\sum_i\exp y_i\)；spectraplex \(\{\Sigma\succeq0:\mathrm{Tr}\Sigma=1\}\) 用 von Neumann mirror \(\phi(\Sigma)=\mathrm{Tr}(\Sigma\log\Sigma-\Sigma)\)；unit ball 用 log-barrier \(\phi(z)\propto-\log(1-\|z\|_2^2)\)。每种情况下扩散步都通过模拟 \(dY_t=\sqrt{2\lambda[\nabla^2\phi^\ast(Y_t)]^{-1}}dB_t\) 完成，实验显示 one-step 离散就够、runtime 与投影 MFLD 相当。这样设计的核心动机是对照"投影到 \(X\)"的失败模式——投影 MFLD 会把质量堆在边界 \(\partial X\) 上，而 mirror 让 \(\phi\) 在边界爆炸、粒子自然回避 \(\partial X\)，把约束"内化"进几何而非靠 ad-hoc 投影或 barrier 修补（实验 Figure 1b 把这个差别显示得很清楚）。

损失函数 / 训练策略¶

关键超参是温度 \(\lambda\)（控制熵正则强度，越小目标越尖锐）、学习率 \(\eta_k\)、粒子数 \(N\)；Assumption 7 的常数 \(c_1,c_2\) 决定 \(\delta_\eta\) 的离散偏差大小，需要 \(\phi\) 是 self-concordant + 至少 \(c_2\)-强凸。

实验关键数据¶

实验只是定性 sanity check，全部是合成域上的低维问题。

主实验¶

实验	域 \(X\) / mirror map	目标	MMFLD vs Projected MFLD
Simplex mean-matching	\(\Delta^3\) / \(\phi(x)=\sum x_i\log x_i\)	\(F(\mu)=\\|\mathbb{E}_\mu x-q\\|^2+\beta\mathbb{E}_\mu \sum\log(1/x_i)\)，\(\eta=3\times10^{-3}\), \(\lambda=0.1\), 50K 粒子	MFLD 初始更快但最终把质量堆在 \(\partial\Delta^3\)，MMFLD 损失更低且分布均匀
Spectraplex 密度匹配	\(\{\Sigma\succeq 0:\mathrm{Tr}\Sigma=1\}\subset \mathcal{S}^{10}\) / von Neumann	\(F(\mu)=\tfrac12\\|\mathbb{E}_\mu \Sigma-\Sigma^\ast\\|_F^2+\tfrac{1}{2\gamma}\mathbb{E}_\mu\\|\Sigma\\|_F^2\)，\(\gamma=0.02\), \(\eta=0.3\), \(\lambda=0.1\), \(N=2048\)	Projected MFLD 几乎不下降（投影把每步进展抹掉），MMFLD 持续下降到接近最优
Norm-constrained 双层 ReLU 分类	单位球 / \(\phi(z)\propto-\log(1-\\|z\\|^2)\)	XOR + Gaussian 噪声，\(N=512\), \(d=2\), \(\eta=0.1\), \(\lambda=10^{-3}\), 100 epochs	MMFLD 损失下降快得多且持续下降，神经元紧贴 XOR 方向；MFLD 30-50 epoch 后停滞且神经元贴边界

消融实验¶

配置	关键观察	说明
Projected MFLD（baseline）	边界质量堆积、谱面进展为零、norm-constraint 下神经元贴 \(\\|w\\|=1\)	投影破坏 Wasserstein 几何
加 boundary barrier (\(\beta>0\)) 的 Projected MFLD	粒子被斥离边界，分布反而比无 barrier 更糟	barrier 是 ad-hoc 修补，效果不稳定
MMFLD with one-step diffusion	与多步模拟扩散无明显差异	验证 forward discretization 足够，runtime ≈ MFLD
MMFLD with stochastic gradient (Theorem 4.3)	额外 \(\sigma^2/c_2\) 项，收敛仍线性	支持差分隐私 / batched 训练

关键发现¶

投影方法对 mean-field 设定特别不友好：投影一步会把上一步辛苦做的 Wasserstein 进展几乎全部抹除（spectraplex 实验最明显），换成 mirror map 把约束"内化"进几何后才能持续下降。
单步离散扩散足以保持收敛速度，runtime 与 projected MFLD 相当 —— 这一点对实际部署很重要，意味着 mirror 不会带来额外的算力开销。
MMFLD 在 norm-constrained 神经网络 XOR 分类上把神经元紧贴决策方向，而 MFLD 让神经元发散并撞向 \(\|w\|=1\) 边界 —— 这给出了一个直接的可视化证据：mirror 几何带来的不只是收敛速度，还有更好的代表性几何。

亮点与洞察¶

第一次把 MFLD 和 MLD 真正缝合（不是简单加投影），并把 propagation of chaos 整套 LSI-free 框架（Chen-Ren-Wang、Suzuki et al.、Nitanda）平移到 mirror 几何里，常数定量、可验证。Theorem 4.2 的 bound 同时含 LSI-free 的 \(LR^2/N\) 项和 self-concordance 控制的 \(\delta_\eta\) 项，结构非常干净。
self-concordance + uniform-in-\(N\) mirror LSI 这套假设可以由经典 LSI + \(\alpha\)-强凸 \(\phi\) 推出，对 simplex/spectraplex/球这些标准约束都能验证，理论 → 算法的工程门槛低。
概念上把 mirror map 看成"把约束几何折叠进扩散"的视角对未来 work 很有启发：任何"约束分布优化 + 不希望边界堆积"的场合（私有合成轨迹生成、Wasserstein barycenter、entropic OT）都可以套这个模板换扩散，而不是套 ad-hoc 投影 / barrier。

局限与展望¶

实验全是低维合成（\(d=2,3,10\)）且粒子数最高 50K，没有真实大规模神经网络任务的验证 —— 工程上是否 scale 到 deep MFNN 还未验证。
收敛率依赖 uniform-in-\(N\) mirror LSI 这个抽象假设，Proposition B.1 的可验证条件还是要 \(\phi\) 强凸 + 经典 LSI，复杂约束（spectraplex 上的 von Neumann mirror）的 LSI 常数定量值仍开放。
离散化里 drift 离散 + 扩散精确模拟的 forward scheme 沿用 Ahn-Chewi，作者承认 Euler-Maruyama 单步在实验里"通常够用"但理论上没覆盖；同时仍需 \(\eta\to 0\) 时偏差 \(\delta_\eta=O(\eta)\)。
未来方向作者明示：把分析从 mirror LSI 推广到 mirror Poincaré（Chewi et al. 2020 已有 single-particle 版），需要先证 mean-field Langevin 在 Poincaré 下的收敛 —— 这是后续整套理论的下一块拼图。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一次把 MFLD 与 MLD 干净缝合，给约束 mean-field 优化一个完整的收敛框架
实验充分度: ⭐⭐⭐ 合成域 sanity check 足够，但缺真实大规模 MFNN 验证
写作质量: ⭐⭐⭐⭐⭐ 定理排版清晰，从 MLD → MFLD → MMFLD 的递进式 preliminaries 把读者引导得很好
价值: ⭐⭐⭐⭐ 给 trajectory inference、Wasserstein barycenter、norm-constrained MFNN 等下游应用提供了标配算法