跳转至

Distributionally Robust Optimization via Generative Ambiguity Modeling

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=q67t0gFrdY
代码: https://github.com/CIGLAB-Houston/GAS-DRO
领域: optimization
关键词: 分布鲁棒优化, DRO, 生成模型, 扩散模型, 模糊集, OOD 泛化, 策略优化

一句话总结

把 DRO 的"模糊集"直接定义在生成模型(扩散模型 / VAE)的参数空间上,用重构损失约束生成分布与名义分布的一致性,再用对偶学习 + 策略优化求解内层最大化,得到一个既能跨支撑集搜索最坏分布、又可处理(tractable)的 DRO 算法 GAS-DRO。

研究背景与动机

领域现状:分布鲁棒优化(DRO)通过 min-max 形式优化最坏情况性能,是提升统计学习 OOD 鲁棒性的基础框架。其效果高度依赖"模糊集"(ambiguity set)的设计——内层最大化在模糊集里找最坏分布,外层最小化针对该最坏分布优化决策变量。

现有痛点:经典模糊集都顾此失彼。\(\phi\)-散度(如 KL)类模糊集要求集合内任意分布 \(P\) 都绝对连续于名义分布 \(P_0\)(即 \(P \ll P_0\),同支撑集),这在测试集出现支撑集偏移时严重限制鲁棒性;Wasserstein 类模糊集虽允许支撑集偏移,但要在无限维概率空间上求解内层最大化,计算困难,常见的凸假设在深度学习中不成立,而对抗近似又往往过于保守,把大量与 \(P_0\) 不一致的无效分布也纳入。

核心矛盾:模糊集设计存在表达力 vs 可处理性的根本张力——限制同支撑集(\(\phi\)-散度)则表达力不足、鲁棒性差;不限支撑集(Wasserstein)则无限维空间不可处理。已有把生成模型塞进传统框架的工作(DRAGEN 在隐空间建 Wasserstein 球、P-DRO 用生成模型参数化 KL 框架下的对抗分布)仍受制于原框架的支撑集约束或近似误差。

本文目标:构造一个同时满足三个性质的模糊集——(1) 能覆盖不同支撑集的多样分布以识别最坏情况;(2) 与名义分布保持一致避免过保守;(3) 求解可处理。

核心 idea首次把模糊集直接定义在生成模型的有限参数空间上。生成模型既能逼近真实数据分布(保证一致性),又能生成超出名义支撑集的多样样本(保证表达力),同时提供有限维参数化空间(保证可处理)。关键的理论支点是用包含式 KL 散度(inclusive KL)而非排他式 KL 来约束一致性,前者允许 \(P_\theta\) 拥有比 \(P_0\) 更宽的支撑集。

方法详解

整体框架

GAS-DRO 把 DRO 的内层最大化从"在无限维概率空间搜索最坏分布"改写为"在生成模型参数 \(\theta\) 上做约束优化"。整体是一个嵌套循环:内层最大化(InnerMax)反复扰动生成模型参数 \(\theta\) 去找最坏分布 \(P_\theta\),外层最小化用该最坏模型采样出对抗数据集 \(S_j\) 来更新决策变量 \(w\)

flowchart LR
    P0[名义分布 P0 + 数据集 S0] --> GM[生成模型 Pθ]
    GM --> GAS[生成模糊集: J θ,P0 ≤ ε]
    GAS --> Inner[InnerMax: 对偶+策略优化<br/>找最坏 Pθ]
    Inner --> Sample[采样对抗数据集 Sj ~ Pθ]
    Sample --> Outer[外层最小化: 更新决策变量 w]
    Outer --> Inner

关键设计

1. 生成模糊集(GAS):把"分布球"换成"参数球",并用包含式 KL 担保一致性。 传统 DRO 把模糊集写成距离球 \(B(P_0,\epsilon)=\{P\mid D(P,P_0)<\epsilon\}\)。本文转而用生成模型的重构损失来界定一致性:Lemma 1 证明对似然类生成模型,名义分布与生成分布之间的包含式 KL 散度可被重构损失上界,\(D_{KL}(P_0\|P_\theta)\le J(\theta,P_0)+R(p',P_0)+C_1\),其中 \(J(\theta,P_0)\) 对扩散模型是去噪损失 \(J_{DM}\)、对 VAE 是重构项 \(J_{VAE}\)\(R\) 是只依赖先验的匹配损失,\(C_1\) 是与名义分布负熵相关的常数。于是 DRO 被改写为在参数空间上的约束 min-max: $\(\min_{w\in W}\max_{\theta\in\Theta}\mathbb{E}_{x\sim P_\theta}[f(w,x)]\quad\text{s.t.}\quad J(\theta,P_0)\le\epsilon\)$ 关键之处在于这里用的是包含式 \(D_{KL}(P_0\|P_\theta)\) 而非 KL-DRO 里的排他式 \(D_{KL}(P_\theta\|P_0)\),前者允许 \(P_0\ll P_\theta\),即生成分布可以比名义分布拥有更宽的支撑集——这正是突破 \(\phi\)-散度同支撑集约束的理论关键。约束 \(J\le\epsilon\) 既保证生成分布贴近 \(P_0\)(不过保守),又借生成模型的能力跳出名义支撑集(找强对抗),还把搜索限制在有限参数空间(可处理)。

2. 对偶学习求解约束内层最大化。 内层是对扩散参数空间的约束优化,无法直接用梯度法。引入拉格朗日对偶 \(\mu>0\) 改写为无约束问题 \(\max_\theta \mathbb{E}_{x\sim P_\theta}[f(w,x)]-\mu J(\theta,P_0)\),并用对偶梯度上升自适应更新 \(\mu\leftarrow\max\{0,\mu+\eta(J(\theta_k,P_0)-\epsilon)\}\)。直觉是:当重构损失 \(J\) 超预算 \(\epsilon\) 时增大 \(\mu\) 加重对一致性约束的惩罚,否则减小 \(\mu\) 优先最大化目标——以此在"对抗强度"和"与名义分布一致"之间动态平衡。

3. 策略优化把"对分布求期望"变成可微目标。 目标里 \(\mathbb{E}_{x\sim P_\theta}[f]\) 对生成模型参数 \(\theta\) 不可直接微分。借助策略梯度技巧(把扩散反向过程当作一条采样轨迹/policy),把目标转写为 \(\max_\theta \hat{\mathbb{E}}_{P_\theta(x_{0:T})}[\ln P_\theta(x_{0:T})\cdot f(w,x_0)]-\mu J_{DM}(\theta,P_0)\),其中 \(\ln P_\theta(x_{0:T})\) 由各步去噪均方项给出。为稳定训练进一步采用 PPO 形式,用概率比 \(r_\theta(x_{0:T})=P_\theta/P_{\theta_{old}}\) 和裁剪项 \(\text{clip}(r_\theta,1-\kappa,1+\kappa)\) 限制每步策略更新幅度,\(P_{\theta_{old}}\) 取在名义分布上预训练的参考扩散模型。为降复杂度,可只优化反向过程的最后 \(T'\) 步而非全部 \(T\) 步。

4. 带 max-oracle 的 min-max 求解与收敛保证。 整体采用"梯度下降 + 最大化 oracle"范式(Algorithm 1):每轮先跑 InnerMax 找最坏模型 \(P_{\theta^{(j)}}\),再从中采样对抗数据集 \(S_j\) 更新 \(w\)。理论上 Theorem 1 证明内层最大化误差以 \(O(1/\sqrt{K})\) 收敛到最优 oracle,且包含式 KL 被预算 \(\epsilon\) 加上先验匹配误差控制;Theorem 2 进一步给出整体的稳定点收敛——目标 \(\phi(w)=\max_\theta\mathbb{E}_{P_\theta}[f]\) 的 Moreau 包络梯度范数被内层误差 \(\Delta'\)、采样量 \(n\)、迭代数 \(H\) 共同界定。此外定义生成模型的 \(\Gamma\)-表达力(任意测试分布都能被某个 \(P_\theta\) 在 Wasserstein 距离内 \(\Gamma\) 逼近),证明 \(\Gamma\) 越小则内层最大化额外误差 \(L_x\Gamma\) 越小、鲁棒性越好。

实验关键数据

主实验表格

任务为电力碳排放时间序列预测(Electricity Maps 数据集),训练集为 BANC 2324,在其他年份/地区构造 OOD 测试集,按 Wasserstein 距离衡量分布偏移。指标为 MSE(越低越好)。

方法 Average MSE Worst MSE 相对 ML 提升
GAS-DRO 0.0163 0.0509 63.7%
DRAGEN 0.0230 0.0681 48.9%
P-DRO 0.0259 0.0820 42.5%
DML 0.0271 0.0834 39.7%
KL-DRO 0.0288 0.0831 36.1%
W-DRO 0.0342 0.0879 24.0%
ML 0.0450 0.0946

GAS-DRO 在 Average 和 Worst 两个指标上均最优,平均比次优基线再领先约 25.4%。

消融实验表格

(详见原文 Appendix D.4,正文给出方向性结论)

消融维度 结论
对抗预算 \(\epsilon\) 调节 \(\epsilon\) 控制对抗强度与名义一致性的权衡
噪声类型 / 强度 验证不同分布偏移下的稳健性
生成模型表达力(不同扩散架构 + VAE) 表达力越强(\(\Gamma\) 越小)鲁棒性越好,印证理论
只优化最后 \(T'\) 大幅降计算量且性能基本保持

关键发现

  • 所有 DRO 方法都比纯 ML 在 OOD 上更好,但 GAS-DRO 提升幅度最大(63.7%)。
  • 同样用生成模型的 DRAGEN 和 P-DRO 因受制于 Wasserstein 松弛 / KL 同支撑集约束而落后,说明"把模糊集直接定义在参数空间"比"把生成模型塞进传统框架"更有效。
  • 在 MNIST→USPS 图像分类的迁移任务上同样验证了 OOD 泛化优势(Appendix E)。

亮点与洞察

  • 视角转换:把模糊集从"概率分布空间的距离球"搬到"生成模型参数空间的约束集",一举解开表达力 vs 可处理性的死结——有限参数空间天然可处理,生成模型天然能跨支撑集且贴近真实分布。
  • 包含式 KL 的妙用:用 \(D_{KL}(P_0\|P_\theta)\) 而非 \(D_{KL}(P_\theta\|P_0)\) 来度量一致性,从理论上松开了 KL-DRO 的同支撑集枷锁,这是整个框架成立的关键支点。
  • 理论与算法兼备:不仅给出可处理的 PPO 式求解,还配上内层 \(O(1/\sqrt{K})\) 收敛、整体 Moreau 包络稳定点收敛、以及 \(\Gamma\)-表达力对鲁棒性影响的完整分析。

局限与展望

  • 依赖生成模型质量:理论已用 \(\Gamma\)-表达力刻画,但现实生成模型表达力有限,最坏分布可能识别不准;生成模型训练本身的开销也直接转嫁到 GAS-DRO。
  • 计算成本:内层要反复训练/扰动扩散模型并采样,虽有"只优化最后 \(T'\) 步"的省算技巧,整体仍重于传统闭式 DRO。
  • 实验规模:正文主实验集中在时间序列预测,图像任务仅 MNIST/USPS 小数据集,更大规模任务上的表现待验证。
  • 展望:为更多似然类生成模型建立训练损失的一致性界;提升生成模型训练效率以降低 GAS-DRO 开销;利用生成模糊集这一灵活接口注入对测试环境的先验知识。

相关工作与启发

  • \(\phi\)-散度 / Wasserstein DRO(Hu & Hong 2013; Mohajerin Esfahani & Kuhn 2018; Gao & Kleywegt 2023):本文针对其同支撑集约束与无限维不可处理两大软肋提出参数空间方案。
  • 生成模型做模糊集:DRAGEN(Ren & Majumdar 2022,隐空间 Wasserstein 球)、P-DRO(Michel et al. 2021,KL 框架下参数化对抗分布)是最直接对手,本文论证"直接定义在参数空间 + 包含式 KL"优于"把生成模型塞进传统框架"。
  • Sinkhorn-DRO(Wang et al. 2025; Yang et al. 2025; Blanchet et al. 2023):另一条兼顾连续对抗分布与可处理性的路线。
  • 启发:当某个优化问题的难点在于"在无限/复杂空间上搜索分布"时,可考虑用一个表达力强且参数化的生成模型把搜索空间"压缩"到有限维参数上,再用策略优化求解——这套"参数化搜索空间 + RL 式求解"的思路可迁移到鲁棒强化学习、对抗训练、环境生成等问题。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次把 DRO 模糊集定义在生成模型参数空间,用包含式 KL 解开支撑集约束,视角新颖且自洽。
  • 实验充分度: ⭐⭐⭐ 时间序列任务对比充分、提升明显,但图像任务规模偏小,大规模验证不足。
  • 写作质量: ⭐⭐⭐⭐ 动机—理论—算法—实验链条清晰,三性质矛盾的提炼很到位。
  • 价值: ⭐⭐⭐⭐ 为 DRO 提供了兼顾表达力与可处理性的新范式,理论扎实,对 OOD 泛化和鲁棒学习有较强借鉴意义。