ICLR 2026 优化/理论分布鲁棒优化 DRO 生成模型扩散模型模糊集 OOD 泛化策略优化

Distributionally Robust Optimization via Generative Ambiguity Modeling¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=q67t0gFrdY
代码: https://github.com/CIGLAB-Houston/GAS-DRO
领域: optimization
关键词: 分布鲁棒优化, DRO, 生成模型, 扩散模型, 模糊集, OOD 泛化, 策略优化

一句话总结¶

把 DRO 的"模糊集"直接定义在生成模型（扩散模型 / VAE）的参数空间上，用重构损失约束生成分布与名义分布的一致性，再用对偶学习 + 策略优化求解内层最大化，得到一个既能跨支撑集搜索最坏分布、又可处理（tractable）的 DRO 算法 GAS-DRO。

研究背景与动机¶

领域现状：分布鲁棒优化（DRO）通过 min-max 形式优化最坏情况性能，是提升统计学习 OOD 鲁棒性的基础框架。其效果高度依赖"模糊集"（ambiguity set）的设计——内层最大化在模糊集里找最坏分布，外层最小化针对该最坏分布优化决策变量。

现有痛点：经典模糊集都顾此失彼。$\phi$-散度（如 KL）类模糊集要求集合内任意分布 $P$ 都绝对连续于名义分布 $P_0$（即 $P \ll P_0$，同支撑集），这在测试集出现支撑集偏移时严重限制鲁棒性；Wasserstein 类模糊集虽允许支撑集偏移，但要在无限维概率空间上求解内层最大化，计算困难，常见的凸假设在深度学习中不成立，而对抗近似又往往过于保守，把大量与 $P_0$ 不一致的无效分布也纳入。

核心矛盾：模糊集设计存在表达力 vs 可处理性的根本张力——限制同支撑集（$\phi$-散度）则表达力不足、鲁棒性差；不限支撑集（Wasserstein）则无限维空间不可处理。已有把生成模型塞进传统框架的工作（DRAGEN 在隐空间建 Wasserstein 球、P-DRO 用生成模型参数化 KL 框架下的对抗分布）仍受制于原框架的支撑集约束或近似误差。

本文目标：构造一个同时满足三个性质的模糊集——(1) 能覆盖不同支撑集的多样分布以识别最坏情况；(2) 与名义分布保持一致避免过保守；(3) 求解可处理。

核心 idea：首次把模糊集直接定义在生成模型的有限参数空间上。生成模型既能逼近真实数据分布（保证一致性），又能生成超出名义支撑集的多样样本（保证表达力），同时提供有限维参数化空间（保证可处理）。关键的理论支点是用包含式 KL 散度（inclusive KL）而非排他式 KL 来约束一致性，前者允许 $P_\theta$ 拥有比 $P_0$ 更宽的支撑集。

方法详解¶

整体框架¶

GAS-DRO 把 DRO 的内层最大化从"在无限维概率空间搜索最坏分布"改写为"在生成模型参数 $\theta$ 上做约束优化"。整体是一个嵌套循环：内层最大化（InnerMax）反复扰动生成模型参数 $\theta$ 去找最坏分布 $P_\theta$，外层最小化用该最坏模型采样出对抗数据集 $S_j$ 来更新决策变量 $w$。

flowchart LR
    P0[名义分布 P0 + 数据集 S0] --> GM[生成模型 Pθ]
    GM --> GAS[生成模糊集: J θ,P0 ≤ ε]
    GAS --> Inner[InnerMax: 对偶+策略优化<br/>找最坏 Pθ]
    Inner --> Sample[采样对抗数据集 Sj ~ Pθ]
    Sample --> Outer[外层最小化: 更新决策变量 w]
    Outer --> Inner

关键设计¶

1. 生成模糊集（GAS）：把"分布球"换成"参数球"，并用包含式 KL 担保一致性。 传统 DRO 把模糊集写成距离球 $B(P_0,\epsilon)=\{P\mid D(P,P_0)<\epsilon\}$。本文转而用生成模型的重构损失来界定一致性：Lemma 1 证明对似然类生成模型，名义分布与生成分布之间的包含式 KL 散度可被重构损失上界，$D_{KL}(P_0\|P_\theta)\le J(\theta,P_0)+R(p',P_0)+C_1$，其中 $J(\theta,P_0)$ 对扩散模型是去噪损失 $J_{DM}$、对 VAE 是重构项 $J_{VAE}$，$R$ 是只依赖先验的匹配损失，$C_1$ 是与名义分布负熵相关的常数。于是 DRO 被改写为在参数空间上的约束 min-max： $$\min_{w\in W}\max_{\theta\in\Theta}\mathbb{E}_{x\sim P_\theta}[f(w,x)]\quad\text{s.t.}\quad J(\theta,P_0)\le\epsilon$$ 关键之处在于这里用的是包含式 $D_{KL}(P_0\|P_\theta)$ 而非 KL-DRO 里的排他式 $D_{KL}(P_\theta\|P_0)$，前者允许 $P_0\ll P_\theta$，即生成分布可以比名义分布拥有更宽的支撑集——这正是突破 $\phi$-散度同支撑集约束的理论关键。约束 $J\le\epsilon$ 既保证生成分布贴近 $P_0$（不过保守），又借生成模型的能力跳出名义支撑集（找强对抗），还把搜索限制在有限参数空间（可处理）。

2. 对偶学习求解约束内层最大化。 内层是对扩散参数空间的约束优化，无法直接用梯度法。引入拉格朗日对偶 $\mu>0$ 改写为无约束问题 $\max_\theta \mathbb{E}_{x\sim P_\theta}[f(w,x)]-\mu J(\theta,P_0)$，并用对偶梯度上升自适应更新 $\mu\leftarrow\max\{0,\mu+\eta(J(\theta_k,P_0)-\epsilon)\}$。直觉是：当重构损失 $J$ 超预算 $\epsilon$ 时增大 $\mu$ 加重对一致性约束的惩罚，否则减小 $\mu$ 优先最大化目标——以此在"对抗强度"和"与名义分布一致"之间动态平衡。

3. 策略优化把"对分布求期望"变成可微目标。 目标里 $\mathbb{E}_{x\sim P_\theta}[f]$ 对生成模型参数 $\theta$ 不可直接微分。借助策略梯度技巧（把扩散反向过程当作一条采样轨迹/policy），把目标转写为 $\max_\theta \hat{\mathbb{E}}_{P_\theta(x_{0:T})}[\ln P_\theta(x_{0:T})\cdot f(w,x_0)]-\mu J_{DM}(\theta,P_0)$，其中 $\ln P_\theta(x_{0:T})$ 由各步去噪均方项给出。为稳定训练进一步采用 PPO 形式，用概率比 $r_\theta(x_{0:T})=P_\theta/P_{\theta_{old}}$ 和裁剪项 $\text{clip}(r_\theta,1-\kappa,1+\kappa)$ 限制每步策略更新幅度，$P_{\theta_{old}}$ 取在名义分布上预训练的参考扩散模型。为降复杂度，可只优化反向过程的最后 $T'$ 步而非全部 $T$ 步。

4. 带 max-oracle 的 min-max 求解与收敛保证。 整体采用"梯度下降 + 最大化 oracle"范式（Algorithm 1）：每轮先跑 InnerMax 找最坏模型 $P_{\theta^{(j)}}$，再从中采样对抗数据集 $S_j$ 更新 $w$。理论上 Theorem 1 证明内层最大化误差以 $O(1/\sqrt{K})$ 收敛到最优 oracle，且包含式 KL 被预算 $\epsilon$ 加上先验匹配误差控制；Theorem 2 进一步给出整体的稳定点收敛——目标 $\phi(w)=\max_\theta\mathbb{E}_{P_\theta}[f]$ 的 Moreau 包络梯度范数被内层误差 $\Delta'$、采样量 $n$、迭代数 $H$ 共同界定。此外定义生成模型的 $\Gamma$-表达力（任意测试分布都能被某个 $P_\theta$ 在 Wasserstein 距离内 $\Gamma$ 逼近），证明 $\Gamma$ 越小则内层最大化额外误差 $L_x\Gamma$ 越小、鲁棒性越好。

实验关键数据¶

主实验表格¶

任务为电力碳排放时间序列预测（Electricity Maps 数据集），训练集为 BANC 2324，在其他年份/地区构造 OOD 测试集，按 Wasserstein 距离衡量分布偏移。指标为 MSE（越低越好）。

方法	Average MSE	Worst MSE	相对 ML 提升
GAS-DRO	0.0163	0.0509	63.7%
DRAGEN	0.0230	0.0681	48.9%
P-DRO	0.0259	0.0820	42.5%
DML	0.0271	0.0834	39.7%
KL-DRO	0.0288	0.0831	36.1%
W-DRO	0.0342	0.0879	24.0%
ML	0.0450	0.0946	—

GAS-DRO 在 Average 和 Worst 两个指标上均最优，平均比次优基线再领先约 25.4%。

消融实验表格¶

（详见原文 Appendix D.4，正文给出方向性结论）

消融维度	结论
对抗预算 $\epsilon$	调节 $\epsilon$ 控制对抗强度与名义一致性的权衡
噪声类型 / 强度	验证不同分布偏移下的稳健性
生成模型表达力（不同扩散架构 + VAE）	表达力越强（$\Gamma$ 越小）鲁棒性越好，印证理论
只优化最后 $T'$ 步	大幅降计算量且性能基本保持

关键发现¶

所有 DRO 方法都比纯 ML 在 OOD 上更好，但 GAS-DRO 提升幅度最大（63.7%）。
同样用生成模型的 DRAGEN 和 P-DRO 因受制于 Wasserstein 松弛 / KL 同支撑集约束而落后，说明"把模糊集直接定义在参数空间"比"把生成模型塞进传统框架"更有效。
在 MNIST→USPS 图像分类的迁移任务上同样验证了 OOD 泛化优势（Appendix E）。

亮点与洞察¶

视角转换：把模糊集从"概率分布空间的距离球"搬到"生成模型参数空间的约束集"，一举解开表达力 vs 可处理性的死结——有限参数空间天然可处理，生成模型天然能跨支撑集且贴近真实分布。
包含式 KL 的妙用：用 $D_{KL}(P_0\|P_\theta)$ 而非 $D_{KL}(P_\theta\|P_0)$ 来度量一致性，从理论上松开了 KL-DRO 的同支撑集枷锁，这是整个框架成立的关键支点。
理论与算法兼备：不仅给出可处理的 PPO 式求解，还配上内层 $O(1/\sqrt{K})$ 收敛、整体 Moreau 包络稳定点收敛、以及 $\Gamma$-表达力对鲁棒性影响的完整分析。

局限与展望¶

依赖生成模型质量：理论已用 $\Gamma$-表达力刻画，但现实生成模型表达力有限，最坏分布可能识别不准；生成模型训练本身的开销也直接转嫁到 GAS-DRO。
计算成本：内层要反复训练/扰动扩散模型并采样，虽有"只优化最后 $T'$ 步"的省算技巧，整体仍重于传统闭式 DRO。
实验规模：正文主实验集中在时间序列预测，图像任务仅 MNIST/USPS 小数据集，更大规模任务上的表现待验证。
展望：为更多似然类生成模型建立训练损失的一致性界；提升生成模型训练效率以降低 GAS-DRO 开销；利用生成模糊集这一灵活接口注入对测试环境的先验知识。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 DRO 模糊集定义在生成模型参数空间，用包含式 KL 解开支撑集约束，视角新颖且自洽。
实验充分度: ⭐⭐⭐ 时间序列任务对比充分、提升明显，但图像任务规模偏小，大规模验证不足。
写作质量: ⭐⭐⭐⭐ 动机—理论—算法—实验链条清晰，三性质矛盾的提炼很到位。
价值: ⭐⭐⭐⭐ 为 DRO 提供了兼顾表达力与可处理性的新范式，理论扎实，对 OOD 泛化和鲁棒学习有较强借鉴意义。

消融维度	结论
对抗预算 \(\epsilon\)	调节 \(\epsilon\) 控制对抗强度与名义一致性的权衡
噪声类型 / 强度	验证不同分布偏移下的稳健性
生成模型表达力（不同扩散架构 + VAE）	表达力越强（\(\Gamma\) 越小）鲁棒性越好，印证理论
只优化最后 \(T'\) 步	大幅降计算量且性能基本保持