Bulk-Calibrated Credal Ambiguity Sets: Fast, Tractable Decision Making under Out-of-Sample Contamination¶

会议: ICML2026
arXiv: 2601.21324
代码: https://github.com/MengqiChenMC/credal-ambiguity-sets-code-repo
领域: 分布鲁棒优化 / 不精确概率 / 鲁棒统计
关键词: 分布鲁棒优化, Huber污染, 不精确概率, credal set, 决策鲁棒性

一句话总结¶

针对"Huber（线性-vacuous）污染集放进无界空间会让最坏风险变成 $+\infty$、DRO 目标失效"这一老问题，本文提出bulk-calibrated credal 模糊集——从数据学一个高概率质量的"主体集"$\Xi_0$、把污染预算只放进 $\Xi_0$ 内、再用矩条件单独控住尾部，从而得到一个 闭式 $\text{mean}+\sup$ 鲁棒目标，可化为常见损失下的 LP/SOCP 求解，又快又有限。

研究背景与动机¶

领域现状：不精确概率（IP）和分布鲁棒优化（DRO）都在做"最坏情形决策"——不押注单一数据分布，而是保护决策对抗某个"可信分布集合"里的最坏者。当 IP 的 credal set $\mathcal M$ 等于 DRO 的模糊集 $\mathcal A$ 时，二者的鲁棒目标（最坏期望损失）重合，即 IP 的上期望 $\overline{\mathbb E}_{Q\in\mathcal M}[f_x(\xi)]=\sup_{Q\in\mathcal M}\mathbb E_{\xi\sim Q}[f_x(\xi)]$。现代 ML 里的 DRO 多围绕 $f$-散度球和 Wasserstein 邻域，因为它们目标光滑、对偶干净。

现有痛点：鲁棒统计里最经典的污染模型是 Huber $\varepsilon$-污染：$\tilde{\mathbb P}=(1-\varepsilon)\mathbb P^\star+\varepsilon\tilde R$，即把"干净分布"被 $\varepsilon$ 比例的任意 vacuous（毫无信息、可任意放置）分布扰动。但只要把 Huber 污染塞进无界空间 $\Xi$ + 无界损失 $f_x$，最坏风险里那个 $\sup_{\xi}f_x(\xi)$ 就是 $+\infty$，DRO 目标直接变 vacuous。现有"含污染"的 DRO 只能靠强行假设 $\Xi$ 有界或限制函数类（如 kernel-DRO）来回避。

核心矛盾：Huber 污染的"最小假设、对抗任意扰动"是它最宝贵的性质，但这个性质恰恰和"无界空间下目标要有限可解"直接打架——adversary 可以把那 $\varepsilon$ 的质量丢到无穷远处把损失顶到无穷。Duchi & Namkoong (2021) 早就呼吁厘清"散度球 DRO"与"经典 Huber 鲁棒"之间的联系，本文正是回应这一呼吁。

本文目标：把 Huber $\varepsilon$-污染翻译成一个在无界连续空间里仍良定、且计算可解的 DRO 目标，同时保留它的 IP 解释（可解释的容忍度 $\varepsilon$）。

切入角度：作者观察到——污染之所以爆，是因为 adversary 能往任意远处放质量；那就先从数据学一个有界的"主体集"$\Xi_0$，让它以高概率装下 $\mathbb P^\star$ 的绝大部分质量，把污染预算限制在 $\Xi_0$ 内（于是 $\sup$ 取在有界集上、有限），再用一个矩条件单独 bound 住 $\Xi_0$ 外的尾部贡献。

核心 idea：用"主体集 + 显式质量证书 + 尾部矩控制"三件套，把发散的 Huber-DRO 改造成 $(1-\varepsilon)\,\text{mean}+\varepsilon\,\sup$ 形式的闭式有限目标，且 $\sup$ 在 $\Xi_0$ 上对常见损失有闭式、可写成 LP/SOCP。

方法详解¶

整体框架¶

整体是一条"先定义可解的鲁棒目标 → 再用数据校准让它有统计保证"的双层流水线。给定一个有界主体集 $\Xi_0$、一个中心分布 $\mathbb P_c$（可以是贝叶斯后验预测、频率派 plug-in、或经验分布）和容忍度 $\varepsilon$，作者定义 support-restricted LV 集（在 $\Xi_0$ 上的 Huber 污染集），并证明其最坏风险有闭式 $\text{mean}+\sup$ 解（Thm 2.1）；接着把 $\Xi_0$ 从固定的换成数据驱动的——用一个标量打分函数 $s(\cdot)$ 把 $\Xi_0$ 参数化成 $\{s(\xi)\leq t\}$ 的水平集，再用 DKW 不等式选阈值 $t$，给出"$\mathbb P^\star(\Xi_0)\geq 1-\gamma$ 以 $\geq 1-\delta$ 概率成立"的有限样本质量证书（Lemma 3.2），并配一个把"主体鲁棒 + 尾部控制"分离的高概率风险证书（Thm 3.4）。最后讨论无部署样本时如何用验证集挑 $\varepsilon$。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["i.i.d. 训练数据 D~P*<br/>无界空间+无界损失"] --> B["主体集校准 Ξ0<br/>打分 s(ξ)≤t + DKW选阈值"]
    A --> C["选中心分布 Pc<br/>贝叶斯/频率派/经验"]
    B --> D["bulk-restricted LV 集<br/>污染只放进 Ξ0 内"]
    C --> D
    D -->|Thm 2.1 闭式| E["mean+sup 鲁棒目标<br/>(1−ε)E[f]+ε·sup_Ξ0 f"]
    E -->|sup 在 Ξ0 闭式| F["LP / SOCP 决策 x̂"]
    B -.Lemma 3.2 质量证书<br/>+ Thm 3.4 风险证书.-> E

关键设计¶

1. Bulk-restricted LV 集：把污染预算关进有界主体集，逼出闭式 mean+sup 目标

这是全文的地基，直接拆解"无界空间 → 最坏风险无穷"这个痛点。作者把模糊集定义为只在 $\Xi_0$ 上做 Huber 污染的 support-restricted linear-vacuous（LV）集：

\[\mathcal A^{\operatorname{LV}}_{\varepsilon,\Xi_0}(\mathbb P_{c,\Xi_0}):=\{(1-\varepsilon)\mathbb P_{c,\Xi_0}+\varepsilon R:R\in\mathcal P(\Xi_0)\},\]

其中 $\mathbb P_{c,\Xi_0}$ 是中心分布在 $\Xi_0$ 上的归一化截断。因为 adversary 的那 $\varepsilon$ 质量只能放在有界的 $\Xi_0$ 里，$\sup_{\xi\in\Xi_0}f_x(\xi)$ 就有限了。Thm 2.1 给出干净的闭式最坏风险：

\[\mathcal R(f_x)=(1-\varepsilon)\,\mathbb E_{\xi\sim\mathbb P_{c,\Xi_0}}[f_x(\xi)]+\varepsilon\,\sup_{\xi\in\Xi_0}f_x(\xi),\]

这正对应 IP 里 $\varepsilon$-污染模型的上期望。Cor 2.2 还指出最坏分布就是把 $\varepsilon$ 质量全压在 $\Xi_0$ 内使损失取到 $\sup$ 的点上。这个 $\text{mean}+\sup$ 形式既保留了 Huber"对抗任意扰动"的最小假设精神，又天然可解。

2. 把 LV 集统一进散度球与污染邻域族，给出可解释的几何图景

光有闭式目标还不够说服 DRO 社区，作者进一步证明这个污染集就是一个 forward-LV 散度球：Prop 2.3 表明 $\mathcal A^{\operatorname{LV}}_{\varepsilon,\Xi_0}$ 恰等于 $\{Q:\operatorname{LV}(Q,\mathbb P_{c,\Xi_0})\leq\varepsilon\}$，其中 LV distortion $\operatorname{LV}(Q,\mathbb P):=\sup_{A:\mathbb P(A)>0}\frac{\mathbb P(A)-Q(A)}{\mathbb P(A)}$。在此基础上把三类污染邻域串成一张图：forward-LV 对应"往最坏状态加 $\varepsilon$ 质量"，最坏风险 $(1-\varepsilon)\mathbb E[f]+\varepsilon\sup f$；reverse-LV 对应"从 $\mathbb P$ 里删掉 $\varepsilon$ 低损失质量"，最坏风险恰是 $\mathrm{CVaR}^{\mathbb P}_{1-\varepsilon}(f)$（解释了 outlier-robust DRO）；对称 TV 球两者兼有，$\mathcal R=(1-\varepsilon)\mathrm{CVaR}^{\mathbb P}_{1-\varepsilon}(f)+\varepsilon\sup f$（Prop 2.4）。作者还用 total variation 的相似性分解给了 TV 目标一个新证明，把三种邻域的内在联系讲透。这一设计的价值在于：它把"加对抗质量（forward）"和"删低损失质量（reverse）"放进同一坐标系，让"IP credal set ↔ DRO 目标"的翻译有了可解释的容忍度刻度。

3. 数据驱动 bulk 校准：用打分水平集 + DKW 证书让 $\Xi_0$ 既可解又有有限样本保证

前两个设计假设 $\Xi_0$ 给定，但实践中 $\Xi_0$ 必须从数据学且要可信。痛点是：随手用"三 sigma 截断"这种朴素 confidence set 虽能给个有界 $\Xi_0$，却证不了 $\mathbb P^\star(\Xi_0)\geq 1-\gamma$，尾部质量失控。作者的做法是把 $\Xi_0$ 限制成一个标量打分的水平集 $\Xi_0(t)=\{\xi:s(\xi)\leq t\}$（典型 $s$ 为椭球 Mahalanobis $\|\Sigma_{\rm fit}^{-1/2}(\xi-\mu_{\rm fit})\|_2$ 或盒子 $\max_i|\xi_i-\mu_{\rm fit,i}|/w_i$），把样本分成 $\mathcal D_{\rm fit}$（拟合 $s$）和 $\mathcal D_{\rm select}$（选阈值）两份。对选择分数的经验 CDF $F_m$ 用 Dvoretzky–Kiefer–Wolfowitz（DKW） 不等式构造单边下包络 $L^{\rm DKW}(t)=[F_m(t)-r_{m,\delta}]_+$（$r_{m,\delta}=\sqrt{\frac{1}{2m}\log\frac{2}{\delta}}$），取最小清过目标质量的阈值 $\hat t_{\rm DKW}=\inf\{t:L^{\rm DKW}(t)\geq 1-\gamma\}$，即可保证（Lemma 3.2）

\[\Pr\{\mathbb P^\star(\Xi_0(\hat t_{\rm DKW}))\geq 1-\gamma\}\geq 1-\delta.\]

整个校准只需 $O(m\log m)$（取经验分位数）。这套打分水平集的妙处是双赢：既给 $\sup_{\xi\in\Xi_0}f_x(\xi)$ 留出闭式（见下表的 LP/SOCP），又能像 conformal prediction 那样给出有限样本质量证书（但 conformal 给的是边际覆盖，这里给的是高概率 bulk-mass）。最后 Thm 3.4 把部署期污染 $\tilde{\mathbb P}=(1-\varepsilon^\star)\mathbb P^\star+\varepsilon^\star\tilde R$ 下的真实风险拆成"主体内 LV 目标 + 尾部矩项"：$\mathbb E_{\tilde{\mathbb P}}[f_x]\leq(1-\varepsilon_{\rm eff})\mathbb E_{\mathbb P_{c,\Xi_0}}[f_x]+\varepsilon_{\rm eff}\sup_{\Xi_0}f_x+M_p(x)\cdot(\cdots)^{1/q}$，其中有效容忍度 $\varepsilon_{\rm eff}$ 合并了"中心失配 $\varepsilon_c$"与"落进主体内的部署污染 $\varepsilon^\star\rho_{\Xi_0}$"，尾部靠 $p$-阶矩 $M_p(x)$ 控住——这正是"主体鲁棒"与"尾部控制"分离的统计骨架。

损失函数 / sup 闭式与可解形式¶

对椭球 / 盒子两种主体几何，$\sup_{\xi\in\Xi_0(t)}f_x(\xi)$ 对常见损失有闭式（来自凸优化的支撑函数），从而整个 $\text{mean}+\sup$ 目标可写成 LP/SOCP：

损失 $f_x(\xi)$	椭球 $\Xi_0^{\rm ellip}(t)$ 上 $\sup$	盒子 $\Xi_0^{\rm box}(t)$ 上 $\sup$
线性 $a_x^\top\xi+b_x$	$C_x+t\,m_2(a_x)$	$C_x+t\,m_1(a_x)$
ReLU $\max\{0,a_x^\top\xi+b_x\}$	$\max\{0,C_x+t\,m_2(a_x)\}$	$\max\{0,C_x+t\,m_1(a_x)\}$
绝对值 $	a_x^\top\xi+b_x	$
分段线性 $\max_j\{a_{x,j}^\top\xi+b_{x,j}\}$	$\max_j\{a_{x,j}^\top\mu_{\rm fit}+b_{x,j}+t\,m_2(a_{x,j})\}$	同左换 $m_1$

其中 $C_x=a_x^\top\mu_{\rm fit}+b_x$，$m_2(a_x)=\|\Sigma_{\rm fit}^{1/2}a_x\|_2$，$m_1(a_x)=\sum_i w_i|a_{x,i}|$。决策为 $\hat x\in\arg\min_x\mathcal R(f_x)$。

实验关键数据¶

三个实验分别用贝叶斯 / 频率派 / 经验三种中心分布，验证 LV 在污染下的鲁棒-精度权衡与求解速度。

主实验¶

实验	中心 / 场景	关键结果
重尾 newsvendor（合成，Student-$t$, $\nu=3$, $d=5$）	贝叶斯后验预测	污染（$\varepsilon_{\rm cont}=0.1,0.2$）下 LV 取得最强 mean–variance 前沿、最低 MSD；总运行 1.3s vs KL-BDRO 2.4s、OR-WDRO 23.5s
California housing 回归（East→West 地理漂移，留 30% 间隔带）	频率派 Gaussian copula	四项指标全胜，对最强基线 Wasserstein：MAE↓13%，$p_{98}$ 与 $\mathrm{CVaR}_{2\%}$ 各↓约 10%；总时 1.44s vs Wass 6.16s
CivilComments 文本分类（WILDS 子群漂移，16 个 identity×label 切片）	经验分布（LV-Group 扩展 GroupDRO）	平均准确率 0.828 / 最差组 0.516，均高于 GroupDRO 的 0.770 / 0.456

关键发现¶

配置	现象	说明
LV vs KL-BDRO	KL 在大 $\varepsilon_{\rm KL}$ 处饱和（$\varepsilon_{\rm KL}=5,10$ 的点重叠）	KL 受有限场景限制，LV 仍能继续拿 OOS 均值换方差
LV 样本效率	仅用 50 个截断样本性能就稳定	KL 类贝叶斯方法需大得多的 SAA 预算才稳，这也是 LV 最快的原因
无污染场景	$\varepsilon_{\rm LV}$ 大时 LV 偏保守	此时 OR-WDRO/KL-BDRO 的 MSD 更低，但 LV 的最优 MSD 仍接近最佳基线
尾预算 $\gamma$	在合理范围内性能稳定	建议取略高于最小可证值、留约 10 个分数在主体外（$\gamma\approx r_{m,\delta}+10/m$）

最突出的点：LV 不仅在污染下鲁棒性最好，而且求解最快（newsvendor 比 OR-WDRO 快约 18 倍），因为它是 sample-efficient 的截断 SAA。
几何选择有讲究：回归里 $Y\mid X$ 会变，用 $\Xi_{0,X}\times\Xi_{0,Y}$ 分块解耦协变量几何与结果波动；联合椭球会硬编码训练期 $Y$–$X$ 依赖、盒子又过保守。经验法则：默认 Mahalanobis 分数、异质维度用分块、只有当对抗确实是坐标独立偏移时才用盒子。

亮点与洞察¶

"主体集 + 显式质量证书"是把发散污染目标驯服的关键招：与其假设 $\Xi$ 有界（强且不现实），不如从数据学一个高概率装下大部分质量的有界子集、把污染关进去、尾部单独用矩控住——这种"分离主体鲁棒与尾部控制"的拆法很通用，可迁移到任何"adversary 能往无穷远放质量"的鲁棒问题。
统一 forward-LV / reverse-LV / TV 三种邻域：把"加对抗质量 = sup"、"删低损失质量 = CVaR"放进同一框架，让长期被分开研究的 Huber 鲁棒与 outlier-robust DRO 有了共同语言，对理解各种 DRO 目标的"几何来源"很有启发。
DKW 校准像 conformal 但给的是 bulk-mass：用打分水平集 + DKW 下包络选阈值，$O(m\log m)$ 拿到有限样本质量证书，且支持分块校准（$\sum\gamma_i\leq\gamma,\sum\delta_i\leq\delta$），工程上即插即用。

局限与展望¶

$\varepsilon$ 不可辨识：真实部署污染率 $\varepsilon^\star$ 从训练数据无法识别，本文把 $\varepsilon$ 当鲁棒预算靠验证集调（geo-block CV / minimax 验证），无部署样本时 Thm 3.4 只是结构性分解（$\varepsilon^\star,\rho_{\Xi_0},M_p$ 不可观测）。
依赖主体几何选择：$\Xi_0$ 的几何（椭球/盒子/分块）是重要建模选择，选错（如回归用联合椭球）会失效；目前靠经验法则而非自动选择。
尾部矩条件：风险证书需要 $p>1$ 阶矩有限（$M_p(x)<\infty$），对极重尾或无矩分布不适用。
无污染时可能过保守：大 $\varepsilon$ 下 LV 偏保守，需要靠调参回到合理区间。
改进方向：自动化主体几何/分数选择、把 $\varepsilon$ 校准与部署期少量样本结合、推广到更一般的非凸损失。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用"数据学主体集 + 显式质量证书"把发散的无界 Huber-DRO 驯成闭式可解目标，并统一三类污染邻域，回应了 Duchi-Namkoong 的公开呼吁。
实验充分度: ⭐⭐⭐⭐ 贝叶斯/频率派/经验三种中心 × 合成+两真实任务，含运行时与样本效率分析，覆盖面好；但都用线性预测器、未上深层表示。
写作质量: ⭐⭐⭐⭐⭐ 从定义到证书层层递进，IP↔DRO 的对应讲得清晰，几何选择给了可操作的经验法则。
价值: ⭐⭐⭐⭐ 给"含 Huber 污染的 DRO"提供了又快又有保证的落地方案，对鲁棒决策、子群公平等场景实用。

损失 \(f_x(\xi)\)	椭球 \(\Xi_0^{\rm ellip}(t)\) 上 \(\sup\)	盒子 \(\Xi_0^{\rm box}(t)\) 上 \(\sup\)
线性 \(a_x^\top\xi+b_x\)	\(C_x+t\,m_2(a_x)\)	\(C_x+t\,m_1(a_x)\)
ReLU \(\max\{0,a_x^\top\xi+b_x\}\)	\(\max\{0,C_x+t\,m_2(a_x)\}\)	\(\max\{0,C_x+t\,m_1(a_x)\}\)
绝对值 $	a_x^\top\xi+b_x	$
分段线性 \(\max_j\{a_{x,j}^\top\xi+b_{x,j}\}\)	\(\max_j\{a_{x,j}^\top\mu_{\rm fit}+b_{x,j}+t\,m_2(a_{x,j})\}\)	同左换 \(m_1\)

实验	中心 / 场景	关键结果
重尾 newsvendor（合成，Student-\(t\), \(\nu=3\), \(d=5\)）	贝叶斯后验预测	污染（\(\varepsilon_{\rm cont}=0.1,0.2\)）下 LV 取得最强 mean–variance 前沿、最低 MSD；总运行 1.3s vs KL-BDRO 2.4s、OR-WDRO 23.5s
California housing 回归（East→West 地理漂移，留 30% 间隔带）	频率派 Gaussian copula	四项指标全胜，对最强基线 Wasserstein：MAE↓13%，\(p_{98}\) 与 \(\mathrm{CVaR}_{2\%}\) 各↓约 10%；总时 1.44s vs Wass 6.16s
CivilComments 文本分类（WILDS 子群漂移，16 个 identity×label 切片）	经验分布（LV-Group 扩展 GroupDRO）	平均准确率 0.828 / 最差组 0.516，均高于 GroupDRO 的 0.770 / 0.456

配置	现象	说明
LV vs KL-BDRO	KL 在大 \(\varepsilon_{\rm KL}\) 处饱和（\(\varepsilon_{\rm KL}=5,10\) 的点重叠）	KL 受有限场景限制，LV 仍能继续拿 OOS 均值换方差
LV 样本效率	仅用 50 个截断样本性能就稳定	KL 类贝叶斯方法需大得多的 SAA 预算才稳，这也是 LV 最快的原因
无污染场景	\(\varepsilon_{\rm LV}\) 大时 LV 偏保守	此时 OR-WDRO/KL-BDRO 的 MSD 更低，但 LV 的最优 MSD 仍接近最佳基线
尾预算 \(\gamma\)	在合理范围内性能稳定	建议取略高于最小可证值、留约 10 个分数在主体外（\(\gamma\approx r_{m,\delta}+10/m\)）