Possibilistic Predictive Uncertainty for Deep Learning¶
会议: ICML 2026
arXiv: 2605.00600
代码: https://github.com/MaxwellYaoNi/DAPPr
关键词: 认知不确定性、可能性理论、Dirichlet、second-order predictor、EDL
一句话总结¶
本文用 possibility theory 替代 Bayes 概率框架,提出 DAPPr——把参数空间的 possibilistic 后验通过 supremum 投影到预测空间,再用可学习的 Dirichlet possibility function 拟合,最终得到一个仅 10 行代码、可直接替换交叉熵、且在 OOD 检测上超越 EDL 家族的认知不确定性建模方法。
研究背景与动机¶
领域现状:深度网络在分布外样本上 overconfident 是众所周知的痛点,目前主流认知不确定性建模分两条路:Bayesian deep learning(BNN / MC Dropout / Deep Ensemble),以及 second-order predictor(EDL / PostNet / Prior Networks)。
现有痛点:Bayesian 路线理论严谨但要在高维参数空间做后验边缘化,计算昂贵且难 scale;second-order predictor 高效但 objective 多是启发式的,缺乏从概率公理出发的严格推导。EDL 甚至已经被指出存在 "数据越多不确定性越高" 的病态行为。
核心矛盾:理论严谨与计算可行之间存在 trade-off——Bayes 严谨但贵,second-order 便宜但 ad hoc。作者认为根本原因是大家都把 epistemic uncertainty 当作 probability 处理,而概率分布的 "sum to 1" 约束本来就更适合刻画 aleatoric 随机性,不适合刻画 "无知"。
本文目标:(1) 找一个严谨但不需要参数空间积分的不确定性表示框架;(2) 推导出有 closed-form 的训练目标;(3) 在标准 benchmark 上与 EDL 家族正面对比。
切入角度:作者从 1978 年 Zadeh 提出但深度学习里几乎被忽视的 possibility theory 出发——它用 supremum 替代 integration、用 max-normalization 替代 sum-to-1,天然适合表达 "哪些假设不能被排除" 这种认知信息。
核心 idea:把模型参数的 possibilistic posterior 通过 supremum 投影到 simplex 上,再用 Dirichlet possibility function 在 simplex 上做参数化逼近,整个 pipeline 用 cross-entropy 就能 close 出 closed-form 解。
方法详解¶
DAPPr 的优雅之处在于:一个本来需要在高维参数空间做约束优化的 "投影后验",通过 over-parameterized assumption + Dirichlet 参数化 + Danskin 定理三件套,被压缩成 10 行 PyTorch 代码。
整体框架¶
输入是普通分类样本 \((\bm{x}, \bm{y})\);模型 \(\Phi'_{\bm{\psi}}\) 输出 Dirichlet 参数 \(\bm{\alpha} = \mathrm{softplus}(\mathrm{logits}) + 1\);定义 Dirichlet possibility function \(g_{\bm{\psi}}(\bm{p}|\bm{x})\);推理时用 \(1 - \max_k \alpha_k / \alpha_0\) 算 aleatoric uncertainty、\(K / \alpha_0\) 算 epistemic uncertainty(\(\alpha_0 = \sum_k \alpha_k\) 即总 evidence)。训练时构造 "投影 + 逼近" 两步 pipeline,最终在 cross-entropy 下推出 closed-form 的 surrogate loss。
关键设计¶
-
Possibilistic Posterior + Supremum 投影:
- 功能:在均匀先验下定义参数空间 possibilistic posterior \(\pi(\bm{\theta}|\mathcal{D}) = \exp(-L(\bm{\theta};\mathcal{D})) / \sup_{\bm{\theta}'}\exp(-L(\bm{\theta}';\mathcal{D}))\),loss 越小 plausibility 越高;然后用 possibilistic change-of-variable 投影到 simplex:\(g^*_{\bm{x}}(\bm{p}|\mathcal{D}) = \sup\{\pi(\bm{\theta}|\mathcal{D}) : \Phi_{\bm{\theta}}(\bm{x}) = \bm{p}\}\)。
- 核心思路:把 Bayesian 里需要积分的 marginalization 替换成 supremum 下的约束优化——这是 possibility theory 与 probability theory 的本质差异。然后用 over-parameterized assumption(足够大的网络可以拟合任一单点而不影响其他样本)证明 \(\inf_{\Phi_{\bm{\theta}}(\bm{x})=\bm{p}} L(\bm{\theta}; \mathcal{D} \setminus \{(\bm{x},\bm{y})\}) \approx c_{\bm{x}}\) 与 \(\bm{p}\) 几乎无关,于是投影后验简化为 \(g^*_{\bm{x}}(\bm{p}|\mathcal{D}) \propto \exp(-\ell(\bm{p}, \bm{y}))\)。
- 设计动机:参数空间积分是 Bayesian 方法昂贵的根源;用 supremum + over-parameterization 假设把它替换成 sample-wise 的 leave-one-out infimum,再用 capacity 假设把它近似为常数,是非常聪明的两阶段简化。
-
Maxitive Pseudo-divergence 训练目标:
- 功能:用 \(D_{\mathrm{max}}(f\|g) = \max_{\theta} \log(f(\theta)/g(\theta))\) 衡量两个 possibility function 的偏差,定义训练目标 \(\mathcal{L}(\bm{\psi}; \mathcal{D}) = \mathbb{E}_{\bm{x}}[\max_{\bm{p}}(\log g_{\bm{\psi}}(\bm{p}|\bm{x}) - \log g^*_{\bm{x}}(\bm{p}|\mathcal{D}))]\),本质是惩罚学习函数对投影后验的最大 pointwise 高估。
- 核心思路:这是 min-max 问题,inner max 的 maximizer \(\bm{p}^*\) 依赖 \(\bm{\psi}\)。用 Danskin 定理把外层梯度等同于在 inner maximizer 处对 \(\bm{\psi}\) 求导。在 Dirichlet 参数化下,cross-entropy 损失的 inner max 有 closed-form 解 \(\tilde{\bm{p}}^* = (\bm{\alpha} - \bm{y}) / (\alpha_0 - 1)\),要求 \(\alpha_k > 1\)(用 softplus + 1 强制满足)。
- 设计动机:用 "maxitive divergence 替 KL"、"Danskin 解 min-max"、"Dirichlet 参数化得到 closed-form" 三连击,把一个抽象的 possibility theory 框架变成可微可训练的 simple loss,是论文最关键的工程化贡献。
-
Spurious Evidence 正则:
- 功能:在 cross-entropy surrogate 之外加一个正则 \(\mathcal{R}(\bm{x}) = \|(\bm{1} - \bm{y}) \odot \bm{\alpha}\|_2^2\),惩罚分配给错误类别的 evidence。
- 核心思路:surrogate objective 鼓励每个样本被任意精确拟合,从而 \(\alpha_0\) 可能 unbound 增长,对应不切实际的过高 evidence。这个正则只惩罚 wrong-class 上的 \(\alpha\),让 total evidence 受控但不阻碍正确类别 evidence 的增长。
- 设计动机:EDL 系列方法的常见痛点是 evidence 难以控制;这里用一个简洁的 mask + L2 直接限制错误类别的过度自信,避免了 EDL 复杂的 Fisher 正则。
损失函数 / 训练策略¶
最终训练目标如下(10 行 PyTorch 即可实现):
\(\ell_{\bm{\psi}}(\bm{x}) = \alpha_0 \log \alpha_0 + \sum_k \alpha_k \log(\tilde{p}^*_k / \alpha_k) + \lambda \|(\bm{1} - \bm{y}) \odot \bm{\alpha}\|_2^2\)
其中 \(\tilde{\bm{p}}^* = (\bm{\alpha} - \bm{y} + \epsilon) / (\alpha_0 - 1)\) 被 detach 防止梯度回传。\(\lambda\) 控制正则强度,是唯一显式超参。
实验关键数据¶
主实验¶
在 MNIST / CIFAR-10 / CIFAR-100 上对比 SOTA EDL 家族(\(\mathcal{I}\)-EDL / R-EDL / \(\mathcal{F}\)-EDL)+ Bayesian baseline(MC Dropout / DUQ / PostNet):
| 数据集 | 指标 | DAPPr | \(\mathcal{F}\)-EDL | R-EDL | \(\mathcal{I}\)-EDL | EDL |
|---|---|---|---|---|---|---|
| MNIST Test Acc | ↑ | 99.26 | 99.30 | 99.33 | 99.21 | 98.22 |
| MNIST Conf AUPR | ↑ | 99.99 | 99.93 | 99.99 | 99.98 | 99.99 |
| MNIST→KMNIST OOD | ↑ | 98.81 | 98.74 | 98.69 | 98.33 | 96.31 |
| MNIST→FMNIST OOD | ↑ | 99.55 | 99.31 | 99.29 | 98.86 | 98.08 |
DAPPr 在 OOD 检测上稳定优于 EDL 家族最强变体,accuracy 与 confidence 校准持平。
消融实验¶
论文做了 over-parameterization 假设的经验验证、spurious evidence 正则强度 \(\lambda\) 扫描、在长尾分布 / 分布偏移检测 / 细粒度分类等更复杂 benchmark 上的对比:
| 配置 | 关键效果 | 说明 |
|---|---|---|
| 无正则 \(\lambda = 0\) | \(\alpha_0\) 无界增长 | 拟合每个样本任意精确,破坏不确定性表达 |
| 大 \(\lambda\) | evidence 被压制 | 不确定性总体偏高,acc 略降 |
| 适中 \(\lambda\) | 最佳 trade-off | OOD AUPR 最高 |
| Eq. (11) 近似验证 | leave-one-out loss 几乎与 \(\bm{p}\) 无关 | 实证支持 over-param 假设 |
关键发现¶
- 在 OOD 检测这个 epistemic uncertainty 真正重要的任务上,DAPPr 持续超越所有 EDL 变体,说明 possibility theory 推导出的 objective 在 OOD scenario 比启发式 EDL 更敏感。
- spurious evidence 正则不仅是工程 trick,而是从理论上 cap 住 over-fitting 单样本的 unbound 行为,因此对最终 calibration 影响显著。
- closed-form \(\tilde{\bm{p}}^*\) 让训练成本与普通 cross-entropy 完全一样,没有引入 ensemble / sampling overhead,可直接替换现有 pipeline。
亮点与洞察¶
- 把 possibility theory 引入 deep uncertainty 是这篇论文最大的概念贡献——过去几十年学界几乎只在 probability theory 框架里思考不确定性,而 possibility 的 max 算子天然契合 "无法排除" 的 epistemic 语义。
- Danskin 定理在这里被用得非常优雅:把一个 min-max 问题在 inner-maximizer 上 collapse 成单层梯度,避免了 GAN-style 对抗训练的不稳定。
- 10 行 PyTorch 代码就能 drop-in 替换 cross-entropy 是非常工程友好的设计,几乎零迁移成本,可大幅推动学界使用。
- over-parameterized 假设作为简化 trick 非常 powerful——它把一个 leave-one-out 优化问题近似为常数,这种思路可以迁移到其它涉及参数空间积分的方法(如 influence function、data attribution)。
局限与展望¶
- over-parameterization 假设在 underparameterized 或对样本敏感的场景下可能失效(如小样本 / 多任务相互冲突),论文虽给了经验验证但缺少理论上的边界刻画。
- spurious evidence 正则强度 \(\lambda\) 是唯一显式超参,在新数据集上仍需调优,未来可考虑 adaptive 版本。
- 当前只在分类任务的 simplex 上做 Dirichlet 逼近;推广到 regression、structured prediction 等更复杂输出空间需要找新的 possibility function 族。
- 与 conformal prediction 等校准方法的对比缺失,目前不清楚 DAPPr 的不确定性是否能直接转化为有保证的覆盖区间。
相关工作与启发¶
- vs EDL 家族:EDL 基于 subjective logic / Dempster-Shafer 理论,objective 是启发式的;DAPPr 从 possibility theory 严格推导出 objective,并在 OOD 上持续超越 EDL 最强变体。
- vs Bayesian deep learning(BNN/MC Dropout/Deep Ensemble):Bayesian 路线需要 ensemble 或 sampling;DAPPr 单模型推理,成本与普通分类一致,但仍能表达 epistemic uncertainty。
- vs PostNet / Natural Posterior Networks:那些方法用 normalizing flow 拟合后验,复杂且需要额外组件;DAPPr 用 Dirichlet 参数化 + closed-form maximizer,简洁很多。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次把 possibility theory 系统引入深度认知不确定性,理论基础新颖。
- 实验充分度: ⭐⭐⭐⭐ MNIST / CIFAR / 长尾 / 分布偏移 / 细粒度多个 benchmark 覆盖完整。
- 写作质量: ⭐⭐⭐⭐ 推导严谨清晰,从 possibility 基础概念到 closed-form 一步步建立。
- 价值: ⭐⭐⭐⭐⭐ 10 行代码替换 cross-entropy 即可获得 SOTA OOD,工程价值极高。