The Disparate Benefits of Deep Ensembles¶

会议: ICML 2025
arXiv: 2410.13831
代码: 无
领域: AI安全 / 算法公平
关键词: 深度集成, 算法公平, 预测多样性, 模型校准, 后处理

一句话总结¶

这篇论文通过对人脸分析与医学影像数据集的大规模实证研究，揭示了一个被忽视的现象——"差异化收益效应"（disparate benefits effect）：深度集成（Deep Ensembles）在提升整体性能的同时，会不均衡地惠及不同受保护群体（往往偏向本就占优势的群体），从而损害群体公平；作者进一步指出其根因是群体间预测多样性的差异，并证明经典的 Hardt 后处理（HPP）能在保住性能增益的前提下有效修复公平。

研究背景与动机¶

领域现状：深度集成（Lakshminarayanan et al., 2017）是提升深度神经网络（DNN）性能、估计预测不确定性的一种"简单又稳健"的标配手段——独立训练 \(N\) 个用不同随机种子初始化的同结构 DNN，把它们的预测分布做平均：

\[p(y \mid \bm{x}, \mathcal{D}) \approx \frac{1}{N}\sum_{n=1}^{N} p(y \mid \bm{x}, \bm{w}_n), \quad \bm{w}_n \sim p(\bm{w} \mid \mathcal{D})\]

它被广泛部署到医疗、金融、法律等高风险场景中。

现有痛点：在这些高风险场景里，模型在不同受保护群体（按性别、年龄、种族等敏感属性划分）上的表现是否公平至关重要。单个 DNN 的群体公平问题已被充分研究，但集成这件事本身对公平的影响几乎没人系统研究过。人们默认"集成只会让模型更好"，却没问过：它对所有群体都一样好吗？

核心矛盾：集成带来的性能红利不是天上掉下来均分的，它依赖于成员之间的"预测多样性"——而这种多样性在不同群体上并不相同。如果优势群体的成员之间更"五花八门"，集成对该群体的提升就更大，弱势群体反而被甩开，于是性能涨、公平跌。

本文目标：(1) 实证刻画深度集成的性能红利如何在受保护群体间分配；(2) 找出造成这种不均衡的根本原因；(3) 在不重训成员的前提下找到修复公平的办法。

切入角度：与最接近的前作 Ko et al. (2023) 不同——后者把"群体"定义为目标空间里表现最好/最差的子集、且只看 per-group 准确率、结论是集成"只有正面影响"。本文用真实的受保护属性定义群体，并采用算法公平领域公认的群体公平指标，结果直接反驳了"集成只有好处"的乐观看法。

核心 idea：把"集成提升性能"和"群体公平"放进同一张图里观察——发现两者方向相反（差异化收益效应），再用预测多样性解释成因、用后处理校准阈值来对症下药。

方法详解¶

本文是一篇实证分析 + 机理解释 + 缓解方案三段式的研究，没有提出新模型，而是设计了一套严谨的实验协议来定义、定位、解释并修复"差异化收益效应"。下面按"如何度量公平 → 发现什么效应 → 为什么会这样 → 怎么修"的逻辑链展开。

整体框架¶

整套研究建立在二分类设定上：输入 \(\bm{x}\in\mathbb{R}^D\)、标签 \(y\in\{0,1\}\)（\(y=1\) 为正向结果）、群体属性 \(a\in\{0,1\}\)（约定 \(a=1\) 为占优势群体）。性能用准确率（人脸数据集）或 AUROC（医学数据集）衡量；公平用三个互补的群体公平指标的"违背程度"衡量，全部归一到 \([0,1]\)，0 表示最公平：

统计均等差 SPD（Statistical Parity Difference）：\(\text{PR}_{A=1}-\text{PR}_{A=0}\)，即两群体正向预测率之差，要求"预测正向"独立于群体属性。
机会均等差 EOD（Equal Opportunity Difference）：\(\text{TPR}_{A=1}-\text{TPR}_{A=0}\)，在真实标签为正的条件下比较真正例率（TPR）。
平均几率差 AOD（Average Odds Difference）：\(\frac{1}{2}|\text{TPR}_{A=1}-\text{TPR}_{A=0}| + \frac{1}{2}|\text{FPR}_{A=1}-\text{FPR}_{A=0}|\)，同时约束真正例率与假正例率（FPR），是 equalized odds 的松弛估计。

实验规模：3 个视觉数据集（FairFace=FF、UTKFace=UTK、CheXpert=CX）、5 种 DNN 架构（ResNet18/34/50、RegNet-Y 800MF、EfficientNetV2-S）、4 个目标变量 × 5 个种子 × 10 个成员，共训练 1000 个独立模型，覆盖 15 个任务；正文主结果用 ResNet50。整体流程是：先比较"10 成员深度集成"与"平均单成员"在性能/公平上的差值 \(\Delta\)（第一步，发现效应）→ 拆解 PR/TPR/FPR 与预测多样性来解释成因（第二步，归因）→ 用加权与阈值后处理两条路径修复（第三步，缓解）。

关键设计¶

1. 差异化收益效应：把性能与公平放进同一坐标系，揭示集成"劫贫济富"

作者度量的核心量是"加成员前后的变化" \(\Delta\) ——即 10 成员深度集成相对平均单个成员在准确率/AUROC 和 SPD/EOD/AOD 上的差值（用 t 检验在 5 次运行上判显著，\(p<0.05\)）。关键观察是：性能的 \(\Delta\) 总是正的（集成必然提升性能），但公平违背的 \(\Delta\) 不一定下降，甚至常常上升。在 6 个"目标/受保护属性"组合中有 4 个出现了显著的公平恶化，且这种恶化几乎只发生在单个成员本就存在明显公平违背（违背值 >0.05）的任务上。换句话说，集成不是均匀地把性能红利发给所有人，而是倾向于继续加码给本就占优势的群体——这正是"差异化收益"一词的由来。这个发现的可贵之处在于它反直觉：实践者通常把集成当作"无脑变好"的免费午餐，本文证明它可能在悄悄放大群体差距。

2. 预测多样性差异：用群体间 \(\overline{\text{DIV}}\) 的落差解释成因

要解释效应，作者先把公平指标拆回它们依赖的 per-group 量 PR/TPR/FPR。以 FF 上"目标=年龄、受保护属性=性别"为例：加成员时，优势群体（男性）的 TPR 上升、FPR 下降，净 PR 几乎不变；弱势群体（女性）的 TPR 不变、FPR 也下降，导致其 PR 反而降低——于是 SPD 与 EOD 双双扩大。但这只是"现象层"的解释。更深的根因，作者归结到群体平均预测多样性 \(\overline{\text{DIV}}\)。沿用 Jeffares et al. (2023) 的定义，它等于"集成对数似然"减去"成员平均对数似然"：

\[\overline{\text{DIV}} = \frac{1}{K}\sum_{k=1}^{K}\left[\underbrace{\log\!\left(\frac{1}{N}\sum_{n=1}^{N} p(y{=}y_k \mid \bm{x}_k, \bm{w}_n)\right)}_{\text{集成对数似然}} - \underbrace{\frac{1}{N}\sum_{n=1}^{N}\log p(y{=}y_k \mid \bm{x}_k, \bm{w}_n)}_{\text{成员平均对数似然}}\right]\]

直观上 \(\overline{\text{DIV}}\) 衡量"成员之间预测得有多不一样"——某群体的 \(\overline{\text{DIV}}\) 越高，它从集成里可榨取的提升空间就越大。作者发现：凡是出现显著差异化收益的任务，群体间 \(\overline{\text{DIV}}\) 落差都很大；反之公平不受影响（equal benefits）的任务，群体间 \(\overline{\text{DIV}}\) 几乎相等。这就把"公平为何被破坏"归因到一个可量化的成员多样性差异上。

3. 两个受控合成实验：把"多样性差异 → 差异化收益"的因果坐实

仅有相关性不够，作者用 FashionMNIST 构造可控因果实验。第一个实验把"T-shirt vs Shirt"做成二分类，群体 \(A=0\) 的输入是同一张图拼接两次（不提供额外信息、成员多样性低），\(A=1\) 是同标签的两张不同图拼接（成员可学上图/下图/组合特征、多样性高）。结果完美复现真实数据上的现象：\(A=1\) 的 \(\overline{\text{DIV}}\) 更高，且正是该群体在加成员时 PR/TPR 上升、FPR 下降，而 \(A=0\) 几乎不变——多样性高的群体独享了集成红利。第二个实验进一步连续调节多样性：用线性插值系数 \(\alpha\) 在"纯随机噪声拼接（\(\alpha=0\)，两群体等价）"和"另一张同标签图拼接（\(\alpha=1\)，多样性最大）"之间过渡，并定义一个多样性分数 \(|\overline{\text{DIV}}_{Y=1,A=1}-\overline{\text{DIV}}_{Y=1,A=0}| + |\overline{\text{DIV}}_{Y=0,A=1}-\overline{\text{DIV}}_{Y=0,A=0}|\)。结果显示：\(\alpha\) 越大→多样性分数越高→集成带来的 \(\Delta\)Accuracy/\(\Delta\)SPD/\(\Delta\)EOD/\(\Delta\)AOD 同步增大，三者高度相关。这一对实验把"多样性差异是差异化收益的因"从假说升级为受控验证的结论。

4. Hardt 后处理（HPP）：借集成"更好的校准"做群体相关阈值优化来修复公平

修复策略上，作者刻意只考虑后处理（不重训成员，省算力）。先试了"非均匀加权成员"——按验证集选最优权重、或按公平违背反比加权——但两种都只能把结果落在"均匀集成"和"单模型"之间且方差很大，不够用。真正的突破来自一个观察：深度集成因为对成员分布做了平均，校准更好（期望校准误差 ECE 更低），这反过来让它对预测阈值更敏感——每个群体都存在清晰且跨运行稳定的最优阈值；而单个成员在 0.2~0.8 之间任意阈值的准确率都差不多、最优值方差极大。基于此，作者把经典的 Hardt 后处理（HPP，做群体相关的决策阈值优化）首次用到深度集成上：把目标公平违背设为"单成员在验证集上的平均违背"，HPP 就能让集成在不损失准确率（甚至略升，因为偏离了 argmax 隐含的 0.5 阈值）的同时把公平拉回到单成员水平。HPP 恰好契合深度集成"校准好"这一特性，因此比对单成员做 HPP 更有效——这是把"成因分析"直接转化为"对症下药"的漂亮闭环。

实验关键数据¶

主实验：差异化收益效应（ResNet50，10 成员集成 vs 平均单成员的 \(\Delta\)）¶

下表为出现显著负面效应（性能↑同时公平违背↑）的代表性任务。约定：性能 \(\Delta\) 越大越好，公平指标 SPD/EOD/AOD 的 \(\Delta\) 为正表示违背扩大（更不公平）。所列均为统计显著（\(p<0.05\)）。

数据集	目标 / 受保护属性	\(\Delta\) 性能 (↑)	\(\Delta\) SPD	\(\Delta\) EOD	\(\Delta\) AOD
FF	age / gender	+.022 (Acc)	+.022	+.017	+.017
FF	age / race	+.022 (Acc)	+.009	+.012	+.007
UTK	age / gender	+.015 (Acc)	+.017	+.015	+.012
UTK	age / race	+.015 (Acc)	+.010	+.010	+.004
CX（医学）	age	+.005 (AUROC)	+.001	+.008	+.003

可见效应在人脸（FF/UTK）上最明显，在医学影像 CX 上同样存在但幅度更小（因为集成在该数据集上的性能增益本就较小）；UTK 是把 FF 上训的模型迁移过去测的，存在分布漂移，单成员公平违背更高，但效应的量级与行为与 FF 一致。

对照实验：效应是"有条件"的，非普遍发生¶

同一张 Table 1 里，另一些任务（多为以 gender 为目标）几乎不出现差异化收益、甚至集成更公平（\(\Delta\) 为负），佐证了"只有当群体间多样性/公平落差大时效应才显著"这一结论。

数据集	目标 / 受保护属性	\(\Delta\) 性能 (↑)	\(\Delta\) SPD	\(\Delta\) EOD	\(\Delta\) AOD	备注
FF	gender / age	+.014 (Acc)	-.001 (ns)	-.007	-.004	集成反而更公平
UTK	gender / age	+.009 (Acc)	+.001 (ns)	-.006	-.003	集成反而更公平
CX	gender	+.005 (AUROC)	~.000 (ns)	+.001 (ns)	-.001 (ns)	公平基本不变
CX	race	+.005 (AUROC)	-.002	~.000 (ns)	-.001	个别指标更公平

ns = 不显著。对照组的群体间 \(\overline{\text{DIV}}\) 落差很小，正好对应"无差异化收益"。

关键发现¶

效应触发条件：差异化收益几乎只在"单成员已存在明显公平违背（>0.05）"且"群体间预测多样性 \(\overline{\text{DIV}}\) 落差大"的任务上出现；最大恶化通常发生在加入第一个成员时。
机理：弱势群体的 PR 因集成而下降（TPR 不变、FPR 下降），优势群体 TPR 上升，导致 SPD/EOD/AOD 扩大；受控 FashionMNIST 实验证明多样性差异是因（\(\alpha\)↑→多样性分数↑→各 \(\Delta\) 同步增大）。
规模放大：在出现效应的任务上，效应随模型尺寸增大而增强（Apx. F.2），且跨 5 种架构结论一致；异构集成同样出现该效应。
缓解效果：深度集成 ECE 更低（更校准）→对阈值更敏感→HPP 把目标违背设为单成员平均违背时，集成可在不掉准确率（甚至略升）的情况下恢复公平；而"加权成员"方案不稳定、方差大，效果有限。

亮点与洞察¶

把"集成"和"公平"两条平行线拧到一起看：业界默认集成稳赚不赔，本文用一张"成员数 vs（性能、公平）"的图就戳破了"免费午餐"，并给现象起了个好记的名字"差异化收益效应"——这是典型的"换个观测维度就发现新问题"。
\(\overline{\text{DIV}}\) 是可迁移的诊断量：把群体公平问题归因到"成员平均预测多样性的群体落差"，等于给了一个可量化、可预测哪些任务会出问题的探针；这一思路可迁移到任何用集成 / MC dropout / 贝叶斯近似的高风险场景做公平体检。
成因→对症的闭环很优雅：从"集成更校准"这一已知性质，推出"对阈值更敏感"，再顺势把经典 HPP 嫁接过来——不重训、低开销、还保住性能，是"理解机理后才能找到的低成本解法"的范例。
受控合成实验设计巧妙：用"拼接相同/不同图像"和"噪声插值 \(\alpha\)"两招，把抽象的"预测多样性"变成可手动调节的旋钮，干净地坐实因果，值得借鉴。

局限与展望¶

作者承认的局限：研究只覆盖视觉任务（卷积 DNN 的集成）；三个群体公平指标虽常用但不足以保证真实世界的公平；HPP 这类单一干预无法独自担保公平。
自己发现的局限：群体属性被强行二值化（如种族 white vs non-white、年龄以 40 岁切分），可能掩盖更细粒度的不公平；正文主结论基于 ResNet50，跨架构的定量一致性主要放在附录；缓解只验证了后处理，未与重训式 in-/pre-processing 做端到端公平-性能权衡对比。
改进思路：扩展到语言模型与表格/序列数据；纳入个体公平等其它公平观；研究"先对单成员做公平干预、再集成"时差异化收益是否仍然发生；把 \(\overline{\text{DIV}}\) 落差做成训练期的正则信号，从源头抑制效应而非事后修补。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统揭示并命名深度集成的差异化收益效应，反直觉且有现实意义。
实验充分度: ⭐⭐⭐⭐⭐ 3 数据集 × 5 架构 × 15 任务 × 1000 模型，再加两个受控合成实验坐实因果。
写作质量: ⭐⭐⭐⭐ "发现效应→归因→缓解"逻辑闭环清晰，部分定量结果与图依赖附录。
价值: ⭐⭐⭐⭐⭐ 直接提醒高风险场景慎用集成，并给出低成本可落地的 HPP 修复方案。