The Disparate Benefits of Deep Ensembles¶
会议: ICML 2025
arXiv: 2410.13831
代码: 无
领域: AI安全 / 算法公平
关键词: 深度集成, 算法公平, 预测多样性, 模型校准, 后处理
一句话总结¶
这篇论文通过对人脸分析与医学影像数据集的大规模实证研究,揭示了一个被忽视的现象——"差异化收益效应"(disparate benefits effect):深度集成(Deep Ensembles)在提升整体性能的同时,会不均衡地惠及不同受保护群体(往往偏向本就占优势的群体),从而损害群体公平;作者进一步指出其根因是群体间预测多样性的差异,并证明经典的 Hardt 后处理(HPP)能在保住性能增益的前提下有效修复公平。
研究背景与动机¶
领域现状:深度集成(Lakshminarayanan et al., 2017)是提升深度神经网络(DNN)性能、估计预测不确定性的一种"简单又稳健"的标配手段——独立训练 \(N\) 个用不同随机种子初始化的同结构 DNN,把它们的预测分布做平均:
它被广泛部署到医疗、金融、法律等高风险场景中。
现有痛点:在这些高风险场景里,模型在不同受保护群体(按性别、年龄、种族等敏感属性划分)上的表现是否公平至关重要。单个 DNN 的群体公平问题已被充分研究,但集成这件事本身对公平的影响几乎没人系统研究过。人们默认"集成只会让模型更好",却没问过:它对所有群体都一样好吗?
核心矛盾:集成带来的性能红利不是天上掉下来均分的,它依赖于成员之间的"预测多样性"——而这种多样性在不同群体上并不相同。如果优势群体的成员之间更"五花八门",集成对该群体的提升就更大,弱势群体反而被甩开,于是性能涨、公平跌。
本文目标:(1) 实证刻画深度集成的性能红利如何在受保护群体间分配;(2) 找出造成这种不均衡的根本原因;(3) 在不重训成员的前提下找到修复公平的办法。
切入角度:与最接近的前作 Ko et al. (2023) 不同——后者把"群体"定义为目标空间里表现最好/最差的子集、且只看 per-group 准确率、结论是集成"只有正面影响"。本文用真实的受保护属性定义群体,并采用算法公平领域公认的群体公平指标,结果直接反驳了"集成只有好处"的乐观看法。
核心 idea:把"集成提升性能"和"群体公平"放进同一张图里观察——发现两者方向相反(差异化收益效应),再用预测多样性解释成因、用后处理校准阈值来对症下药。
方法详解¶
本文是一篇实证分析 + 机理解释 + 缓解方案三段式的研究,没有提出新模型,而是设计了一套严谨的实验协议来定义、定位、解释并修复"差异化收益效应"。下面按"如何度量公平 → 发现什么效应 → 为什么会这样 → 怎么修"的逻辑链展开。
整体框架¶
整套研究建立在二分类设定上:输入 \(\bm{x}\in\mathbb{R}^D\)、标签 \(y\in\{0,1\}\)(\(y=1\) 为正向结果)、群体属性 \(a\in\{0,1\}\)(约定 \(a=1\) 为占优势群体)。性能用准确率(人脸数据集)或 AUROC(医学数据集)衡量;公平用三个互补的群体公平指标的"违背程度"衡量,全部归一到 \([0,1]\),0 表示最公平:
- 统计均等差 SPD(Statistical Parity Difference):\(\text{PR}_{A=1}-\text{PR}_{A=0}\),即两群体正向预测率之差,要求"预测正向"独立于群体属性。
- 机会均等差 EOD(Equal Opportunity Difference):\(\text{TPR}_{A=1}-\text{TPR}_{A=0}\),在真实标签为正的条件下比较真正例率(TPR)。
- 平均几率差 AOD(Average Odds Difference):\(\frac{1}{2}|\text{TPR}_{A=1}-\text{TPR}_{A=0}| + \frac{1}{2}|\text{FPR}_{A=1}-\text{FPR}_{A=0}|\),同时约束真正例率与假正例率(FPR),是 equalized odds 的松弛估计。
实验规模:3 个视觉数据集(FairFace=FF、UTKFace=UTK、CheXpert=CX)、5 种 DNN 架构(ResNet18/34/50、RegNet-Y 800MF、EfficientNetV2-S)、4 个目标变量 × 5 个种子 × 10 个成员,共训练 1000 个独立模型,覆盖 15 个任务;正文主结果用 ResNet50。整体流程是:先比较"10 成员深度集成"与"平均单成员"在性能/公平上的差值 \(\Delta\)(第一步,发现效应)→ 拆解 PR/TPR/FPR 与预测多样性来解释成因(第二步,归因)→ 用加权与阈值后处理两条路径修复(第三步,缓解)。
关键设计¶
1. 差异化收益效应:把性能与公平放进同一坐标系,揭示集成"劫贫济富"
作者度量的核心量是"加成员前后的变化" \(\Delta\) ——即 10 成员深度集成相对平均单个成员在准确率/AUROC 和 SPD/EOD/AOD 上的差值(用 t 检验在 5 次运行上判显著,\(p<0.05\))。关键观察是:性能的 \(\Delta\) 总是正的(集成必然提升性能),但公平违背的 \(\Delta\) 不一定下降,甚至常常上升。在 6 个"目标/受保护属性"组合中有 4 个出现了显著的公平恶化,且这种恶化几乎只发生在单个成员本就存在明显公平违背(违背值 >0.05)的任务上。换句话说,集成不是均匀地把性能红利发给所有人,而是倾向于继续加码给本就占优势的群体——这正是"差异化收益"一词的由来。这个发现的可贵之处在于它反直觉:实践者通常把集成当作"无脑变好"的免费午餐,本文证明它可能在悄悄放大群体差距。
2. 预测多样性差异:用群体间 \(\overline{\text{DIV}}\) 的落差解释成因
要解释效应,作者先把公平指标拆回它们依赖的 per-group 量 PR/TPR/FPR。以 FF 上"目标=年龄、受保护属性=性别"为例:加成员时,优势群体(男性)的 TPR 上升、FPR 下降,净 PR 几乎不变;弱势群体(女性)的 TPR 不变、FPR 也下降,导致其 PR 反而降低——于是 SPD 与 EOD 双双扩大。但这只是"现象层"的解释。更深的根因,作者归结到群体平均预测多样性 \(\overline{\text{DIV}}\)。沿用 Jeffares et al. (2023) 的定义,它等于"集成对数似然"减去"成员平均对数似然":
直观上 \(\overline{\text{DIV}}\) 衡量"成员之间预测得有多不一样"——某群体的 \(\overline{\text{DIV}}\) 越高,它从集成里可榨取的提升空间就越大。作者发现:凡是出现显著差异化收益的任务,群体间 \(\overline{\text{DIV}}\) 落差都很大;反之公平不受影响(equal benefits)的任务,群体间 \(\overline{\text{DIV}}\) 几乎相等。这就把"公平为何被破坏"归因到一个可量化的成员多样性差异上。
3. 两个受控合成实验:把"多样性差异 → 差异化收益"的因果坐实
仅有相关性不够,作者用 FashionMNIST 构造可控因果实验。第一个实验把"T-shirt vs Shirt"做成二分类,群体 \(A=0\) 的输入是同一张图拼接两次(不提供额外信息、成员多样性低),\(A=1\) 是同标签的两张不同图拼接(成员可学上图/下图/组合特征、多样性高)。结果完美复现真实数据上的现象:\(A=1\) 的 \(\overline{\text{DIV}}\) 更高,且正是该群体在加成员时 PR/TPR 上升、FPR 下降,而 \(A=0\) 几乎不变——多样性高的群体独享了集成红利。第二个实验进一步连续调节多样性:用线性插值系数 \(\alpha\) 在"纯随机噪声拼接(\(\alpha=0\),两群体等价)"和"另一张同标签图拼接(\(\alpha=1\),多样性最大)"之间过渡,并定义一个多样性分数 \(|\overline{\text{DIV}}_{Y=1,A=1}-\overline{\text{DIV}}_{Y=1,A=0}| + |\overline{\text{DIV}}_{Y=0,A=1}-\overline{\text{DIV}}_{Y=0,A=0}|\)。结果显示:\(\alpha\) 越大→多样性分数越高→集成带来的 \(\Delta\)Accuracy/\(\Delta\)SPD/\(\Delta\)EOD/\(\Delta\)AOD 同步增大,三者高度相关。这一对实验把"多样性差异是差异化收益的因"从假说升级为受控验证的结论。
4. Hardt 后处理(HPP):借集成"更好的校准"做群体相关阈值优化来修复公平
修复策略上,作者刻意只考虑后处理(不重训成员,省算力)。先试了"非均匀加权成员"——按验证集选最优权重、或按公平违背反比加权——但两种都只能把结果落在"均匀集成"和"单模型"之间且方差很大,不够用。真正的突破来自一个观察:深度集成因为对成员分布做了平均,校准更好(期望校准误差 ECE 更低),这反过来让它对预测阈值更敏感——每个群体都存在清晰且跨运行稳定的最优阈值;而单个成员在 0.2~0.8 之间任意阈值的准确率都差不多、最优值方差极大。基于此,作者把经典的 Hardt 后处理(HPP,做群体相关的决策阈值优化)首次用到深度集成上:把目标公平违背设为"单成员在验证集上的平均违背",HPP 就能让集成在不损失准确率(甚至略升,因为偏离了 argmax 隐含的 0.5 阈值)的同时把公平拉回到单成员水平。HPP 恰好契合深度集成"校准好"这一特性,因此比对单成员做 HPP 更有效——这是把"成因分析"直接转化为"对症下药"的漂亮闭环。
实验关键数据¶
主实验:差异化收益效应(ResNet50,10 成员集成 vs 平均单成员的 \(\Delta\))¶
下表为出现显著负面效应(性能↑同时公平违背↑)的代表性任务。约定:性能 \(\Delta\) 越大越好,公平指标 SPD/EOD/AOD 的 \(\Delta\) 为正表示违背扩大(更不公平)。所列均为统计显著(\(p<0.05\))。
| 数据集 | 目标 / 受保护属性 | \(\Delta\) 性能 (↑) | \(\Delta\) SPD | \(\Delta\) EOD | \(\Delta\) AOD |
|---|---|---|---|---|---|
| FF | age / gender | +.022 (Acc) | +.022 | +.017 | +.017 |
| FF | age / race | +.022 (Acc) | +.009 | +.012 | +.007 |
| UTK | age / gender | +.015 (Acc) | +.017 | +.015 | +.012 |
| UTK | age / race | +.015 (Acc) | +.010 | +.010 | +.004 |
| CX(医学) | age | +.005 (AUROC) | +.001 | +.008 | +.003 |
可见效应在人脸(FF/UTK)上最明显,在医学影像 CX 上同样存在但幅度更小(因为集成在该数据集上的性能增益本就较小);UTK 是把 FF 上训的模型迁移过去测的,存在分布漂移,单成员公平违背更高,但效应的量级与行为与 FF 一致。
对照实验:效应是"有条件"的,非普遍发生¶
同一张 Table 1 里,另一些任务(多为以 gender 为目标)几乎不出现差异化收益、甚至集成更公平(\(\Delta\) 为负),佐证了"只有当群体间多样性/公平落差大时效应才显著"这一结论。
| 数据集 | 目标 / 受保护属性 | \(\Delta\) 性能 (↑) | \(\Delta\) SPD | \(\Delta\) EOD | \(\Delta\) AOD | 备注 |
|---|---|---|---|---|---|---|
| FF | gender / age | +.014 (Acc) | -.001 (ns) | -.007 | -.004 | 集成反而更公平 |
| UTK | gender / age | +.009 (Acc) | +.001 (ns) | -.006 | -.003 | 集成反而更公平 |
| CX | gender | +.005 (AUROC) | ~.000 (ns) | +.001 (ns) | -.001 (ns) | 公平基本不变 |
| CX | race | +.005 (AUROC) | -.002 | ~.000 (ns) | -.001 | 个别指标更公平 |
ns = 不显著。对照组的群体间 \(\overline{\text{DIV}}\) 落差很小,正好对应"无差异化收益"。
关键发现¶
- 效应触发条件:差异化收益几乎只在"单成员已存在明显公平违背(>0.05)"且"群体间预测多样性 \(\overline{\text{DIV}}\) 落差大"的任务上出现;最大恶化通常发生在加入第一个成员时。
- 机理:弱势群体的 PR 因集成而下降(TPR 不变、FPR 下降),优势群体 TPR 上升,导致 SPD/EOD/AOD 扩大;受控 FashionMNIST 实验证明多样性差异是因(\(\alpha\)↑→多样性分数↑→各 \(\Delta\) 同步增大)。
- 规模放大:在出现效应的任务上,效应随模型尺寸增大而增强(Apx. F.2),且跨 5 种架构结论一致;异构集成同样出现该效应。
- 缓解效果:深度集成 ECE 更低(更校准)→对阈值更敏感→HPP 把目标违背设为单成员平均违背时,集成可在不掉准确率(甚至略升)的情况下恢复公平;而"加权成员"方案不稳定、方差大,效果有限。
亮点与洞察¶
- 把"集成"和"公平"两条平行线拧到一起看:业界默认集成稳赚不赔,本文用一张"成员数 vs(性能、公平)"的图就戳破了"免费午餐",并给现象起了个好记的名字"差异化收益效应"——这是典型的"换个观测维度就发现新问题"。
- \(\overline{\text{DIV}}\) 是可迁移的诊断量:把群体公平问题归因到"成员平均预测多样性的群体落差",等于给了一个可量化、可预测哪些任务会出问题的探针;这一思路可迁移到任何用集成 / MC dropout / 贝叶斯近似的高风险场景做公平体检。
- 成因→对症的闭环很优雅:从"集成更校准"这一已知性质,推出"对阈值更敏感",再顺势把经典 HPP 嫁接过来——不重训、低开销、还保住性能,是"理解机理后才能找到的低成本解法"的范例。
- 受控合成实验设计巧妙:用"拼接相同/不同图像"和"噪声插值 \(\alpha\)"两招,把抽象的"预测多样性"变成可手动调节的旋钮,干净地坐实因果,值得借鉴。
局限与展望¶
- 作者承认的局限:研究只覆盖视觉任务(卷积 DNN 的集成);三个群体公平指标虽常用但不足以保证真实世界的公平;HPP 这类单一干预无法独自担保公平。
- 自己发现的局限:群体属性被强行二值化(如种族 white vs non-white、年龄以 40 岁切分),可能掩盖更细粒度的不公平;正文主结论基于 ResNet50,跨架构的定量一致性主要放在附录;缓解只验证了后处理,未与重训式 in-/pre-processing 做端到端公平-性能权衡对比。
- 改进思路:扩展到语言模型与表格/序列数据;纳入个体公平等其它公平观;研究"先对单成员做公平干预、再集成"时差异化收益是否仍然发生;把 \(\overline{\text{DIV}}\) 落差做成训练期的正则信号,从源头抑制效应而非事后修补。
相关工作与启发¶
- vs Ko et al. (2023):最接近的前作,把"群体"定义为目标空间中表现最好/最差的子集、只看 per-group 准确率,结论是集成"只有正面影响"。本文用真实受保护属性定义群体、采用标准群体公平指标,直接证明集成可能损害公平,并补上了成因分析与缓解方案。
- vs 浅层模型集成公平(Kamiran & Calders 2012;Kenfack et al. 2021;Gohar et al. 2023;Bhaskaruni et al. 2019):以往集成公平研究几乎都在浅层模型上,且多用集成来改善公平(如公平感知加权、AdaBoost 变体);本文是首个系统研究深度集成对群体公平指标影响的工作,结论方向相反——深度集成会自发放大不公平。
- vs 预测多样性研究(Abe et al. 2022b/2024;Jeffares et al. 2023):前人用预测多样性解释集成为何性能更好;本文把同一概念迁移到"为何公平变差",并细化为"群体间多样性落差"。
- vs Hardt 后处理(Hardt et al. 2016;Cruz & Hardt 2024):HPP 是经典阈值后处理方法,此前从未用于深度集成;本文指出深度集成"更校准→更适合阈值优化",把 HPP 与深度集成的特性精准匹配。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统揭示并命名深度集成的差异化收益效应,反直觉且有现实意义。
- 实验充分度: ⭐⭐⭐⭐⭐ 3 数据集 × 5 架构 × 15 任务 × 1000 模型,再加两个受控合成实验坐实因果。
- 写作质量: ⭐⭐⭐⭐ "发现效应→归因→缓解"逻辑闭环清晰,部分定量结果与图依赖附录。
- 价值: ⭐⭐⭐⭐⭐ 直接提醒高风险场景慎用集成,并给出低成本可落地的 HPP 修复方案。