Fair Dataset Distillation via Cross-Group Barycenter Alignment¶
会议: ICML 2026
arXiv: 2605.00185
代码: 无公开链接
领域: 数据集蒸馏 / 公平机器学习 / AI 安全
关键词: 数据蒸馏, 群体公平, 子组重心对齐, EOD, 表征对齐
一句话总结¶
本文揭示数据集蒸馏 (DD) 会放大原始数据中的偏差——根源是「子组样本量不平衡」与「子组表征分离度」的交互作用,并提出 COBRA:用各子组表征的(与组大小无关的)barycenter 作为蒸馏目标,可在多个 DD 框架上同时降低 EOD、提高准确率。
研究背景与动机¶
领域现状:数据集蒸馏把成千上万真实样本压缩成几张/几十张合成图像,使下游模型在合成集上训练即可接近全量训练性能。主流方法(DC/IDC/DM/CAFE/MTT 等)共同套路是:对每个类别 \(y\) 选一种「表征」\(\phi(x;\theta)\)(梯度、嵌入、特征、轨迹),把合成集的类条件统计 \(\Phi_{S_y}\) 对齐到真实集的 \(\Phi_{T_y}\)。
现有痛点:当训练集中存在受保护属性 \(A\in\mathcal{A}\)(性别、肤色、年龄等)的子组结构,且子组之间的表征模式不同时,简单地把 \(\Phi_{S_y}\) 对齐到「所有样本的平均统计」\(\Phi_{T_y}=\sum_a \pi_{a\mid y}\Phi_{T_{a\mid y}}\) 会被多数子组主导,少数子组在合成集中几乎没影。下游模型在合成集训练后对少数子组的 conditional 准确率显著掉,EOD(equalized odds difference)变大。
核心矛盾:作者反复强调一个被忽视的事实——「按子组等比例采样」(Uniform DD)也无法根治问题,因为偏差来自两个独立因素的乘积:(i) 子组大小不平衡 \(\pi_{a\mid y}\) 偏离均匀,(ii) 子组在表征空间分得很开 \(\|\Phi_{T_{a\mid y}}-\Phi_{T_{a'\mid y}}\|\) 大。任一存在就够导致 residual \(\Delta_{a\mid y}^*=\Phi_{T_{a\mid y}}-\Phi_{S_y}^*\) 失衡。
本文目标:(1) 形式化拆解 DD 中偏差放大的两个来源并给出 upper bound;(2) 设计一个紧致上界的目标,让所有子组得到「等距离」的合成表征;(3) 保持与现有 DD 框架(DC/DM/CAFE/IDC)兼容,仅替换匹配目标。
切入角度:在 MSE 距离下,标准 DD 的不动点是 \(\Phi_{S_y}^* = \sum_a \pi_{a\mid y}\Phi_{T_{a\mid y}}\)(加权平均),这天然偏向大组;改用与权重 \(\pi\) 无关的 barycenter\(m_y^* = \arg\min_m \sum_a d(\Phi_{T_{a\mid y}}, m)\) 作为目标,就能让合成集到每个子组的距离差距收紧。
核心 idea:用「子组重心 (cross-group barycenter)」取代「子组加权均值」作为类条件蒸馏目标,把对组大小的依赖直接从目标里抹掉,使最差子组的 residual 不会被多数组拉爆。
方法详解¶
整体框架¶
COBRA 是个两步流程:(1) 在每个类 \(y\) 内,先对真实数据按子组 \(a\in\mathcal{A}\) 计算类条件子组统计 \(\Phi_{T_{a\mid y}}=\frac{1}{|T_{a\mid y}|}\sum_{x\in T_{a\mid y}}\phi(x;\theta_T)\),再求子组之间的 barycenter \(m_y^*\)(在合适距离 \(d\) 下、用 uniform 权 \(w_a=1/|\mathcal{A}|\));(2) 把合成集的类条件统计 \(\Phi_{S_y}\) 对齐到 \(m_y^*\) 而不是原始 \(\Phi_{T_y}\),损失变成 \(\mathcal{L}_\text{COBRA}(T,S)=\sum_y D(m_y^*, \Phi_{S_y})\)。整套框架对 \(\phi\) 的具体形式不挑(梯度/嵌入/特征/轨迹),所以可以原样嵌入 DC、DM、CAFE、IDC 等 DD 方法。
关键设计¶
-
偏差机制的形式化拆解:
- 功能:把 DD 中的 EOD 退化追溯到一个可证的 upper bound,并明确指出 group imbalance 与 representational separation 必须联合考虑。
- 核心思路:在 MSE 距离下推 SGD 更新得到不动点 \(\Phi_{S_y}^* = \sum_a \pi_{a\mid y}\Phi_{T_{a\mid y}}\),残差 \(\Delta_{a\mid y}^* = \sum_{a'\neq a}\pi_{a'\mid y}(\Phi_{T_{a\mid y}}-\Phi_{T_{a'\mid y}})\),故 \(\|\Delta_{a\mid y}^*\|_2 \leq \sum_{a'\neq a}\pi_{a'\mid y}\|\Phi_{T_{a\mid y}}-\Phi_{T_{a'\mid y}}\|_2\),乘积里两因子缺一不可。
- 设计动机:先前的工作(FairDD)把问题归结为 group imbalance 单一原因,本文用 Figure 2 的双轴控制实验证明:固定不平衡只变 separation、或固定 separation 只变不平衡,都会单独把 EOD 拉高,所以单一修正注定不够,需要同时控制两者的乘积。
-
跨组 Barycenter \(m_y^*\) 作为新目标:
- 功能:让蒸馏目标到每个子组的距离尽量相等,最小化最大 residual,从几何上瓦解上界中的相互作用项。
- 核心思路:取 \(d(u,v)=\|u-v\|_Q^2\)(正定 \(Q\)),inner 优化 \(m_y^* = \arg\min_m \sum_a \|\Phi_{T_{a\mid y}}-m\|_Q^2\) 闭式解为 \(m_y^* = \frac{1}{|\mathcal{A}|}\sum_a \Phi_{T_{a\mid y}}\) —— 即子组级 uniform 平均,与 \(\pi_{a\mid y}\) 完全无关;这与 vanilla DD 的 \(\pi\) 加权平均形成对照。
- 设计动机:选 uniform 权 \(w_a\) 是为了切断对子组大小的依赖;barycenter 又使得目标到所有子组的总距离最小,是一种「最公平的中心」。
-
理论保证:worst-case residual 不增:
- 功能:用 Theorem 4.1 严谨说明 COBRA 不会让最差子组比 vanilla 更糟。
- 核心思路:定义 \(s_y = m_y^\text{van}-m_y^*\) 为 imbalance 偏移,假设最差子组 \(a^\dagger\) 满足 \(\langle \Delta_{a^\dagger\mid y}^C, s_y\rangle_Q \leq 0\)(即最差子组与 imbalance 偏移方向反向,几何上很温和的条件),则 \(\max_a \|\Delta_{a\mid y}^C\|_Q \leq \max_a \|\Delta_{a\mid y}^V\|_Q\)。
- 设计动机:实证上 FairDD 平均化 per-group loss 但参数更新仍能跑偏;COBRA 直接收紧 worst-case residual 这一与 EOD 直接相关的几何量,把「公平」的保证从 loss 平均拔高到表征对齐层面。
损失函数 / 训练策略¶
\(\mathcal{L}_\text{COBRA}(T,S)=\sum_y D(m_y^*,\Phi_{S_y})\),与 vanilla DD 相比只换了对齐目标。barycenter 在 \(\|u-v\|_Q^2\) 下有闭式解,整个内层不再需要 inner-loop 求解,效率与 vanilla 接近;其他超参(IPC、网络架构、初始化、距离 \(D\))完全沿用 backbone DD(DC/DM/CAFE/IDC)的默认设置。可换其它距离(cosine 等)做 ablation。
实验关键数据¶
主实验¶
| 数据集 | Backbone | IPC | Vanilla EOD/Acc | FairDD EOD/Acc | COBRA EOD/Acc |
|---|---|---|---|---|---|
| CIFAR10-S | DM | 100 | 82.87 / 45.4 | 25.17 / 61.2 | 9.37 / 62.4 |
| CIFAR10-S | DC | 50 | 71.85 / 39.5 | 35.65 / 46.2 | 26.18 / 46.6 |
| C-MNIST (BG) | DM | 50 | 100.0 / 48.8 | — | 7.46 / 96.8 |
| BFFHQ (真实) | DM | 100 | 63.47 / 65.8 | — | 7.87 / 74.2 |
| Full baseline | — | — | EOD 48.96 / Acc 69.71 (CIFAR10-S) | — | — |
(数值取自 Table 1,COBRA 在所有 IPC 与 backbone 下都同时降低 EOD 并提高/保持 Acc)
消融实验¶
| 配置 | 关键结果 | 说明 |
|---|---|---|
| 距离 \(d\) 选择 | MSE/cosine/MMD 都可工作,MSE 闭式解最高效 | 框架对 \(d\) 鲁棒 |
| Backbone(DC/DM/CAFE/IDC) | 在 4 种 DD 范式上都生效 | 与 backbone 正交、即插即用 |
| 真实 vs 合成 baseline | Vanilla DD 比 Full 训练 EOD 更高 → DD 放大原始偏差 | 实证印证 Section 1 的主张 |
| 子组等比例采样 (Uniform DD) | 当子组在表征上离得近时反而更糟 | 单一修正 imbalance 不够 |
| varying imbalance / separation | 两条曲线分别独立拉高 EOD | 验证「两因子交互」是偏差源 |
关键发现¶
- DD 放大原始偏差:在 CIFAR10-S 上 Vanilla DD 的 EOD 远高于 Full 训练(如 IPC=100 时 82.87 vs Full 48.96),首次明确量化「蒸馏不仅没保住公平性,反而比训全集还更不公平」。
- IPC 越小放大越严重:IPC 减小时少数组容量不足,spurious correlation 更被强化,EOD 急剧上升。
- barycenter 是 fairness 的几何解:worst-case residual 直接关联 EOD 的子组级误差差异,把公平问题从「加权 loss 平均」上升到「表征几何中心」级。
- 跨数据集普适性:从合成的 C-MNIST/CIFAR10-S 到真实的 UTKFace/BFFHQ,都保持显著增益,且兼容 4 种 backbone DD 方法。
亮点与洞察¶
- 把 DD 的 fairness 问题严格拆解为 imbalance×separation 的乘积,并给出 Figure 2 的双轴控制实验,研究方法论非常清晰,可作为后续 fair DD 工作的标准 baseline 范式。
- barycenter as target 的想法借自最优传输/聚类,引入到 DD 里却几乎没增计算量(MSE 下闭式解),有「学术 elegance + 工程 friendly」双重优势。
- 理论保证条件 \(\langle\Delta,s\rangle_Q \leq 0\) 是几何上温和、可解释的——表示最差子组与 imbalance 偏移方向反向,符合直觉中「最受亏待的子组应当落在加权目标的反方向上」。
- 可立刻嵌入任何 representation-matching 类 DD(DC/DM/CAFE/IDC/MTT),社区采纳成本极低。
局限与展望¶
- 假设受保护属性 \(A\) 在训练时可观察、子组标签可用——现实场景如医学数据常因隐私无法标注子组。
- 当某子组在表征空间是「均值不显眼但方差大」的形态时,单纯均值 barycenter 可能掩盖分布差异,应考虑分布级 (Wasserstein) barycenter。
- 理论 Theorem 4.1 是 worst-case,不直接给出 expected EOD 改进的紧致界;与下游模型选择的耦合尚未刻画。
- 仅讨论 EOD 一种公平准则,对 demographic parity、equal opportunity 等其他准则的影响尚未实验。
- 在 ImageNet 级大数据 + 大 IPC 上的可扩展性、与 trajectory matching (MTT) 的兼容性还需进一步验证。
相关工作与启发¶
- vs FairDD (Zhou et al., 2025):他们做 per-group loss 平均,仅修 imbalance;本文证明 separation 因子单独存在也会放大 EOD,COBRA 在所有数据集/IPC 上一致优于 FairDD。
- vs 标准 DD (DC/DM/CAFE/IDC/MTT):仅改对齐目标 \(m_y^*\),不动 backbone 算法,证明 fairness 增益与表征匹配范式正交。
- vs Long-tail DD (Cui 2024, Lu 2024, Zhao 2025):那些工作关注类不平衡,本文关注子组级 protected-attribute 不平衡,是更细粒度的 fairness。
- vs Barycenter 公平 ML (Gordaliza 2019, Charpentier 2023):他们在原始数据空间做 OT barycenter 预处理,本文在表征空间做 barycenter 蒸馏,更轻量且适配 DD 流水线。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把「imbalance×separation 交互」这一被忽视的双因子结构精确刻画并给出几何解,是 fair DD 的关键概念推进
- 实验充分度: ⭐⭐⭐⭐ 覆盖 4 个 backbone × 多 IPC × 5 个数据集(合成 + 真实),消融研究系统
- 写作质量: ⭐⭐⭐⭐ 偏差机制推导清晰、Theorem + Figure 互证,论证流畅
- 价值: ⭐⭐⭐⭐ 即插即用、社区采纳门槛低,对 high-stakes 部署的公平性具有实际意义