Benchmarking Stochastic Approximation Algorithms for Fairness-Constrained Training of Deep Neural Networks¶

会议: ICLR2026
OpenReview: JxmjzC6syB
代码: https://github.com/humancompatible/train
领域: AI 安全 / 公平机器学习
关键词: 公平性约束、约束 ERM、随机近似、增广拉格朗日、benchmark

一句话总结¶

这篇论文把"训练公平的深度网络"统一形式化成带不等式约束的随机优化问题（约束子群之间的损失差），指出当前没有任何算法能在"随机+不等式+非凸+非光滑"全场景下给出收敛保证，于是从文献里挑出三类最贴近该场景、但此前一直没人实现的随机近似算法，把它们全部实现进一个 Python 工具箱，并在美国人口普查真实大规模数据（Folktables/ACSIncome）上首次系统对比它们的优化性能与公平性表现。

研究背景与动机¶

领域现状：用约束来训练公平模型是当下被广泛研究的方向——欧盟 AI Act 等法规要求消除偏见，而把"消除偏见"翻译成训练目标的自然方式，就是给经验风险最小化（ERM）加上"限制各子群之间经验风险差异"的约束。过去五年里学界提出了大量求解此类约束 ERM 的算法（序列二次规划、增广拉格朗日、切换次梯度等）。

现有痛点：算法虽多，却没有一个标准、公认的约束训练方法，也没有一个统一的工具箱把这些算法实现出来供横向比较，更没有一个真实大规模的 benchmark 去测试不同设计选择（采样方式、一阶/高阶导数、全局化策略等）的组合效果。很多被理论分析过的算法甚至从未被实现，停留在纸面上。

核心矛盾：公平约束训练同时具备三个让优化变难的性质——目标和约束都是大规模随机的（必须用采样）、约束是不等式而非等式、目标和约束因含神经网络而非凸非光滑。文献里的算法几乎都只覆盖其中一两个性质：大多数不考虑随机约束，考虑随机约束的里只有三个允许不等式约束，而其中只有一个允许非光滑目标。换句话说，满足全场景的、带收敛保证的算法目前并不存在。

本文目标：（1）把公平约束训练统一成一个可计算的约束 ERM 模板；（2）从一堆理论算法里筛出真正能落地的几个并实现它们；（3）在真实数据上比较它们的优化与公平表现。

切入角度：与其再发明一个新算法，不如先建一个诚实反映难度的 benchmark——用美国人口普查这种天然大规模、已知会被 ERM 学出偏见的真实数据，把"硬约束"路线和"惩罚正则"路线放在同一标尺下对比。

核心 idea：把公平性当成对损失差的硬约束而非软惩罚，再用一套统一工具箱实现三类随机近似算法，给社区一个可复现的"约束训练竞技场"。

方法详解¶

整体框架¶

论文要解决的是约束经验风险最小化问题：在参数 \(x\in\mathbb{R}^n\) 上最小化随机目标 \(\mathbb{E}[f(x,\xi)]\)，同时满足随机不等式约束 \(\mathbb{E}[c(x,\zeta)]\le 0\)，其中 \(\xi\) 控制目标采样、\(\zeta\) 控制约束采样。整条流水线是：先把公平诉求翻译成约束函数 \(c\)（Table 1，约束子群损失差 \(\le\delta\)）→ 从文献候选里筛出能处理"随机+不等式+非凸非光滑"的算法（Table 3）→ 把筛中的三类算法实现进统一工具箱 → 在 Folktables/ACSIncome 真实数据上跑同一套评测协议（公平三指标 + 不准确率 + Wasserstein 距离），并与无约束 SGD、惩罚正则 SGD 两条基线对比。

这是一篇 benchmark/工具箱论文，没有"新模型架构"，核心贡献在于把分散的算法谱系收敛成一个可比的实验框架，因此不画 pipeline 框架图，而是用下面四个关键设计讲清"形式化—筛选—实现—评测"这条链。

关键设计¶

1. 把公平性统一成约束 ERM 的损失差形式

公平的定义五花八门（统计均等、机会均等、几率均等……），直接对"准确率/通过率"这类离散量加约束会导致约束分段常数、不可微，一阶方法直接失效。论文的做法是统一退到损失层面：用连续损失 \(\ell\) 度量每个子群 \(s_i\) 的平均风险 \(\ell_{s_i}(\theta)=\frac{1}{|D[s_i]|}\sum_{X,Y\in D[s_i]}\ell(f_\theta(X),Y)\)，然后约束每个子群损失与各群均值的偏差落在带宽 \(\delta\) 内：

\[\min_{\theta}\ \frac{1}{N}\sum_{i=1}^N \ell(f_\theta(X_i),Y_i)+R(\theta)\quad\text{s.t.}\quad -\delta\le \ell_{s_i}(\theta)-\frac{1}{m}\sum_{j=1}^m\ell_{s_j}(\theta)\le\delta,\ i=1,\dots,m.\]

\(m\) 个子群就给出 \(m\) 个不等式约束（也可改成对所有子群两两约束，约束更简单但数量升到 \(m(m+1)/2\)）。损失是连续函数，因此约束可纳入"非光滑非凸优化"框架。论文同时强调"硬约束 vs 软惩罚"之争：硬约束虽让优化更难，但每条约束对应一个明确目标、便于实践者逐项指定，而惩罚项的权重既依赖数据集又把"拟合 vs 公平"的取舍藏进一个不透明的加权和里——这一论点贯穿全文，也是后面实验要验证的。

2. 用"全场景覆盖"准则从文献里筛算法

约束 ERM 算法很多，但论文用一张"假设表"（Table 3）把它们按目标函数 \(F\) 的假设、约束函数 \(C\) 的假设、是否处理随机/不等式约束逐一排查。结论很硬：大多数算法根本不考虑随机约束；在考虑随机约束的算法里，只有三个允许不等式约束；而除了 Huang & Lin (2023) 之外，所有算法都要求 \(F\) 至少 \(C^1\)（连续可微），从而无法处理神经网络带来的非光滑。按 Davis 等人的分析，把目标和约束设为"tame 且局部 Lipschitz"才是求解该问题的合适假设，但满足这一假设又带收敛保证的算法目前不存在。基于此，论文锁定三个最贴近全场景的算法：Stochastic Ghost、SSL-ALM、Stochastic Switching Subgradient——这一筛选本身就是 benchmark 的核心贡献，因为它把"看起来都能用"收窄到"真正能落地"。

3. 实现三类此前无人实现的随机近似算法

筛中的三类算法走的是三条完全不同的技术路线，论文把它们都实现进同一工具箱（增广拉格朗日额外拆出去掉光滑项的 ALM，共四个求解器）：

Stochastic Ghost（StGh）：先解一个二次规划子问题求下降方向 \(d\)（\(\min_d \nabla_J f(x_k)^\top d+\frac{\tau}{2}\|d\|^2\)，受约束 \(c_J(x_k)+\nabla_J c(x_k)^\top d\le \kappa_k^J e\) 和 \(\|d\|_\infty\le\beta\)），再做线搜索。关键在于它用几何分布采样 + 四个 mini-batch 的多层蒙特卡洛组合构造方向的无偏估计 \(d(x_k)\)：采样 \(N\sim G(p_0)\)，取 \(2^{N+1}\) 大小的 mini-batch 拆成奇偶两半，按 \(\frac{d(X^{2^{N+1}})-\frac12[d(\text{odd})+d(\text{even})]}{(1-p_0)^N p_0}+d(X^1)\) 去偏。代价是需要较大 mini-batch。
SSL-ALM（随机平滑线性化增广拉格朗日）：基于增广拉格朗日 \(L_\rho(x,y)=F(x)+y^\top C(x)+\frac{\rho}{2}\|C(x)\|^2\)，再加一个平滑变量 \(z\) 得到近端 AL 函数 \(K_{\rho,\mu}(x,y,z)=L_\rho(x,y)+\frac{\mu}{2}\|x-z\|^2\)，可解释为对 Moreau 包络做不精确梯度下降（Moreau 包络的稳定点与原函数一致）。它的最大优势是不需要大 mini-batch：每步只采一个 \(\xi\) 估目标、两个 \(\zeta\) 估约束及其雅可比，三元组 \((x,y,z)\) 交替更新。原方法是为随机线性约束设计的，这里用松弛变量把等式/不等式转换后套用。去掉平滑项（\(\mu=0\)）即退化为普通 ALM，作为第四个求解器一并对比。
Stochastic Switching Subgradient（SSw）：唯一允许目标非光滑、弱凸的算法，用次梯度而非梯度。每步先采样估计约束值 \(c_J(x_k)\)：若它小于容忍度 \(\epsilon_k\)（当前点够可行），就走目标的次梯度步；否则走约束的次梯度步——在"降目标"和"修可行"之间二选一切换。论文比原版略微推广，允许目标步长 \(\eta_k^f\) 与约束步长 \(\eta_k^c\) 不同。

4. Folktables 真实大规模 benchmark 与统一评测协议

benchmark 的"真实性"靠数据撑起来：基于美国社区调查（ACS，每年约 350 万户）的 ACSIncome 数据集，任务是二分类预测个人收入是否超 5 万美元。论文提供两个设置——二值受保护属性（俄克拉荷马州，种族二值化为"白人/非白人"，17,917 样本，一个 194 参数的小网络）和多值受保护属性（弗吉尼亚州，婚姻状况 5 取值）——并能定义多达 57 亿个受保护子群，把规模推到真实工业场景。评测协议统一汇报三个基本公平指标：独立性 Ind（预测与受保护属性统计独立，即统计均等）、分离性 Sp（给定真标签下独立，即几率均等）、充分性 Sf（给定预测下真标签与受保护属性独立），外加不准确率 Ina 与子群间 Wasserstein 距离 Wd，所有指标越小越好，每个算法跑 10 次取均值与四分位。

损失函数 / 训练策略¶

所有问题取带 logits 的二元交叉熵为损失 \(\ell(f_\theta(X_i),Y_i)=-Y_i\log\sigma(f_\theta(X_i))-(1-Y_i)\log(1-\sigma(f_\theta(X_i)))\)，预测网络为两层隐藏层（64、32）+ ReLU。约束侧不加正则（\(R=0\)），二值场景下因只有两个子群，直接约束两群损失差。超参全部在验证集上网格搜索得到（如二值设置 StGh：\(\alpha_0=0.05,\rho=0.8,\tau=1,\beta=20\)；SSL-ALM：\(\mu=2,\rho=1,\tau=0.01,\eta=0.05,\beta=0.5\)；SSw：\(\eta^f=0.05,\eta^c=0.04,\epsilon_k=\epsilon_0/\sqrt{k+1}\)）。基线为无公平约束的 SGD 与用 Fairret 库做准确率公平正则的 SGD-Fairret。

实验关键数据¶

主实验（二值受保护属性，ACSIncome / 俄克拉荷马 / 种族）¶

下表为各方法在测试集上的公平指标（独立性 Ind、分离性 Sp、充分性 Sf）、不准确率 Ina 与子群 Wasserstein 距离 Wd，10 次运行均值，全部越小越好：

方法	Ind	Sp	Ina	Sf	Wd
SGD（无公平）	0.098	0.155	0.209	0.061	0.183
SGD-Fairret（正则）	0.091	0.141	0.211	0.056	0.059
StGh	0.086	0.123	0.239	0.057	0.161
ALM	0.058	0.114	0.244	0.221	0.158
SSL-ALM	0.083	0.108	0.223	0.046	0.170
SSw	0.103	0.168	0.212	0.066	0.018

关键读数：约束类方法整体把公平指标压到比无约束 SGD 更低；SSL-ALM / ALM 给出最佳折中——独立性、分离性、充分性都改善，准确率只是温和下降（Ina 从 0.209 升到 0.22 左右）。StGh 充分性好但准确率最差、轨迹方差最大。SSw 约束满足最好（Wd 仅 0.018，几乎完美可行），但代价是基本没在降目标，公平指标和不准确率都退回到接近无约束 SGD 的水平——这恰好对应"参数选择偏向满足约束而非降损失"的现象。

消融 / 对比分析（多值受保护属性 + 硬约束 vs 软惩罚）¶

配置	现象	说明
SGD（无约束无惩罚）	多个子群约束持续越界	真实数据确实会学出偏见，benchmark 难度真实
SGD-Fairret / 惩罚问题	需大量预实验调权重 \(\lambda\)	性能对 \(\lambda\) 高度敏感（影响优化难度 + 公平/精度取舍）
三个约束算法	在满足约束下稳定降损失	对超参更不敏感（尤以 SSL-ALM 为最），取舍可控

关键发现¶

没有银弹：四个算法各有取舍——SSL-ALM/ALM 平衡最好，SSw 偏可行、StGh 偏充分性且不稳，没有一个全面占优，这正是 benchmark 想暴露的真相。
硬约束优于软惩罚的工程价值：惩罚正则需要昂贵的 \(\lambda\) 调参、且取舍不透明；约束方法超参更鲁棒、取舍可控，验证了 Cotter / Ramirez 等人的论点。
泛化偏置：AL 类方法在训练集满足约束，但测试集上约束值轻微偏负，反映公平约束估计器在未见数据上的泛化特性（超出本文范围）。

亮点与洞察¶

诚实的"难度地图"：用一张假设表（随机/不等式/非凸/非光滑四象限）把整个约束优化文献摆平，直接得出"全场景算法尚不存在"的结论——这种把研究空白可视化的做法，比再发一个算法更有价值。
把纸面算法变成可跑代码：StGh、SSL-ALM、SSw 此前都"只有理论没有实现"，论文把它们统一落地成一个 pip 包，社区可直接复现、对比、扩展。
真实大规模数据替代玩具基准：Folktables/ACSIncome 天然会让 ERM 学出偏见，且可定义数十亿子群，避免了"很多公平数据集其实并不稳定地表现出公平问题"的陷阱。
可迁移思路：StGh 用几何分布 + 奇偶 mini-batch 做无偏多层蒙特卡洛去偏、SSw 在"降目标/修可行"间按容忍度切换——这两种处理随机不等式约束的技巧可迁移到任何带随机约束的训练任务（鲁棒性约束、Lipschitz 约束、资源约束等）。

局限与展望¶

作者承认：目前不存在能为该公平约束问题给出收敛保证的算法；本文是 benchmark 与工具箱，不提供新算法的理论。作者也提醒公平 ML 不是处理所有偏见与伦理问题的"银弹"，必须嵌入考虑具体场景的跨学科流程。
规模与范围：实验网络极小（194 参数）、数据集单一（ACSIncome 单州子集），是否能放大到大模型、其他高风险领域（信贷、医疗）尚未验证；公平约束估计器的泛化保证被明确划在范围外。
改进方向：补齐"随机+不等式+非凸+非光滑"全场景下的带保证算法是最自然的下一步；benchmark 也可扩展到更多约束形式（几率均等的多约束）、更大网络与更多数据集，并纳入约束泛化误差的度量。

评分¶

新颖性: ⭐⭐⭐⭐ 不在算法而在"把文献空白可视化 + 把三类纸面算法首次统一实现并真实对比"，工程与综述价值高
实验充分度: ⭐⭐⭐ 两种受保护属性设置 + 四算法 + 双基线 + 10 次重复扎实，但网络极小、数据集单一，规模有限
写作质量: ⭐⭐⭐⭐ 形式化清晰、假设表把筛选逻辑讲得很透，公平指标定义到位
价值: ⭐⭐⭐⭐ 可复现的开源 benchmark + 工具箱，对推动"带保证的公平约束优化"研究有明确催化作用