ICLR 2026 AI安全群体公平 ROC 凸包后处理线性分式约束 demographic parity equalized odds predictive parity

Fair Classification by Direct Intervention on Operating Characteristics¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Vv3PGcSn7c
代码: 待确认
领域: AI 安全 / 算法公平性 (group fairness, post-processing)
关键词: 群体公平、ROC 凸包、后处理、线性分式约束、demographic parity、equalized odds、predictive parity

一句话总结¶

不在分类器空间里搜索，而是直接在预训练分类器的群组级 ROC 凸包（operating characteristic 空间）上做几何优化，先定位满足多个公平约束的最优工作点，再用最少的标签翻转把基分类器后处理到该工作点，从而以接近 oracle 的精度损失同时满足 DP、EO、PP 等多个公平指标。

研究背景与动机¶

领域现状：群体公平（group fairness）要求模型的某个性能指标在受保护群组（种族、性别等）间相等。常见手段分三类——预处理（改数据）、in-processing（改目标/架构）、post-processing（改已训练模型的预测）。后处理因为不动训练流程、即插即用，在 COMPAS 这类高风险场景中尤其受欢迎。

现有痛点：现实中往往需要同时满足多个公平指标（demographic parity、equalized odds、predictive parity 等），但理论上的不可能性结论表明，足够多的指标无法被严格同时满足，因此实践退而求其次追求"近似公平"。Celis et al. (2019) 等代表性方法在分类器函数空间里做优化，依赖对 Bayes 回归函数 \(\eta_a(x)\) 的估计与阈值搜索；这一步在样本量小时对噪声极其敏感，甚至可能让本应可行的约束变得不可行，导致精度大幅下降。

核心矛盾：要同时满足多个（含线性分式的）公平约束，又要把精度损失压到最小、对基分类器的改动（干预）最少——而在高维分类器空间里直接优化既不稳定也不高效。

本文目标：为可写成线性分式表示的多公平约束二分类问题，设计一种近似公平的后处理方法，在 COMPAS、ACSIncome 等数据集上同时满足 DP/EO/PP，且精度接近 oracle、干预次数少。

核心 idea：降维到 operating characteristic 空间——不优化函数 \(f\)，而是直接优化每个群组的工作特性 \((\text{TPR}_a, \text{FPR}_a)\)。关键观察是：允许随机化阈值后，从基分类器可达的所有 (TPR, FPR) 恰好构成其经验 ROC 曲线的凸包，于是公平优化变成在这些低维凸多边形上的几何问题。

方法详解¶

整体框架¶

方法 ROCF（Fair classification via operating characteristic feasibility regions） 分两步：(A) 把搜索限制在某个预训练概率预测器 \(s\) 的后处理器集合内；(B) 把优化从函数空间搬到工作特性空间，在每个群组的 ROC 凸包内寻找满足公平约束的最优工作点，再构造一个达到该工作点的随机化分类器。

flowchart LR
    A[预训练概率预测器 s] --> B[后处理集 D_post 上<br/>估计群组 ROC 凸包 R_a]
    B --> C[降维: 在工作特性空间<br/>ρ_a=TPR_a,FPR_a,1 中建模]
    C --> D[质心线性化:<br/>多约束→引入质心 q_k<br/>线性分式约束变线性]
    D --> E[外层网格搜索 q_k<br/>内层解 LP<br/>找最优工作点]
    E --> F[随机化构造分类器<br/>LabelFlipping 最少干预<br/>匹配目标 TPR/FPR]

关键设计¶

1. 降维到 ROC 凸包：把"找公平分类器"变成"在凸多边形里挑点"。 传统后处理在函数 \(f\) 上搜阈值，本文转而对每个群组定义可实现 ROC 区域 \(\mathcal{R}_a(s) = \{(\text{tpr},\text{fpr}) \mid \exists f \in \mathcal{F}_N,\ (\text{TPR}_a(f),\text{FPR}_a(f))=(\text{tpr},\text{fpr})\}\)。由于允许随机化的混合阈值规则（mixed-GWTR），这个可达集是凸的，正好等于对 \(s(\cdot,a)\) 做阈值化得到的 ROC 点的凸包。优化目标因此被改写成只对低维 rate 向量 \(\vec{\rho}_a = (\text{TPR}_a, \text{FPR}_a, 1)^\top\) 操作，约束 \(\vec{\rho}_a \in \widetilde{\mathcal{R}}_a(s)\)，彻底绕开了对 \(\eta_a(x)\) 的精确估计——理论上甚至不要求 \(s\) 校准良好或接近 Bayes 最优。

2. 统一的线性分式（LF）公平度量 + 质心线性化：让一堆异质约束塌缩成 LP。 论文把 DP、equal opportunity、predictive equality、predictive parity、FOR-parity、accuracy parity 统一写成线性分式形式 \(G_{k,a}(f) = \langle \vec{u}_{k,a}, \vec{\rho}_a\rangle / \langle \vec{v}_{k,a}, \vec{\rho}_a\rangle\)（线性约束是分母取常数分量的特例）。近似公平要求 \(|G_{k,a}-G_{k,a'}|\le\delta_k\)。直接处理两两差值约束数量爆炸且非凸，作者引入质心 \(q_k\)：约束等价于存在 \(q_k\) 使 \(|G_{k,a}-q_k|\le\delta_k/2\) 对所有群组成立。对线性约束，这直接是 \((\vec{\rho}_a,q_k)\) 的线性不等式；对线性分式约束，固定 \(q_k\) 后，

\[U_{k,a}(\vec{\rho}_a) - \Big(q_k+\tfrac{\delta_k}{2}\Big)V_{k,a}(\vec{\rho}_a)\le 0,\quad \Big(q_k-\tfrac{\delta_k}{2}\Big)V_{k,a}(\vec{\rho}_a) - U_{k,a}(\vec{\rho}_a)\le 0\]

也变成关于 \(\vec{\rho}_a\) 的线性不等式。于是整个问题拆成：外层在 LF 质心的紧区间 \(Q_k=[\delta_k/2,\,1-\delta_k/2]\) 上做网格搜索，内层对每个固定 \(\vec{q}\) 解一个标准 LP。Theorem 4.1 证明 \(\min_{\vec{q}\in Q}\Phi(\vec{q})\) 恰好等于原问题的最优值，保证这种"外搜质心、内解 LP"的分解不丢最优解。

3. 随机化构造分类器 + 最少干预。 拿到目标工作点 \((\widetilde{\text{TPR}}_a, \widetilde{\text{FPR}}_a)\) 后，需要造一个真正达到它的分类器。基后处理器 \(f^{(0)}\) 是落在经验 ROC 凸包边上的 mixed-GWTR（相邻两支撑点按 \(\theta_a\) 混合）。LabelFlipping 用与结果相关的翻转概率 \(\widetilde{p}_{a,y}=\Pr(\widetilde{f}=1\mid A=a, f^{(0)}=y)\) 对 \(f^{(0)}\) 的输出做随机翻转，这在工作特性上诱导一个线性映射：

\[\widetilde{\text{TPR}}_a = \widetilde{p}_{a,1}\text{TPR}^{(0)}_a + \widetilde{p}_{a,0}\big(1-\text{TPR}^{(0)}_a\big),\quad \widetilde{\text{FPR}}_a = \widetilde{p}_{a,1}\text{FPR}^{(0)}_a + \widetilde{p}_{a,0}\big(1-\text{FPR}^{(0)}_a\big)\]

几何上可达的工作点是基准 hull 点与两个平凡分类器 \((1,1)\)、\((0,0)\) 张成的三角形。给定目标点和混合参数 \(\theta_a\)，翻转概率由一个 \(2\times2\) 线性方程组唯一确定（行列式非零时）。论文进一步在所有能命中目标的方案中，挑选期望标签翻转数（干预数）最小的那一个，这正是它在保证公平的同时干预率极低（COMPAS 约 6%、ACSIncome 约 3%）的原因。相比 Hardt et al. (2016) 把阈值搜索与标签翻转分开做、以及 Hsu et al. (2022) 把阈值固定在分数中位数而限制了可达工作点，本文同时优化阈值（凸包支撑点）与翻转，覆盖的工作点集合严格更大。

4. 有限样本收敛保证。 Theorem 4.2 证明经验区域搜索返回的工作点 \(\widehat{\varrho}\) 相对总体最优 \(\varrho^\star\)，在风险与公平达成度上都有 \(\widetilde{O}(1/\sqrt{n})\) 的收敛速度。证明核心是用 DKW 不等式控制经验 ROC 凸包的一致收敛，再加上线性/线性分式约束的 Lipschitz 控制。当 \(s\) 恰好是 Bayes 最优回归函数时，达到经典参数率。这给"直接在经验 ROC 凸包上优化"提供了统计层面的安全性背书。

实验关键数据¶

数据集：COMPAS、Lawschool、BiasBios、ACSIncome，采用 TRAIN/POST/TEST = 30/35/35 划分，\(s\) 用三层神经网络；结果取 50 个随机种子的均值±标准差。基线为 META (Celis 2019)、MFOpt (Hsu 2022)、LPP (Xian & Zhao 2024)，并给出不可行的 Oracle 上界。

主实验表格（同时控制 DP/EOpp/PEq/PP，δ=0.05）¶

方法	Acc	DP	EOpp	PEq	PP	干预率
COMPAS Baseline	0.68	0.28	0.27	0.19	0.07	0.00
Oracle (不可行)	0.62	0.04	0.03	0.05	0.05	N/A
ROCF-LF (ours)	0.61	0.05	0.03	0.05	0.07	0.06
MFOpt	0.63	0.26✗	0.25✗	0.21✗	0.08	0.13
META	0.50	0.05	0.05	0.04	0.06	0.00
LPP-DP	0.67	0.06	0.04	0.03	0.15✗	0.00
ACSIncome Baseline	0.79	0.25	0.24	0.09	0.23	0.00
Oracle (不可行)	0.69	0.05	0.05	0.03	0.05	N/A
ROCF-LF (ours)	0.69	0.05	0.05	0.03	0.07	0.03
LPP-DP	0.78	0.06	0.07	0.09✗	0.35✗	0.00
LPP-EO	0.78	0.12✗	0.06	0.06	0.33✗	0.00

注：✗ 表示该公平约束未满足。绿色（满足）单元格本文用颜色标注，此处用约束达标与否近似呈现。

消融 / 扩展实验（加入第二个线性分式约束 FOR-parity）¶

数据集/设置	说明
Lawschool (\|A\|=2, δ=0.03)	在 EOpp+PP+FOR 三约束（含两个 LF）下仍能达标
ACSIncome (\|A\|=5, δ=0.10)	5 个群组、多 LF 约束，方法可扩展且达到名义 δ 水平
干预率	Lawschool ≈1%、BiasBios ≈0.5%、ACSIncome ≈3%

关键发现¶

唯一全达标且精度接近 oracle：在 COMPAS 上只有 ROCF-LF 与 META 同时控住四个指标，但 META 精度暴跌到 0.50，而本文精度 0.61 紧贴 oracle 0.62；其余基线（MFOpt、LPP）总有指标越界。
多 LF 约束 + 多群组可扩展：在 5 群组的 ACSIncome 上方法照样达标，说明"更好的 \(s\) + 更大的后处理集"能更精确逼近总体可行域。
不可避免的权衡：连 oracle 在四约束下都有精度下降，说明此设置下公平/精度权衡是本质性的，本文已逼近该极限。
干预极少：所有数据集干预率都在 0.5%–6%，对原分类器预测改动很小。

亮点与洞察¶

范式转换：把公平后处理从"函数空间阈值搜索"搬到"低维 ROC 凸包几何优化"，既稳定（避开噪声敏感的 \(\eta_a\) 估计）又高效（约束塌缩成 LP）。
统一线性分式框架：一套坐标向量 \((\vec{u}_{k,a}, \vec{v}_{k,a})\) 覆盖 DP/EO/PP/FOR/accuracy parity，工程上极简，便于任意组合多约束。
质心 + 外搜内 LP 分解带最优性定理（Thm 4.1）与有限样本收敛率（Thm 4.2），实践方法有干净的理论背书。
"最少干预"目标契合现实部署诉求——监管/落地场景往往希望尽量少改原系统的决策。

局限与展望¶

依赖良好的后处理集与基预测器：理论与实验都表明，\(s\) 训练得越好、\(D_\text{post}\) 越大，可行域逼近越准；小样本/弱 \(s\) 时凸包估计仍可能受限（虽比直接估 \(\eta_a\) 稳健）。
本质权衡无法消除：四约束下连 oracle 都掉精度，方法只能逼近而非突破这一帕累托前沿。
离散受保护属性 + 二分类为主：多类扩展虽给出（§4.4）但主实验仍以二分类为主；连续受保护属性未覆盖。
随机化分类器的可接受性：最终分类器是随机化的（按概率翻转标签），在某些法律/伦理审查严格的场景中，"同样输入可能给不同决策"本身可能引发争议。

评分¶

新颖性: ⭐⭐⭐⭐ 把多公平约束优化转到 ROC 凸包几何 + 质心线性化的组合干净而原创，与现有分类器空间方法有本质区别。
实验充分度: ⭐⭐⭐⭐ 四数据集、多约束组合、50 种子、含 oracle 上界与三个强基线，干预率/精度/五指标齐全；连续属性与更大规模可再补。
写作质量: ⭐⭐⭐⭐ 问题设定、统一 LF 框架、两步法与定理层层递进，记号严谨；公式密度高对读者门槛略高。
价值: ⭐⭐⭐⭐ 高风险公平决策中"少改动、多约束同时达标、近 oracle 精度"具直接落地意义，理论保证也增强可信度。