Beyond Procedure: Substantive Fairness in Conformal Prediction¶
会议: ICML2026
arXiv: 2602.16794
代码: https://github.com/layer6ai-labs/llm-in-the-loop-conformal-fairness
领域: AI安全/公平性
关键词: 保形预测, 实质公平性, 预测集大小差异, 标签聚类, LLM评估器
一句话总结¶
本文超越保形预测(CP)的过程公平性视角,从下游决策的实质公平性出发,理论证明并实验验证了等化预测集大小(而非等化覆盖率)才是与实质公平强相关的程序指标,并提出基于 LLM-in-the-loop 的可扩展评估框架和标签聚类 CP 方法来有效平衡效用与公平。
研究背景与动机¶
领域现状:保形预测(Conformal Prediction, CP)为机器学习模型提供无分布假设的不确定性量化,通过构建满足 \(\mathbb{P}[y \in \mathcal{C}(x)] \geq 1-\alpha\) 的预测集来给出统计保证。在公平性方面,现有研究主要关注过程公平性(procedural fairness),即保证各人群组的覆盖率相等(Equalized Coverage),例如 Mondrian CP 对每个敏感群体独立校准阈值。
现有痛点:覆盖率平等 ≠ 下游决策公平。一个 CP 方法可以对所有群体都达到 90% 覆盖率,但对一个群体产出紧凑有用的预测集,对另一个群体则产出庞大无用的集合。Cresswell et al. (2025) 通过人类实验发现,Mondrian CP 虽然等化了覆盖率,反而加剧了下游预测精度的群体差异(disparate impact)。
核心矛盾:覆盖率平等(Equalized Coverage)与预测集大小平等(Equalized Set Size)是两个相互对抗的目标——追求前者往往以牺牲后者为代价,而后者才真正影响下游公平。但这种关联此前缺乏理论解释和大规模实证验证。
本文目标:(1) 建立可扩展的实质公平性评估框架替代昂贵的人类实验;(2) 厘清过程指标与实质公平之间的定量关系;(3) 理论分析并验证标签聚类 CP 为何能有效降低集合大小差异。
切入角度:作者观察到下游决策者从预测集获得的"准确率提升"才是公平性的真正衡量标准,而非预测集本身的统计属性。利用 LLM 近似人类决策行为,可以低成本地大规模评估这种下游提升的群体差异。
核心 idea:用 LLM-in-the-loop 评估器替代人类实验来度量实质公平(maxROR),并通过理论界将预测集大小差异分解为三个可解释分量,指导使用标签聚类 CP 来降低下游不公平。
方法详解¶
整体框架¶
本文的完整 pipeline 包含三个层次:(1) 基础分类器 \(f\) 输出预测概率;(2) CP 方法基于校准集构建预测集 \(\mathcal{C}(x)\);(3) LLM 决策者在预测集辅助下进行最终预测。公平性不在第 (2) 步衡量,而是在第 (3) 步通过比较各群体的"准确率提升"来度量。
关键设计¶
-
预测集大小差异的理论分解(Theorem 4.1):
- 功能:解释标签聚类 CP 为何能降低群体间预测集大小差异 \(\Delta_{a,b}\)
- 核心思路:对于标签聚类映射 \(h: \mathcal{Y} \to [K]\),将 \(\Delta_{a,b}\) 上界分解为三项——(I) 簇内标签异质性 \(\max_k \epsilon_{k,a}\),衡量同一簇内不同标签的集合大小差异;(II) 跨簇差异 \(\max_k \mu_{k,a} - \min_k \mu_{k,a}\),衡量不同簇之间期望集合大小的离散度;(III) 跨群体标签内差异 \(|\sum_y \mathbb{P}(Y=y|A=b)(r_{y,a}-r_{y,b})|\),衡量相同标签下不同群体的集合大小差异。\(K=1\)(Marginal CP)时项 (I) 大因为所有标签混在一起;\(K=|\mathcal{Y}|\) 时项 (II) 大因为稀有标签校准不稳定;适当的 \(K\) 可同时控制两项
- 设计动机:将不可观测的"实质公平"问题转化为可优化的过程指标(集合大小差异),并提供超参数 \(K\) 的选择依据
-
LLM-in-the-loop 实质公平性评估框架:
- 功能:以低成本可扩展地度量 CP 方法的下游公平性
- 核心思路:对每个测试样本 \(x_j\) 和 CP 方法 \(t\),让 LLM 在预测集辅助下生成 \(M\) 次独立预测,计算正确率 \(R_{jt}\)。通过 GEE 回归 \(\text{logit}(\mathbb{E}[R_{jt}]) \sim \text{treat}_t \times \text{group}_j + \text{diff}_j + \text{adoption}_{jt}\) 控制混杂因素,提取群体特异性提升 \(\delta_{t,a}\),最终定义 \(\text{maxROR}_t = \max_{a,b}(\text{OR}_{t,a}/\text{OR}_{t,b}) - 1\) 作为实质不公平指标。采用 odds ratio 相对于无预测集的 control 基线计算,消除了任务难度等混杂
- 设计动机:人类实验成本约 £1500/30k 响应,而 LLM 评估器低至 $1/60k 预测,且避免了人类疲劳和学习效应,同时实验验证了与人类评估的定性排序一致
-
标签聚类 CP 的公平性优势机制:
- 功能:在不显式依赖敏感属性的前提下降低预测集大小差异
- 核心思路:与 Mondrian CP 按群体分别校准不同,标签聚类 CP 按标签难度相似性将 \(\mathcal{Y}\) 聚为 \(K\) 簇,每簇独立校准阈值 \(\hat{q}_k\)。标签 \(y\) 被纳入预测集当且仅当 \(s(x_{\text{test}}, y) \leq \hat{q}_{h(y)}\)。由于共享阈值跨群体(同簇内)且汇聚校准数据,避免了 Mondrian 因分割校准集导致的方差膨胀和人为群体差异
- 设计动机:Mondrian 和 Group-Clustered CP 显式条件化于敏感属性,虽等化覆盖率却放大集合大小差异;标签聚类天然绕过群体信息,通过标签层面的适应性间接实现更公平的集合分布
实验关键数据¶
实验设置¶
覆盖四种模态(图像/文本/音频/表格),四个数据集(FACET、BiosBias、RAVDESS、ACSIncome),比较五种 CP 方法(Marginal、Mondrian、Label-Clustered、Group-Clustered、Backward),\(1-\alpha=0.9\)。
主实验:实质公平性 maxROR (%)¶
| CP 方法 | FACET | BiosBias | RAVDESS | ACSIncome | 平均排名 |
|---|---|---|---|---|---|
| Marginal | 9.0 | 6.9 | 11 | — | 中等 |
| Mondrian | 38 | 8.1 | 79 | — | 最差 |
| Label-Clustered | — | — | 最低之一 | 最低之一 | 最佳 |
| Group-Clustered | 高 | — | 高 | — | 差 |
| Backward | 最低 | 最低 | 较高 | 较高 | 中等 |
Label-Clustered CP 在 RAVDESS 和 ACSIncome 上 maxROR 显著低于 Backward,同时提供更高的准确率提升(实用性更强)。Mondrian 和 Group-Clustered 在 FACET 和 RAVDESS 上不公平性最严重。
LLM 评估器验证:与人类实验的对齐¶
| 评估方式 | 数据集 | Marginal maxROR% | Mondrian maxROR% | 定性排序一致 |
|---|---|---|---|---|
| Human-in-the-loop | FACET | 26 | 51 | ✓ |
| Human-in-the-loop | BiosBias | 12 | 33 | ✓ |
| Human-in-the-loop | RAVDESS | 1.0 | 28 | ✓ |
| LLM-in-the-loop | FACET | 9.0 | 38 | ✓ |
| LLM-in-the-loop | BiosBias | 6.9 | 8.1 | ✓ |
| LLM-in-the-loop | RAVDESS | 11 | 79 | ✓ |
所有三个数据集上 LLM 评估器均复现了 Mondrian > Marginal 的不公平排序,验证了其作为人类实验替代的可行性。
关键发现:过程指标与实质公平的关系¶
- Coverage gap 与 maxROR 负相关:等化覆盖率反而增加下游不公平(4 个数据集回归斜率均为负)
- Set size gap 与 maxROR 正相关:减小集合大小差距能降低下游不公平(4 个数据集回归斜率均为正)
- 标签聚类 CP 的集合大小差异随簇数 \(K\) 呈 V 形曲线,\(K=2\) 时最优,验证了 Theorem 4.1 的预测
亮点与洞察¶
- 颠覆性结论:CP 公平性研究长期聚焦 Equalized Coverage,本文有力论证了这是错误目标——Equalized Set Size 才是实质公平的正确代理
- 低成本评估:LLM-in-the-loop 将公平性评估成本从 £1500 降至 $1,使得跨方法、跨模态的系统性比较首次成为可能
- 理论-实证闭环:Theorem 4.1 的三分量分解在 RAVDESS 上数值验证了界的紧性,且 V 形曲线与实证完全吻合
- 实用建议:避免按人口统计属性条件化(Mondrian),优先使用标签聚类 CP 并通过 set size gap 诊断选择超参数 \(K\)
局限性 / 可改进方向¶
- LLM 评估器与人类在绝对数值上存在差异(仅定性排序一致),不能完全替代人类实验
- 仅研究了相关性,未建立过程指标→实质公平的因果关系(作者提出控制 adoption rate 作为未来方向)
- 标签聚类 CP 的最优 \(K\) 对 set size gap 和 maxROR 的最小化点不完全重合,选择 \(K\) 仍需下游验证
- 实验仅覆盖 4 个数据集,覆盖率 \(\alpha\) 也仅测试 0.1 一个值
相关工作与启发¶
- Cresswell et al. (2025) 首次通过人类实验揭示 Mondrian CP 的 disparate impact,本文将其系统化并大幅扩展
- Ding et al. (2023) 提出的聚类保形预测原用于改善条件覆盖率,本文发现其在公平性上的意外优势
- 启发:可将 LLM-in-the-loop 评估范式推广到其他需要人类评估的 AI 公平性场景(如推荐系统、信息检索)
评分¶
- 新颖性: ⭐⭐⭐⭐ (将 CP 公平性从过程指标推向实质结果,LLM 替代人类评估是新颖贡献)
- 实验充分度: ⭐⭐⭐⭐ (4 种模态 × 5 种方法的全面对比 + 理论验证)
- 写作质量: ⭐⭐⭐⭐⭐ (逻辑清晰,理论-实证-实践建议环环相扣)
- 价值: ⭐⭐⭐⭐ (对 CP 公平性研究方向有重要纠偏价值)