跳转至

Benchmarking Bias Mitigation Toward Fairness Without Harm from Vision to LVLMs

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GLPmZhhCAE
代码: https://github.com/osu-srml/NH-Fair
领域: AI 安全 / 公平性 / 多模态 VLM
关键词: 公平性评测、fairness without harm、偏见缓解、LVLM、模型选择

一句话总结

本文提出 NH-Fair,一个覆盖经典视觉模型与大型视觉语言模型(LVLM)、统一了数据/指标/训练协议的"无害公平"评测基准,并通过两阶段选模(DTO 选 ERM 基线 + FWH 四区选缓解方法)系统证明:很多专门的去偏算法并不能稳定超过精调的 ERM,数据增强反而是最实用的无害提升路径,而单纯把模型做大并不会让模型更公平。

研究背景与动机

领域现状:机器学习模型会继承并放大训练数据中的社会偏见,于是涌现了大量公平性指标(demographic parity、equalized odds、overall accuracy parity、max-min fairness 等)和缓解方法(预处理 / 训练中 / 后处理三类)。近年又出现一支"无害公平(fairness without harm)"的工作,主张在缩小群体差距的同时不让任何一个群体的性能变差。

现有痛点:公平性研究的横向比较极其混乱——数据集异构、公平指标口径不一、视觉模型和多模态模型被割裂评估、超参调优普遍不充分。很多论文在固定超参、欠训基线的前提下就宣称自己"state-of-the-art"。已有基准(MEDFAIR 只覆盖医学、FFB 偏老方法且调参不足、ABCFair 只做表格数据且固定超参)都没法回答几个关键问题。

核心矛盾:公平干预天然和性能存在张力。以 demographic parity 为例,如果两个群体的基础正例率不同,强行让 \(P[h(X)=y\mid A=a]\) 跨群体相等,就会把预测从各群体最优值 \(p_0\) 拉偏,抬高整体风险,极端情况下甚至退化成"把所有群体一起拉低"的平庸分类器——这就是公平性研究里臭名昭著的"race to the bottom"。

本文目标:在统一协议下回答三个问题——(1) 同样充分调参后,专门的去偏方法到底能不能打过精调的 ERM?哪些训练选择对公平最关键?(2) 单纯放大模型规模能带来公平吗?(3) 在基础大模型时代,多模态/LVLM 是否已经"足够公平"?

切入角度:作者认为,与其继续堆公平算法,不如先建一个"tuning-aware"的公平基准,把 ERM 当成一个被认真调过的强基线,再用统一的无害准则去衡量所有方法。

核心 idea:用一个跨视觉与 LVLM 的统一基准 NH-Fair,配合 DTO + FWH 两阶段选模,把"在不伤害任何群体的前提下提升公平"这件事做成可复现、可公平比较的评测。

方法详解

整体框架

NH-Fair 是一个评测流水线而非新模型。它先在七个带人口学/伪相关标注的图像数据集上,对 ERM 和 12 种去偏方法做充分的超参搜索;然后用 DTO 准则从一堆候选 ERM 里挑出一个真正强的 ERM 基线;再用 FWH 准则把各去偏方法相对这个 ERM 基线划进四个"区",按"无害优先"的顺序选出每个方法的代表模型;最后在监督视觉、零样本多模态匹配(CLIP/BLIP2)、LVLM 图文问答三种范式下,用统一的四个公平指标 + overhead 做对比,并额外做训练选择研究和 LVLM 规模研究。

整条流水线最核心的是"用一个被精调和精选过的 ERM 当公平性的参照系",所有方法的好坏都相对这个参照系来判断。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["7 个数据集<br/>人脸 / 医学 / 伪相关"] --> B["统一评测协议<br/>HPO 全搜索 + ERM + 12 去偏方法"]
    B --> C["DTO 选 ERM 强基线<br/>距 utopia 点最近"]
    C --> D["FWH 四区选模<br/>相对 ERM 划 Optimal→Sub→Degrad→Unwanted"]
    D --> E["无害公平形式化<br/>no-harm 约束逐组校验"]
    E -->|监督视觉 / 零样本多模态 / LVLM| F["4 公平指标 + overhead<br/>Gap↓ Worst↑ DP↑ EqOdd↑"]

关键设计

1. 无害公平的问题形式化:给"公平"加一道"不许伤害任何群体"的硬约束

传统群体公平只要求各群体指标拉平,却不管是"把弱势群体抬上来"还是"把优势群体砍下去"实现的,后者就是 race to the bottom。本文把 ERM 训出的基线分类器 \(h_{\text{erm}}=\arg\min_{h}\sum_i R(h(x_i),y_i)\) 作为参照,要求公平增强后的模型在每一个群体上的风险都不超过基线:

\[\mathbb{E}_{X,Y\mid A=a}\big[R(h(X),Y)\big]\le \mathbb{E}_{X,Y\mid A=a}\big[R(h_{\text{erm}}(X),Y)\big],\quad \forall a\in A.\]

这条 no-harm 约束把评测重心从"差距有多小"转成"差距是怎么被缩小的",让"靠牺牲优势群体换来的公平"无所遁形。它是后面 FWH 四区划分的理论依据。

2. DTO 选 ERM 强基线:先把基线本身调到接近理论上限,比较才公平

公平性论文常被诟病的一点是 ERM 基线没调好、被随便一个去偏方法"碾压"。本文反其道而行,先把 ERM 当成一等公民认真对待:在每个数据集上独立搜索优化器(SGD/Adam)、学习率、weight decay、预训练权重,得到一大堆候选 ERM 模型(图中每个绿点是一个候选在两个敏感群体上的精度坐标)。然后用 Distance to Optimal(DTO) 选出最强的那个——定义 utopia 点为两个群体各自达到的最高精度构成的坐标(红星),选出到 utopia 点欧氏距离最短的模型当 ERM 基线。这样得到的基线同时兼顾整体性能和群体差距,是一个"被认真选过的"参照系,而不是随手训的弱靶子。

3. FWH 四区选模:用相对 ERM 的位置把每个去偏方法的成色一眼分清

有了 ERM 基线,怎么判断一个去偏方法是真无害还是在偷工减料?本文按候选模型相对 ERM 的群体精度,把它们划进四个区:Optimal(无害公平)——两群体精度都优于 ERM,此时选 accuracy gap 最小的;Sub-optimal(妥协式公平)——靠压低优势群体来抬高弱势群体,Optimal 区没人时退而求其次选 gap 最小者;Degradation(双伤式公平)——两群体都比 ERM 差,只能选离 ERM 的 L2 距离最近者以保住基本效用,避免方法靠"全体退化成随机猜"来拉平精度;Unwanted——优势群体更好、弱势群体更差,加剧不公,直接弃用。选择顺序固定为 Optimal → Sub-optimal → Degradation,确保在无害前提下再谈公平。这个四区分类把抽象的"trade-off"变成了可操作、可复核的选模规则,论文还在验证集划分后到测试集上交叉核对(Match 列)。

4. 统一评测协议:把视觉与 LVLM、监督与零样本拉到同一张评测桌上

碎片化是公平比较失效的根因,本文用一套协议把所有维度对齐:七个数据集横跨人脸属性(CelebA/UTKFace/FairFace/Facet)、医学影像(HAM10000/Fitz17k)、伪相关(Waterbirds);12 个方法分成"数据中心型"(RandAug、Mixup、Resampling、BM、FIS)和"算法型"(Decoupled、LAFTR、FSCL、GapReg、MCDP、GroupDRO、DFR、OxonFair)两大类,覆盖预/中/后处理;评估范式从监督分类,延伸到 CLIP/BLIP2 的零样本图文匹配,再到 LLaVA-1.6、Qwen2.5-VL、Gemma 3、Llama 等 LVLM 的图文问答;公平指标统一报四项——Overall Accuracy Parity(Gap↓)、Max-Min Fairness(Worst↑)、Demographic Parity(DP↑)、Equalized Odds(EqOdd↑),外加 overhead。整套基准耗费超过 10,000 A100 GPU 小时,保证每个方法都在充分调参下被公平对待。

实验关键数据

主实验(单模态视觉,节选自 Table 2)

五次运行平均,ERM 用 DTO 选、去偏方法用 FWH 选;优于 ERM 的标灰。

数据集 指标 ERM RandAug GapReg MCDP DFR
CelebA ACC 86.57 86.72 85.62 80.26 86.58
CelebA Gap↓ 6.76 6.80 5.90 7.52 6.74
CelebA EqOdd↑ 81.91 81.73 93.94 89.63 81.83
CelebA DP↑ 67.20 67.37 75.91 93.11 67.30
Waterbirds ACC 85.63 86.09 86.45 85.98 89.83
Waterbirds Gap↓ 2.87 3.14 1.47 2.31 1.47

关键观察:精调 ERM 在 Gap/Worst/DP/EqOdd 上始终具竞争力,没有任何单一去偏方法能在所有数据集上压制它(Friedman + Nemenyi 检验下多数方法与 ERM 无显著差异);GapReg/MCDP 这类把公平约束写进 loss 的方法虽然 DP/EqOdd 漂亮,却常以 ACC 甚至 Worst-group 精度下滑为代价(CelebA 上 MCDP 的 ACC 从 86.57 掉到 80.26),是典型的公平-效用 trade-off。

FWH 四区分布(Table 2 验证/测试集)

"Optimal | Sub-optimal | Degradation | Unwanted" 计 7 个数据集上落区数。

方法 验证集分布 测试 Match
RandAug 7|0|0|0 7/7
DFR 7|0|0|0 2/7
Mixup 4|1|2|0 5/7
GapReg 4|1|2|0 4/7
GroupDRO 2|3|2|0 4/7
Decoupled 0|0|6|0 3/7

RandAug 在全部 7 个数据集上都落进 Optimal 区且测试集 7/7 复现,是唯一稳定无害提升的方法;而把公平写进 loss 的 GapReg、退化严重的 Decoupled 等在验证集表现亮眼但测试集 Match 率明显下滑,说明"验证集上调出来的公平"未必能泛化。

关键发现

  • 训练选择里优化器和初始化最关键:预训练 vs. 从头训、优化器(及其学习率,如 CelebA 上 SGD、Fitz17k 上 Adam)会显著左右公平-效用平衡;而 batch size、weight decay、模型深度影响弱且不一致——所以 HPO 资源应优先砸在优化器和预训练权重上。
  • 数据增强是最便宜的无害公平路径:RandAug 本不是为去偏设计,却在多个数据集上同时提升公平和精度,印证"增加数据多样性能自然缓解偏见",应在尝试复杂专用算法之前优先考虑。
  • 伪相关数据集会高估算法效果:很多方法能在 Waterbirds 上同时提升效用和公平,但在有真实社会群体差距的数据集上就难得多——背景-物体的伪相关比系统性的受保护群体差距更易解决,过度依赖 Waterbirds 这类数据集会低估公平问题的真实难度。
  • LVLM 并非天生更公平:Qwen2.5-VL 72B 在评测 LVLM 里综合最优,但在 CelebA、Facet 等更难数据集上仍有明显群体差距,Worst-group 精度常比 ERM 还差(CelebA 上 LLaVA-1.6-34B 的 ACC 仅 44.83、Worst 32.69、Gap 高达 20.75);BLIP-2、CLIP 即便用 FairerCLIP/SFID 去偏也没真正解决问题。
  • 放大模型规模不够:把 LVLM 做大(如 Gemma-3-27B、Llama3.2-90B)能提升平均精度,但群体差距仍非平凡甚至有时变大;换模型家族带来的公平收益远大于单纯 scaling,说明训练协议比模型尺寸更决定公平。

亮点与洞察

  • 把 ERM 从"弱靶子"扶正成"强参照系":DTO 选模让基线本身接近 Pareto 前沿,于是"去偏方法打不过 ERM"这个反直觉结论才站得住脚——这是整篇基准最有冲击力的设计,直接质疑了一批宣称 SOTA 的去偏工作。
  • FWH 四区把抽象 trade-off 变成可操作规则:用"两群体相对 ERM 的精度位置"四象限分类,一眼区分"真无害 / 妥协 / 双伤 / 加剧",比单看一个 gap 数字信息量大得多,可直接迁移到任何需要"无害"判定的多目标选模场景。
  • "换家族 > 放大尺寸"的可迁移结论:在公平敏感场景,先做模型/架构选择再谈 scaling,这条经验对部署方很实用且省算力。

局限与展望

  • 只考虑群体公平,明确排除了 individual fairness 和 counterfactual fairness(前者需个体相似度函数、后者需因果图,在图像上难定义),适用范围受限。
  • 算力约束下未穷尽所有敏感属性(如 UTKFace 的 gender),只挑了差距明显的属性,可能漏掉某些隐性偏见维度。
  • 数据集层面承认偏见来源(图像质量/类别不平衡/伪相关)常同时存在、难以归因,因此没做数据集级的偏见来源分析。
  • 结论高度依赖"精调 ERM"这一前提;若实际部署中无法承担同等规模的 HPO(>10000 A100 小时量级),ERM 是否仍这么强存疑。

相关工作与启发

  • vs MEDFAIR / FFB / ABCFair:已有公平基准要么局限单一领域(MEDFAIR 只医学、ABCFair 只表格),要么方法偏老、调参不足(FFB);NH-Fair 的差异在于跨视觉与 LVLM 统一协议 + 充分 HPO + 无害准则,覆盖面和严谨度都更高。
  • vs 各类去偏算法(GapReg/MCDP/GroupDRO/FSCL...):这些方法各自在特定设定下宣称有效,本文把它们拉到同一张桌子上充分调参后发现多数不显著优于 ERM;其中 FSCL(对比学习拉近同类跨组表示)和数据增强类是少数能在保精度的同时提公平的"无害"路径。
  • vs 单纯 scaling LVLM 的乐观假设:与"大模型自带公平"的直觉相反,本文实证规模红利远小于换家族/调协议,给"用更大模型解决公平"泼了冷水。

评分

  • 新颖性: ⭐⭐⭐⭐ 不是新算法而是新基准+新选模协议,但 DTO+FWH 两阶段选模与"ERM 是被低估的强基线"的视角足够有洞见。
  • 实验充分度: ⭐⭐⭐⭐⭐ 7 数据集 × 12 方法 × 多范式 × 充分 HPO,逾万 A100 小时并配 Friedman/Nemenyi 显著性检验,扎实。
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰、takeaway 明确可操作,但表格密集、部分结论需翻附录核对。
  • 价值: ⭐⭐⭐⭐⭐ 给公平性研究提供了可复现的 tuning-aware 评测基线,并纠正了"去偏算法普遍优于 ERM""大模型更公平"两个流行误解,对实践指导价值高。