Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=t3ZMiHhqXm
代码: 有（论文 Code is available here，需申请获取带人口属性标签的数据）
领域: AI 安全 / 公平性 / 数据集审计
关键词: 数据集偏见, LAION-400M, 人口属性标注, 偏见迁移, 稀疏自编码器

一句话总结¶

作者为整个 LAION-400M 数据集生成了 2.76 亿个人物边界框 + 感知性别/种族标签 + 人物级 caption，用这套首次覆盖全量 web 数据的标注审计出"男性、黑人、中东裔被过度关联到犯罪和负面内容"等系统性偏见，并证明 CLIP 与 Stable Diffusion 中 60–70% 的性别偏见可以用数据里"性别-概念共现频率"的一条线性拟合直接预测出来。

研究背景与动机¶

领域现状：CLIP、Stable Diffusion 这类视觉-语言基础模型在大规模、未经清洗的网络多模态数据（如 LAION-400M）上预训练，已被反复证明带有强烈的人口学偏见。学界普遍假设"模型偏见来自训练数据不平衡"，但这一直只是一个假设，而非可测量的结论。

现有痛点：要验证"数据偏见→模型偏见"这条因果链，前提是知道数据里到底有谁、谁和谁共现。但 LAION-400M 这种 web 级数据根本没有人口学标注。已有的审计工作要么只看 alt-text 文本子集（文本信息量低、不可靠），要么只标注人脸、只给整图一个性别标签、只覆盖职业等狭窄子集，没人对全量数据做过细粒度的人物级标注。

核心矛盾：缺少全量、人物级、视觉 grounded 的标注，研究者既无法刻画数据真实的人口构成，也无法把"数据统计量"直接对齐到"下游模型行为"——只能用美国劳工统计局数据这类外部代理统计来间接猜测。

本文目标：(1) 给整个 LAION-400M 造一套高质量人物标注（框 + 感知性别 + 感知种族/族裔 + caption）；(2) 用它审计数据内部的人口分布与有害关联；(3) 第一次在 web 规模上定量回答"模型偏见有多少能被数据共现直接解释"。

切入角度：与其相信现成的 MLLM 直接标全量（噪声框、遮挡、低质量图会污染结果），不如用"多模型集成 + 只取共识"自举出干净训练集，再训练专用分类器去刷全量，把成本和噪声同时压下来。

核心 idea：用一条自动标注流水线把"全量人物标注"造出来，再用"数据共现 → 模型偏见"的一阶线性拟合，把数据集组成和模型行为之间第一次建立起可测量的经验联系。

方法详解¶

整体框架¶

整篇论文做两件事：先用一条自动标注流水线给 LAION-400M（实际回收到 3.76 亿对图文，占原始 90.7%）的每个人打上框、感知性别、感知种族/族裔和一段 caption；再用这套标注做三层审计——数据分布、有害关联（犯罪词/情感/SAE 主题）、以及数据偏见到模型偏见的迁移测量。

标注流水线的关键不是"直接拿 MLLM 标"，而是"MLLM 集成只取共识 → 训出专用分类器 → 分类器刷全量"：先用 YOLOv11-l 检测出约 2 亿个人物框并按尺寸过滤；在采样子集上用三个 MLLM（Phi-3.5-Vision、LLaVA-NeXT、InternVL3）投票，只保留三模型一致的样本去微调 SigLIP 性别/种族分类器；这两个分类器再去标全量；同时用 InternVL3-8B 配合"红框视觉提示"为每个人生成 person-centric caption。拿到全量标注后，再分别做分布统计、犯罪/情感关联、SAE 主题挖掘和偏见迁移线性拟合。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["LAION-400M 图文对<br/>(回收 3.76 亿)"] --> B["人物框检测与过滤<br/>YOLOv11-l + 30px 阈值"]
    B --> C["MLLM 集成共识自举<br/>三模型投票→训 SigLIP 分类器"]
    C -->|刷全量| D["感知性别 / 种族标签<br/>2 亿框"]
    B --> E["红框提示生成<br/>person-centric caption"]
    D --> F["偏见审计<br/>分布 / 犯罪 / 情感 / SAE 主题"]
    E --> F
    D --> G["数据偏见→模型偏见<br/>一阶线性迁移测量"]
    F --> H["审计结论"]
    G --> H

关键设计¶

1. 优先召回的人物框检测与可用性过滤：先把"谁在图里"框全，再剔掉标不动的小框

整条流水线的起点是"把每个人都框出来"。作者用 YOLOv11-l，置信度阈值取默认的 0.25——这个阈值比同类审计工作（如 Phase）更低，因为这里优先召回：宁可多框，也不能漏人，否则后续的分布统计会系统性失真。人工抽检 200 张图显示 82.5% 完全正确、10% 把非人物体误框、7.5% 漏框，作者论证因为单图可含多框、实际漏框率更低。

光召回还不够，关键的第二步是按尺寸过滤：对任何边长小于 30 像素的框直接丢弃。这个 30px 不是拍脑袋，而是由"自动性别标注还可不可信"反推出来的——当人物框边长 < 30px 时，自动方法与人工的感知性别标注一致性（Cohen's \(\kappa\)）跌破 0.8、准确率跌破 90%，说明此时框里已经看不清性别线索，标了也是噪声。过滤后剩下 199,931,986 个人物框、分布在 107,545,236 张图里。分布上大多数框都很小（占图面积 < 10%）、多数图只有一个人，但极端图里能检出多达 55 个人。

2. MLLM 集成共识自举出专用分类器：用"只取一致"把噪声标注变成干净训练集

要给 2 亿个框标性别和种族，直接用 MLLM 逐框跑既贵又脏（噪声框、遮挡、多人混入）。作者的做法是自举（bootstrap）：先在采样子集上用三个不同的 MLLM（InternVL3-2B、Phi-3.5-Vision、LLaVA-1.6-7B）各标一遍，只保留三模型完全一致的样本作为训练信号，再用它微调一个 SigLIP 分类器去刷全量。

性别上，从 300 万采样框里按四类（female / male / mixed / unclear）各取 25,000 张三模型一致的图（mixed 太稀少，放宽到两模型一致，约占该类 25%），训出的 SigLIP 在测试集达 97.2% 准确率，迁移到 Phase 95%、FACET 90%。种族/族裔更难：因为没有现成数据集能处理"缺线索/噪声框"，作者先用 alt-text 关键词把每个种族类目的候选图召回（让标签 grounded 在文本描述上），再用同样三模型投票、只留一致样本，类目用了与既有数据集对齐的七类（Black / East Asian / Hispanic / Middle Eastern / South Asian / Southeast Asian / White）。最终 SigLIP 原始准确率 87.4%——考虑到感知种族本身高度主观（人类标注者之间一致性 \(\kappa\) 只有 0.654，而人-分类器一致性 \(\kappa = 0.638\)，两者几乎一样高），这个数字已经很强。作者特意指出：用 logit 阈值 \(\tau\) 提精度不影响结论（只会进一步抬高 White 占比），所以最终用不加阈值的原始预测。这个设计的精妙处在于：机器-人类一致性逼近人类-人类一致性上限，说明剩下的分歧主要来自任务本身的主观性（认识论不确定性），而非分类器质量差。

3. 红框视觉提示驱动的 person-centric caption 与 SAE 主题挖掘：让模型"只描述被框中的那个人"，再无监督地挖出身份-主题关联

整图级 alt-text 描述的是整张图，没法定位"这个人是谁、和什么关联"。作者要的是人物级 caption。难点是怎么把"框"这个信息喂给 MLLM、让它只聚焦目标人物又不丢全图上下文。作者利用了"近期 MLLM（InternVL-3、Qwen-VL-2.5）能感知图中视觉标记"这一观察：直接在图上把目标人物用红色框画出来，再指令模型"描述被高亮的个体"。通过让 GPT-5.1 在 500 个框上做成对胜率比较，最终选定 InternVL3-8B（对 Qwen2.5-VL-3B 胜率 0.756、对 InternVL3-2B 0.582）生成全量 caption。

拿到约 2 亿条 caption 后，作者用稀疏自编码器（SAE）做无监督主题挖掘：先用 granite-embedding 把每条 caption 编码成 embedding，训练 SAE 发现重复出现的主题，再用点互信息衡量某身份 \(i\) 与某主题 \(t\) 的关联强度：

\[\text{PMI}(i, t) = \log \frac{P(i,t)}{P(i)\,P(t)}\]

其中 \(P(i,t)\)、\(P(t)\) 通过 SAE 隐特征 \(F_j\) 边缘化得到——估计每个隐特征的激活概率 \(P(F_j)\)、给定特征激活时身份的条件概率 \(P(i\,|\,F_j)\)、以及主题的条件概率 \(P(t\,|\,F_j)\)（后者用 SAE 解码器 embedding 检索最相似的 5 个主题、归一化成分布）。为保证稳健，作者综合 24 个不同 SAE 的 PMI 分数并对不同粒度的主题聚类积分。结果（14 个交叉身份 = 2 性别 × 7 种族）揭示：男性更关联体育、女性更关联文化；"firearms/weapons""military"关联中东裔，"markets"/食物关联东南亚裔，而 White 身份关联"health""aging""pregnancy"等通用主题——印证了 White 在数据里被当作"默认身份"。

4. 数据偏见到模型偏见的一阶线性迁移测量：第一次量化"模型偏见有多少能被数据共现直接解释"

这是论文最有冲击力的一步。作者要测的是一阶偏见迁移——模型偏见在多大程度上与"目标概念和偏见变量（性别）在数据中的共现频率"线性相关。对每个社会类目 \(c\)（取自 Guilbeault 的 3488 个社会角色 + So-B-IT 的 405 个关键词，过滤到在 LAION 出现 ≥100 次的 2617 个），分别算两个量：

数据偏见：检索 alt-text 含 \(c\) 的图文对，只留图中只有女性或只有男性的，算其中女性图占比；
CLIP 模型偏见：用标准化的余弦相似度差衡量类目 \(c\) 与性别的关联强度

\[d(c) = \frac{\text{mean}_{x\in F}\cos(x, c) - \text{mean}_{y\in M}\cos(y, c)}{\text{stddev}_{w\in F\cup M}\cos(w, c)}\]

其中 \(F\)、\(M\) 分别是女性/男性图像集。Stable Diffusion 偏见则用"给定 prompt 生成 100 张图、其中女性图占比"衡量（SD-1.1/1.4 共生成 742,000 张图，用 YOLO + InternVL 过滤到恰好一个明确性别的人）。

把数据偏见和模型偏见做线性拟合，\(R^2\) 就是"模型偏见中能被数据共现线性解释的方差比例"。结果：CLIP 上 \(\rho \in \{0.75, 0.80, 0.84\}\)、\(R^2 \in \{0.57, 0.64, 0.71\}\)（用同分布的 LAION 图像探针时最高，强调了探针图像分布的重要性）；Stable Diffusion 上 \(R^2 = 0.64, 0.63\)。综合下来，60–70% 的性别偏见可以被一条线性拟合从数据共现直接预测——剩下 30–40% 来自高阶/非线性效应或模型的偏见放大。作者也诚实指出种族偏见迁移因非白人共现样本太少而结论不确定。

一个完整示例¶

以"犯罪关联审计"走一遍怎么用标注得到结论：作者从 Hamidieh 等扩展出 63 个犯罪相关词，检索 alt-text 含这些词的图，丢掉身份 unclear/mixed 的，统计这批图的性别/种族分布，再与全量基线分布算相对变化 \(\Delta\)（\(\Delta=1.0\) 表示翻倍、\(\Delta=-0.5\) 表示减半）。结果：男性比基线高 +57%；种族上中东裔暴涨 +206%、黑人 +51%，而白人和东亚裔各降 -22%。配合情感分析（中东裔负面 caption 比例最高 0.40、平均 VADER 最低 0.03），就得出"男性、黑人、中东裔被系统性地过度关联到犯罪与负面内容"这一可量化的审计结论——这正是"有了全量人物标注后，才能做的精确查询"。

实验关键数据¶

标注质量与人类验证¶

任务	测试集准确率	跨数据集泛化	与人类一致性
性别分类（SigLIP）	97.2%	Phase 95% / FACET 90%	\(\kappa\) 高，male/female 间零混淆
种族/族裔分类（SigLIP）	87.4%	—	人-机 \(\kappa=0.638\)，人-人 \(\kappa=0.654\)
框检测（人工抽检 200 图）	82.5% 完全正确	—	10% 误框非人 / 7.5% 漏框

数据集组成与有害关联¶

审计维度	关键发现
性别分布	男性 42.3% > 女性 35.3%，仅 17% 图男女同框 → 解释"CLIP 把男性当默认性别"
种族分布	White ≈28% 是次大类（Black）的约 4 倍；>50% 框 / ≈45% 图为 unclear
犯罪词关联（\(\Delta\)）	男性 +57%；中东裔 +206%、黑人 +51%；白人/东亚各 -22%
情感（负面比例 / VADER）	女性 0.21/0.12 vs 男性 0.33/0.06；中东裔 0.40/0.03 最负面

偏见迁移线性拟合¶

模型	探针/类目	Pearson \(\rho\)	\(R^2\)
CLIP ViT-B-32	LAION-400M / Guilbeault	0.84	0.71
CLIP ViT-B-32	Phase / Guilbeault	0.80	0.64
CLIP ViT-B-32	CausalFace / Guilbeault	0.75	0.57
Stable Diffusion 1.1	—	0.80	0.64
Stable Diffusion 1.4	—	0.80	0.63

关键发现¶

数据共现能线性解释 60–70% 的模型性别偏见，这是首次在 web 规模上对"数据→模型偏见"做出的可测量结论；剩余部分来自高阶/非线性效应或模型放大。
同分布探针很关键：用 LAION 自身图像当探针时 \(R^2\) 最高（0.71），用人脸数据集 CausalFace 最低（0.57），说明"用什么图像测模型偏见"会显著影响结论。
感知种族的主观性是天花板：人-人一致性（\(\kappa=0.654\)）只比人-机（0.638）略高，分歧集中在 White/Latino/中东、东亚/东南亚等文化地理相近的群体，说明剩余误差很大程度是任务本身的认识论不确定性。
用 Chebyshev 多项式等非线性预测器只能把 \(R^2\) 提高 1–3 个点，说明一阶共现已经抓住了大部分可解释的偏见。

亮点与洞察¶

"集成共识自举"是处理 web 级噪声标注的可复用范式：不直接信任单个 MLLM，而是用多模型一致性筛出干净种子集去训专用分类器，既压成本又压噪声——这套思路能迁移到任何需要在脏数据上做大规模属性标注的场景。
红框视觉提示让 MLLM 做实例级 caption：不改模型、不微调，仅靠在图上画红框 + 指令"描述高亮个体"，就把"整图描述"变成"人物级描述"，是个零成本的实例定位技巧。
把"数据偏见 vs 模型偏见"画成散点 + 线性拟合，用 \(R^2\) 直接读出"数据能解释多少模型偏见"，把一个长期停留在定性假设的问题变成了可量化、可外推的测量——类比 scaling law 的思路用在偏见上。
诚实地把主观性当成上限来报告：用人-人一致性作为人-机一致性的参照系，避免了"分类器准确率低=分类器差"的误读。

局限与展望¶

作者承认只捕捉感知（而非真实）性别/种族，且性别限于二元、种族限于固定七类，无法表达非二元与混合身份；标签仅供偏见研究、明确禁止用于监控或画像。
种族偏见的数据→模型迁移结论不确定：非白人群体的概念共现样本太少，无法可靠拟合。
只测了一阶线性迁移；间接共现（二阶偏见传播）、优化器/采样策略的影响、训练引入的非线性动态都留待未来——后两者需要从头训 CLIP，成本高。
自身局限：caption 由 InternVL3-8B 生成，会把生成模型自己的偏见引入标注（作者检查后称犯罪词低、情感总体偏正，但这仍是一个潜在污染源）；30px 过滤虽有依据，但也系统性丢掉了远景/小人物，可能让分布偏向前景主体。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次为 web 级数据集造全量人物标注，并第一次定量回答"数据共现能解释多少模型偏见"。
实验充分度: ⭐⭐⭐⭐⭐ 标注质量有人工验证、跨数据集泛化，审计覆盖分布/犯罪/情感/SAE 主题，迁移测量跨 12 个 CLIP + 2 个 SD。
写作质量: ⭐⭐⭐⭐⭐ 流程清晰、伦理讨论充分、对主观性和局限非常诚实。
价值: ⭐⭐⭐⭐⭐ 标注与代码将成为后续研究数据-模型偏见迁移的基础设施，价值随复用而增长。