Data Caricatures: On the Representation of African American Language in Pretraining Corpora¶
会议: ACL 2025
arXiv: 2503.10789
代码: NickDeas/DataCaricatures
领域: NLP公平性 / 预训练数据分析
关键词: African American Language, pretraining corpora, data quality, representation bias, automated filtering, sociolinguistic equity
一句话总结¶
结合定量实验、人工判断和定性分析,系统评估了 12 个开源预训练语料库中非裔美国人语言(AAL)的数量与质量:发现 AAL 仅占 0.007%–0.18% 的文档(远低于人口比例),C4 中 28.9% 的 AAL 文本被判为不适合 LLM 生成、24.5% 强化有害刻板印象,且 16 种自动过滤器中有 13 种系统性地偏向保留白人主流英语(WME)而非 AAL。
研究背景与动机¶
领域现状:LLM 预训练数据的分布直接决定模型对不同语言变体的理解能力。AAL 是美国使用最广泛的英语方言之一——约 80% 的非裔美国人(占美国人口约 10%)使用 AAL,但此前仅 Dodge et al. (2021) 对 C4 做过有限分析。
现有痛点: - 数量未知:除 C4 外,其他主流预训练语料库中 AAL 的比例从未被系统量化 - 质量未审:即便包含 AAL 文本,其中有多少是真实的日常语言使用?有多少是嘻哈歌词、企业营销或非母语者的刻板模仿? - 过滤偏见:标准数据清洗流程(质量过滤、毒性过滤、去重)是否对 AAL 存在系统性偏见?
核心矛盾:如果预训练数据中 AAL 过少或质量差(充斥刻板模仿而非自然语言),LLM 不仅无法正确理解和生成 AAL,还可能强化对 AAL 使用者的歧视性行为——先前研究已发现 LLM 在毒性检测、刻板印象和对话生成中对 AAL 存在偏见。
本文目标:围绕三个研究问题(RQ),对 AAL 在预训练数据中的表示进行全面审计: - RQ1:预训练语料中有多少 AAL?特定 AAL 语法特征的分布如何? - RQ2:已包含的 AAL 文本质量如何(来源多样性、真实性、是否有害)? - RQ3:现代数据质量过滤策略对 AAL 表示有何影响?
切入角度:不仅关注"有多少"(数量),更关注"是什么样的"(质量)——提出"数据漫画"(Data Caricatures)概念,即预训练数据中的 AAL 可能是真实语言使用的扭曲漫画而非忠实表示。
核心idea:混合方法(定量+人工+定性)系统审计 12 个开源语料库,揭示 AAL 在数量、质量和过滤三个维度上的问题。
方法详解¶
整体框架¶
研究设计为三阶段审计流程,对应三个 RQ: 1. 数量审计(RQ1):用人口统计对齐分类器从 12 个语料库中提取 AAL 子集,统计比例并分析 17 种形态句法特征的分布 2. 质量审计(RQ2):对 C4 的 AAL 子集进行人工标注(1,054 条文本)+ 嘻哈歌词重叠检测 + 非母语者使用分析 3. 过滤审计(RQ3):在 RedPajama-v2 上评估 16 种自动过滤器对 AAL vs WME 的差异行为,并在三种 AAL 来源(对话、歌词、社交媒体)上做控制实验
关键设计一:AAL 提取与特征分析¶
- 功能:从 12 个语料库中识别包含 AAL 的文档,并分析其语法特征分布
- 核心思路:采用 Blodgett et al. (2016) 的混合成员人口统计对齐分类器(训练于 Twitter 数据),取 AAL 概率最高的文档作为 AAL 子集;进一步用 CGEdit 模型(Masis et al., 2022)的人机协作框架自动识别 17 种 AAL 形态句法特征(如 habitual be、copula deletion、多重否定等)
- 设计动机:
- 使用阈值 0.3(而非常见的 0.8)来获得更保守的特征流行率估计,同时保持可管理的语料规模
- 对 4 个超大规模语料库(>30 亿文档)采用 250 GB 随机采样分析,并报告 99% 置信区间
- 人工验证:招募 3 名 AAL 母语者标注员,对 C4 中 1,054 条文本进行人类相似度和语言匹配度判断(κ = 0.581 和 0.747)
关键设计二:AAL 文本质量多维评估¶
- 功能:从来源多样性、真实性和无害性三个维度评估 AAL 文本质量
- 核心思路:
- 嘻哈歌词检测:采用 Brown et al. (2020) 的去重方法,用 8-13 token n-gram 重叠检测识别 C4 中嵌入的嘻哈/说唱歌词
- 母语者判断:标注员判断文本是否为 AAL 母语者所写(Native Speaker 维度,κ = 0.619)
- 刻板印象与适当性:标注员判断文本是否强化有害刻板印象(Stereotype)和是否适合 LLM 生成(Appropriateness),采用 4 点 Likert 量表
- 设计动机:嘻哈歌词虽含 AAL 特征但不代表日常语言使用,企业社交媒体的 AAL 模仿夸大语言特征,这些都会扭曲 LLM 对 AAL 的学习——因此需要区分"真实表示"和"漫画式表示"
关键设计三:自动过滤器偏见评估¶
- 功能:评估 16 种自动过滤策略(语言过滤器、毒性过滤器、质量过滤器)对 AAL 的影响
- 核心思路:
- 自然分布实验:在 RedPajama-v2 上提取 AAL(p≥0.8)和 WME(p≥0.8)子集各约 23.5 万条文本,比较过滤器输出的 z-score 标准化得分
- 控制来源实验:在三种 AAL 来源上评估——CORAAL 对话转录(自然语言)、嘻哈歌词、TwitterAAE 社交媒体文本
- 使用双尾 t 检验评估显著性差异(p < 0.01)
- 设计动机:先前仅知道 C4 的 block list 对 AAL 有偏见,但不清楚更现代的模型驱动过滤器(如基于 Wikipedia 的质量评估、LLM-as-judge)是否同样有偏
实验关键数据¶
主实验:AAL 在 12 个语料库中的占比(Table 1)¶
| 语料库 | 文档数 | AAL 文档占比 | Common Crawl 占比 |
|---|---|---|---|
| OpenWebText | 8M | 0.01% | 0% |
| The Pile | 140M | 0.08% | 3% |
| Dolmino (Dolmino-mix) | 165M | 0.03% | 83% |
| C4 | 365M | 0.07% | 100% |
| C4.NoBlockList | 395M | 0.11% | 100% |
| RefinedWeb | 968M | 0.12% | 100% |
| RedPajama | 968M | 0.007%(最低) | 88% |
| FineWeb-Edu | 1.8B | 0.0009% | 100% |
| Dolma | 2.5B | 0.12% | 78% |
| RedPajama-v2(采样) | 20.8B | 0.18%(最高) | 100% |
人工标注验证(Table 2)¶
| AAL 分类器概率区间 | C4 文档数 | 被判为含 AAL 特征的比例 |
|---|---|---|
| 0.5 ≤ p ≤ 0.6 | 41,930 | 44.7% |
| 0.6 ≤ p ≤ 0.7 | 12,913 | 36.3% |
| 0.7 ≤ p ≤ 0.8 | 4,319 | 36.7% |
| 0.8 ≤ p ≤ 0.9 | 922 | 30.9% |
| 0.9 ≤ p | 120 | 23.0% |
质量评估关键数据(Figure 5)¶
| 维度 | C4.en 中负面比例 | 说明 |
|---|---|---|
| 不适当(Inappropriateness) | 28.9% | 不适合 LLM 生成 |
| 刻板印象(Stereotype) | 24.5% | 强化有害刻板印象 |
| 非母语者写作 | 51% | C4.en 中被判为含 AAL 特征但非 AAL 母语者所写 |
| 嘻哈歌词重叠 | ~12%(C4.en)/ ~15%(C4.en.noBlocklist) | 8-gram 重叠检测 |
过滤器偏见分析(Figure 6)¶
| 指标 | 结果 |
|---|---|
| 偏向保留 WME 的过滤器 | 13/16 种(81.3%) |
| 偏向保留 AAL 的过滤器 | 仅 3/16 种(含 2 种使用 Wikipedia 作为高质量参考) |
| 过滤器对 AAL 来源偏好 | 11/16 种偏向保留对话转录 > 社交媒体 > 歌词 |
| 跨语料库 AAL 文档重复率 | 17% 的 AAL 文档在至少一个其他语料库中重复 |
关键发现¶
- AAL 极度不足:所有语料库中 AAL 占比均远低于 AAL 使用者在美国人口中的比例(约 10%),最低仅 0.0009%
- 质量堪忧——"数据漫画"现象:C4 中近 1/3 的 AAL 文本被判为不适当或强化刻板印象;51% 的 AAL 文本并非母语者所写;~12-15% 为嘻哈歌词而非日常语言
- 多样性不足:17% 的 AAL 文档跨语料库重复;AAL 特征分布受过滤严重扭曲(如 Zero Copula 在过滤后频率大幅下降)
- 过滤器系统性偏见:绝大多数现代过滤器(包括基于模型的质量和毒性过滤器)不成比例地删除 AAL 内容
- 悖论:过滤器更倾向保留自然对话式 AAL(CORAAL),但网络上几乎没有这类资源;实际被保留的多为质量较差的网络文本
亮点与洞察¶
- "数据漫画"概念的提出极具洞察力:预训练数据中的 AAL 不仅量少,而且是真实语言使用的扭曲漫画——嘻哈歌词、企业模仿、非母语者的夸张使用,这比单纯的"不足"更有害
- 混合方法设计严谨:定量统计(12 个语料库)+ 人工标注(3 名 AAL 母语标注员、1,054 条文本)+ 定性分析三管齐下,证据链完整
- 过滤器评估全面且有控制实验:不仅评估了 16 种过滤器在自然分布数据上的行为,还通过控制 AAL 来源(对话/歌词/社交媒体)揭示了偏见的来源——不是过滤器本身的设计缺陷,而是"高质量"的定义标准本身偏向 WME
- 发现企业社交媒体的 AAL 模仿是一个新颖的观察——如"…this will get you where you need to be. Ball out by clicking the link below."这类文本夸大 AAL 特征,加剧了模型的刻板印象学习
- 实际影响清晰:研究直接解释了为什么 LLM 在毒性检测中对 AAL 有偏见(Sap et al., 2019a)、为什么 LLM 在理解和生成 AAL 时表现差(Deas et al., 2023)
局限与展望¶
- 分类器泛化性有限:人口统计对齐分类器训练于 Twitter 数据,可能在其他领域(如论坛、新闻评论)的准确率不同;高概率区间中被判为含 AAL 特征的比例反而低于低概率区间,说明分类器对缩写、艺名等虚假特征敏感
- 标注者代表性不足:3 名标注员均有语言学或计算语言学背景,可能不代表更广泛 AAL 社区的观点;Stereotype 和 Appropriateness 维度的标注者一致性极低(κ = -0.021 和 0.188),反映了高度主观性
- 仅覆盖开源语料库:GPT-4o、Llama-3 等闭源模型的训练数据无法分析,研究结论的泛化性受限
- 未涉及其他少数族裔语言变体:如拉丁裔英语、亚裔英语、原住民语言等,研究框架可以扩展
- 缺少下游影响验证:论文仅审计了数据本身,未验证 AAL 在预训练数据中的不足/扭曲是否直接导致了模型行为偏差
- 可改进方向:
- 开发更准确的跨领域 AAL 检测器
- 收集自然对话式 AAL 数据(如 CORAAL 的扩展)用于数据增强
- 设计"方言感知"的数据过滤策略,避免系统性删除少数族裔语言
- 将审计框架扩展到评估基准(benchmark),因为 HellaSwag、MMLU 等基准同样不含 AAL,间接驱动了预训练数据的偏向策展
相关工作与启发¶
- 与 Dodge et al. (2021) 的关系:该工作首次发现 C4 的 block list 不成比例地过滤 AAL。本文大幅扩展了分析范围(12 个语料库 vs 仅 C4)和深度(质量审计 + 16 种过滤器)
- 与 Hofmann et al. (2024)、Fleisig et al. (2024) 的关系:这些工作发现 LLM 对 AAL 有刻板印象行为,本文从数据源头解释了为什么——预训练数据中的 AAL 本身就是刻板化的
- 启发:任何预训练数据审计都应同时关注"数量"和"质量"两个维度;自动过滤器的"质量"定义本身就编码了文化偏见(以 Wikipedia 为"高质量"标准);方言和少数族裔语言的数据收集需要社区参与(participatory design)
评分¶
- 新颖性: ⭐⭐⭐⭐ — "数据漫画"概念有创新性,将审计扩展到数量+质量+过滤三个维度是首次;但研究范式(预训练数据审计)本身已有先例
- 实验充分度: ⭐⭐⭐⭐⭐ — 12 个语料库、16 种过滤器、1,054 条人工标注、3 名母语标注员、定量+定性混合方法,证据极为充分
- 写作质量: ⭐⭐⭐⭐⭐ — 论文结构清晰(三个 RQ 层层推进),伦理讨论深入且负责,对 AAL 使用/生成的冲突有深刻反思
- 价值: ⭐⭐⭐⭐ — 对理解 LLM 偏见的数据根源有重要意义,但缺少"修复方案"(仅审计+建议),实际推动变革的可操作性有限