Data Caricatures: On the Representation of African American Language in Pretraining Corpora¶

会议: ACL 2025
arXiv: 2503.10789
代码: NickDeas/DataCaricatures
领域: NLP公平性 / 预训练数据分析
关键词: African American Language, pretraining corpora, data quality, representation bias, automated filtering, sociolinguistic equity

一句话总结¶

结合定量实验、人工判断和定性分析，系统评估了 12 个开源预训练语料库中非裔美国人语言（AAL）的数量与质量：发现 AAL 仅占 0.007%–0.18% 的文档（远低于人口比例），C4 中 28.9% 的 AAL 文本被判为不适合 LLM 生成、24.5% 强化有害刻板印象，且 16 种自动过滤器中有 13 种系统性地偏向保留白人主流英语（WME）而非 AAL。

研究背景与动机¶

领域现状：LLM 预训练数据的分布直接决定模型对不同语言变体的理解能力。AAL 是美国使用最广泛的英语方言之一——约 80% 的非裔美国人（占美国人口约 10%）使用 AAL，但此前仅 Dodge et al. (2021) 对 C4 做过有限分析。

现有痛点： - 数量未知：除 C4 外，其他主流预训练语料库中 AAL 的比例从未被系统量化 - 质量未审：即便包含 AAL 文本，其中有多少是真实的日常语言使用？有多少是嘻哈歌词、企业营销或非母语者的刻板模仿？ - 过滤偏见：标准数据清洗流程（质量过滤、毒性过滤、去重）是否对 AAL 存在系统性偏见？

核心矛盾：如果预训练数据中 AAL 过少或质量差（充斥刻板模仿而非自然语言），LLM 不仅无法正确理解和生成 AAL，还可能强化对 AAL 使用者的歧视性行为——先前研究已发现 LLM 在毒性检测、刻板印象和对话生成中对 AAL 存在偏见。

本文目标：围绕三个研究问题（RQ），对 AAL 在预训练数据中的表示进行全面审计： - RQ1：预训练语料中有多少 AAL？特定 AAL 语法特征的分布如何？ - RQ2：已包含的 AAL 文本质量如何（来源多样性、真实性、是否有害）？ - RQ3：现代数据质量过滤策略对 AAL 表示有何影响？

切入角度：不仅关注"有多少"（数量），更关注"是什么样的"（质量）——提出"数据漫画"（Data Caricatures）概念，即预训练数据中的 AAL 可能是真实语言使用的扭曲漫画而非忠实表示。

核心idea：混合方法（定量+人工+定性）系统审计 12 个开源语料库，揭示 AAL 在数量、质量和过滤三个维度上的问题。

方法详解¶

整体框架¶

研究设计为三阶段审计流程，对应三个 RQ： 1. 数量审计（RQ1）：用人口统计对齐分类器从 12 个语料库中提取 AAL 子集，统计比例并分析 17 种形态句法特征的分布 2. 质量审计（RQ2）：对 C4 的 AAL 子集进行人工标注（1,054 条文本）+ 嘻哈歌词重叠检测 + 非母语者使用分析 3. 过滤审计（RQ3）：在 RedPajama-v2 上评估 16 种自动过滤器对 AAL vs WME 的差异行为，并在三种 AAL 来源（对话、歌词、社交媒体）上做控制实验

关键设计一：AAL 提取与特征分析¶

功能：从 12 个语料库中识别包含 AAL 的文档，并分析其语法特征分布
核心思路：采用 Blodgett et al. (2016) 的混合成员人口统计对齐分类器（训练于 Twitter 数据），取 AAL 概率最高的文档作为 AAL 子集；进一步用 CGEdit 模型（Masis et al., 2022）的人机协作框架自动识别 17 种 AAL 形态句法特征（如 habitual be、copula deletion、多重否定等）
设计动机：
- 使用阈值 0.3（而非常见的 0.8）来获得更保守的特征流行率估计，同时保持可管理的语料规模
- 对 4 个超大规模语料库（>30 亿文档）采用 250 GB 随机采样分析，并报告 99% 置信区间
- 人工验证：招募 3 名 AAL 母语者标注员，对 C4 中 1,054 条文本进行人类相似度和语言匹配度判断（κ = 0.581 和 0.747）

关键设计二：AAL 文本质量多维评估¶

功能：从来源多样性、真实性和无害性三个维度评估 AAL 文本质量
核心思路：
- 嘻哈歌词检测：采用 Brown et al. (2020) 的去重方法，用 8-13 token n-gram 重叠检测识别 C4 中嵌入的嘻哈/说唱歌词
- 母语者判断：标注员判断文本是否为 AAL 母语者所写（Native Speaker 维度，κ = 0.619）
- 刻板印象与适当性：标注员判断文本是否强化有害刻板印象（Stereotype）和是否适合 LLM 生成（Appropriateness），采用 4 点 Likert 量表
设计动机：嘻哈歌词虽含 AAL 特征但不代表日常语言使用，企业社交媒体的 AAL 模仿夸大语言特征，这些都会扭曲 LLM 对 AAL 的学习——因此需要区分"真实表示"和"漫画式表示"

关键设计三：自动过滤器偏见评估¶

功能：评估 16 种自动过滤策略（语言过滤器、毒性过滤器、质量过滤器）对 AAL 的影响
核心思路：
- 自然分布实验：在 RedPajama-v2 上提取 AAL（p≥0.8）和 WME（p≥0.8）子集各约 23.5 万条文本，比较过滤器输出的 z-score 标准化得分
- 控制来源实验：在三种 AAL 来源上评估——CORAAL 对话转录（自然语言）、嘻哈歌词、TwitterAAE 社交媒体文本
- 使用双尾 t 检验评估显著性差异（p < 0.01）
设计动机：先前仅知道 C4 的 block list 对 AAL 有偏见，但不清楚更现代的模型驱动过滤器（如基于 Wikipedia 的质量评估、LLM-as-judge）是否同样有偏

实验关键数据¶

主实验：AAL 在 12 个语料库中的占比（Table 1）¶

语料库	文档数	AAL 文档占比	Common Crawl 占比
OpenWebText	8M	0.01%	0%
The Pile	140M	0.08%	3%
Dolmino (Dolmino-mix)	165M	0.03%	83%
C4	365M	0.07%	100%
C4.NoBlockList	395M	0.11%	100%
RefinedWeb	968M	0.12%	100%
RedPajama	968M	0.007%（最低）	88%
FineWeb-Edu	1.8B	0.0009%	100%
Dolma	2.5B	0.12%	78%
RedPajama-v2（采样）	20.8B	0.18%（最高）	100%

人工标注验证（Table 2）¶

AAL 分类器概率区间	C4 文档数	被判为含 AAL 特征的比例
0.5 ≤ p ≤ 0.6	41,930	44.7%
0.6 ≤ p ≤ 0.7	12,913	36.3%
0.7 ≤ p ≤ 0.8	4,319	36.7%
0.8 ≤ p ≤ 0.9	922	30.9%
0.9 ≤ p	120	23.0%

质量评估关键数据（Figure 5）¶

维度	C4.en 中负面比例	说明
不适当（Inappropriateness）	28.9%	不适合 LLM 生成
刻板印象（Stereotype）	24.5%	强化有害刻板印象
非母语者写作	51%	C4.en 中被判为含 AAL 特征但非 AAL 母语者所写
嘻哈歌词重叠	~12%（C4.en）/ ~15%（C4.en.noBlocklist）	8-gram 重叠检测

过滤器偏见分析（Figure 6）¶

指标	结果
偏向保留 WME 的过滤器	13/16 种（81.3%）
偏向保留 AAL 的过滤器	仅 3/16 种（含 2 种使用 Wikipedia 作为高质量参考）
过滤器对 AAL 来源偏好	11/16 种偏向保留对话转录 > 社交媒体 > 歌词
跨语料库 AAL 文档重复率	17% 的 AAL 文档在至少一个其他语料库中重复

关键发现¶

AAL 极度不足：所有语料库中 AAL 占比均远低于 AAL 使用者在美国人口中的比例（约 10%），最低仅 0.0009%
质量堪忧——"数据漫画"现象：C4 中近 1/3 的 AAL 文本被判为不适当或强化刻板印象；51% 的 AAL 文本并非母语者所写；~12-15% 为嘻哈歌词而非日常语言
多样性不足：17% 的 AAL 文档跨语料库重复；AAL 特征分布受过滤严重扭曲（如 Zero Copula 在过滤后频率大幅下降）
过滤器系统性偏见：绝大多数现代过滤器（包括基于模型的质量和毒性过滤器）不成比例地删除 AAL 内容
悖论：过滤器更倾向保留自然对话式 AAL（CORAAL），但网络上几乎没有这类资源；实际被保留的多为质量较差的网络文本

亮点与洞察¶

"数据漫画"概念的提出极具洞察力：预训练数据中的 AAL 不仅量少，而且是真实语言使用的扭曲漫画——嘻哈歌词、企业模仿、非母语者的夸张使用，这比单纯的"不足"更有害
混合方法设计严谨：定量统计（12 个语料库）+ 人工标注（3 名 AAL 母语标注员、1,054 条文本）+ 定性分析三管齐下，证据链完整
过滤器评估全面且有控制实验：不仅评估了 16 种过滤器在自然分布数据上的行为，还通过控制 AAL 来源（对话/歌词/社交媒体）揭示了偏见的来源——不是过滤器本身的设计缺陷，而是"高质量"的定义标准本身偏向 WME
发现企业社交媒体的 AAL 模仿是一个新颖的观察——如"…this will get you where you need to be. Ball out by clicking the link below."这类文本夸大 AAL 特征，加剧了模型的刻板印象学习
实际影响清晰：研究直接解释了为什么 LLM 在毒性检测中对 AAL 有偏见（Sap et al., 2019a）、为什么 LLM 在理解和生成 AAL 时表现差（Deas et al., 2023）

局限与展望¶

分类器泛化性有限：人口统计对齐分类器训练于 Twitter 数据，可能在其他领域（如论坛、新闻评论）的准确率不同；高概率区间中被判为含 AAL 特征的比例反而低于低概率区间，说明分类器对缩写、艺名等虚假特征敏感
标注者代表性不足：3 名标注员均有语言学或计算语言学背景，可能不代表更广泛 AAL 社区的观点；Stereotype 和 Appropriateness 维度的标注者一致性极低（κ = -0.021 和 0.188），反映了高度主观性
仅覆盖开源语料库：GPT-4o、Llama-3 等闭源模型的训练数据无法分析，研究结论的泛化性受限
未涉及其他少数族裔语言变体：如拉丁裔英语、亚裔英语、原住民语言等，研究框架可以扩展
缺少下游影响验证：论文仅审计了数据本身，未验证 AAL 在预训练数据中的不足/扭曲是否直接导致了模型行为偏差
可改进方向：
- 开发更准确的跨领域 AAL 检测器
- 收集自然对话式 AAL 数据（如 CORAAL 的扩展）用于数据增强
- 设计"方言感知"的数据过滤策略，避免系统性删除少数族裔语言
- 将审计框架扩展到评估基准（benchmark），因为 HellaSwag、MMLU 等基准同样不含 AAL，间接驱动了预训练数据的偏向策展

评分¶

新颖性: ⭐⭐⭐⭐ — "数据漫画"概念有创新性，将审计扩展到数量+质量+过滤三个维度是首次；但研究范式（预训练数据审计）本身已有先例
实验充分度: ⭐⭐⭐⭐⭐ — 12 个语料库、16 种过滤器、1,054 条人工标注、3 名母语标注员、定量+定性混合方法，证据极为充分
写作质量: ⭐⭐⭐⭐⭐ — 论文结构清晰（三个 RQ 层层推进），伦理讨论深入且负责，对 AAL 使用/生成的冲突有深刻反思
价值: ⭐⭐⭐⭐ — 对理解 LLM 偏见的数据根源有重要意义，但缺少"修复方案"（仅审计+建议），实际推动变革的可操作性有限