Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training¶
会议: ICLR 2026 Oral
arXiv: 2506.01732
代码: HuggingFace
领域: LLM 预训练数据 / 数据工程 / AI 合规
关键词: pre-training data, ethical data, open data, multilingual, data curation, copyright, AI legislation
一句话总结¶
构建 Common Corpus——约 2 万亿 token 的最大规模合法授权 LLM 预训练数据集,覆盖 6 大集合(政府/文化/科学/代码/Web/语义),多语言(含低资源语言),所有数据均为无版权或宽松许可来源,配有完整数据溯源和多阶段过滤管道,已被 Anthropic 等行业领导者采用。
研究背景与动机¶
领域现状:LLM 预训练需万亿 token 级数据(最新模型如 DeepSeek v3、Llama 4 使用 14-36T tokens),但主流数据集(The Pile、RefinedWeb、C4)大量使用版权内容。
现有痛点: - 法律风险加剧:NYT 起诉 OpenAI、EU AI Act 立法、C4 中 45% 内容已被 ToS 限制爬取 - 开放科学受损:Books3、LAION、MATH benchmark 等关键资源先后被 DMCA/法律挑战下架——之前的研究不可复现 - 现有合规数据集不足:C4C(228B tokens,仅英语)、KL3M(1.2T tokens,仅美国行政文本)、Common Pile(1T tokens,仅英语)——规模小或语言单一
核心矛盾:训练强大 LLM 需要海量数据,但合规数据规模远不够;多语言和低资源语言的合规数据更为匮乏
核心 idea:系统性地从无版权/宽松许可来源(政府文件、公共领域文学、开放科学论文、开源代码、Creative Commons Web 内容)收集和过滤约 2T tokens,建立 AI 训练数据的开放科学基础设施
方法详解¶
整体框架¶
Common Corpus 要解决的事其实很朴素:在不碰任何版权内容的前提下,凑出一个能真正用于 LLM 预训练的万亿 token 级语料库。整条流水线是"先选源、再确权、然后清洗、最后留痕"的链路——先从六类天然合规、且原生覆盖多语言的来源(政府文件、公共领域文化文献、开放获取论文、宽松许可代码、Creative Commons 网页、结构化语义知识)里识别候选文档;逐文档核验它的版权与许可状态,只留"使用无需许可"的内容;再过一条以 OCR 修复为核心的清洗管道(文本分段 → OCR 错误检测 → OCR 校正 → PII 移除 → 毒性过滤),因为大量公共领域文献来自图书馆扫描件、OCR 噪声极重;最后给每份文档打上完整的溯源元数据并按领域归类,发布成约 10000 个 parquet 文件。最终汇成 6 大集合、约 2T tokens:
| 集合 | Documents | Tokens | 来源 |
|---|---|---|---|
| Open Government | 74.7M | 406.6B | 多国政府文件、法律文本、议会记录 |
| Open Culture | 93.2M | 886.0B | 公共领域书籍、历史文献、图书馆数字化 |
| Open Science | 19.2M | 281.2B | 开放获取论文、预印本(arXiv 等) |
| Open Code | 202.8M | 283.2B | 宽松许可开源代码(MIT/Apache/BSD 等) |
| Open Web | 96.2M | 73.2B | Creative Commons 授权网页内容 |
| Open Semantic | 30.1M | 68.0B | 结构化知识(Wikipedia 等) |
| 总计 | 517.0M | ~2.0T |
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
A["六类合规来源<br/>政府·文化·科学·代码·网页·语义<br/>原生多语言·非机翻"] --> B["逐文档许可确权<br/>核版权状态 / 只留宽松许可"]
B --> CLEAN
subgraph CLEAN["以 OCR 校正为核心的清洗管道"]
direction TB
C1["文本分段<br/>Segmentext"] --> C2["OCR 错误检测<br/>OCRoscope / OCRerrcr"]
C2 --> C3["OCR 校正<br/>OCRonos"]
C3 --> C4["PII 移除"]
C4 --> C5["毒性过滤<br/>Celadon"]
end
CLEAN --> D["溯源元数据标注<br/>来源 URL·许可·语言·领域分类"]
D --> E["发布<br/>6 大集合 / ~10000 parquet / ~2T tokens"]
关键设计¶
1. 原生多语言的合规来源覆盖:用原生文本补上合规数据集只剩英语的短板
C4C、KL3M、Common Pile 这些已有的合规数据集几乎清一色只有英语,直接卡死了多语言 LLM 的合规训练。Common Corpus 从一开始就把"广覆盖 + 多语言"作为选源原则:六类来源横跨政府、文化、科学、代码、网页、语义知识,时间从古代文献一直到最新 CC 网页;语言上英语 968.8B tokens 仍是大头(约 48.5%),但法语 275.4B、德语 112.1B 紧随其后,前九种语言每种都 ≥10B tokens,整体覆盖含低资源语言在内的 50+ 种。最关键的一条是所有非英语数据都是原生文本、绝不机器翻译——机翻会把翻译腔和事实漂移灌进语料,而原生文本保住了各语言真实的分布,这正是它区别于其他合规数据集的核心差异。
2. 逐文档许可确权:把"合规"从粗筛升级为逐份核验
主流数据集默认"网上爬得到就能用",可 2024 年的分析显示 C4 里已有 45% 的 token 被 ToS 限制爬取。Common Corpus 反过来对每一份文档单独确认版权状态与许可类型,标准对齐 Open Source Initiative 对"开放"的最强定义——不只是数据可获得,连"用于任何目的、无需申请许可"都要满足。具体怎么判:公共领域内容按各国版权法逐条核(如早期出版物、作者身后版权期满);代码只保留无需署名的宽松许可(MIT、Apache 2.0、BSD 等),把带传染性条款的 GPL 排除在外。这样收上来的每份文档都是"使用无需许可",从源头规避了 NYT 诉 OpenAI 那类法律风险,也让基于它训练的模型可以合法开源、无需再依赖 fair use 抗辩。
3. 以 OCR 校正为核心的多阶段清洗管道:把"来源合规"打磨成"内容可用"
确权只解决"能不能用",质量这关还得靠清洗,而这条管道有个鲜明特点:五道工序里有三道围着 OCR 转。原因是大量公共领域文献来自图书馆扫描件,原始 OCR 噪声极重——作者用 OCRoscope 自测,公共领域部分的 OCR 质量率仅约 59%(按"可识别 7-gram 占比"度量,即 1 − 41% 无法识别的 7-gram)。管道依次是:先用 Segmentext 做文本分段,让它对版式错乱、数字化失真的文档也能切对结构;再用 OCRoscope / OCRerrcr 做 OCR 错误检测,靠统计无法识别的 7-gram 比例给出标准化质量分;接着用基于 Llama 3 8B 的 OCRonos 做 OCR 校正,它能修错字、错误的断词/合词乃至整段崩坏的结构,对严重退化的内容更像"合成重写"而非逐字纠错;之后过 PII 移除清掉受 GDPR 等约束的个人身份信息;最后用自训的多语言毒性分类器 Celadon(DeBERTa-v3-small、约 140M 参数,沿种族/性别/宗教/能力/暴力五个维度判定)做毒性过滤,命中的内容要么删除、要么无害化重写。这套以 OCR 修复为主轴的管道,正是让"古籍扫描件"这类别处用不了的资源真正进入预训练的关键。
4. 全程溯源元数据:让整个语料库可被完整审计
为了撑起"开放科学基础设施"这个定位,每份文档都附带一整套溯源元数据:来源 URL、许可类型、语言标签、集合/领域分类等。好处是审计链条能一路打通——从训练出的模型回溯到它吃了哪些数据,再回溯到每条数据的原始出处与许可凭证;用户也能据此自行过滤掉某些可能有问题的集合。这正是 The Pile 这类数据集做不到的:它们因含 Books3 等版权内容、又缺溯源,一旦被 DMCA 挑战就只能整体下架,研究随之不可复现。
实验关键数据¶
数据集规模对比¶
| 数据集 | 规模 | 语言 | 合规性 |
|---|---|---|---|
| C4 | 156B | 英语为主 | 部分受限 |
| RefinedWeb | 5T | 英语 | 版权争议 |
| C4C | 228B | 英语 | 合规 |
| KL3M | 1.2T | 英语 | 合规(美国行政文本) |
| Common Pile | 1T | 英语 | 合规 |
| Common Corpus | ~2.0T | 50+ 语言 | 完全合规 |
Common Corpus 是唯一一个同时满足"万亿规模 + 多语言 + 完全合规"的数据集。
数据多样性¶
| 维度 | 特征 |
|---|---|
| 时间跨度 | 古代到现代(公共领域历史文献→最新 CC 网页) |
| 领域范围 | 法律、科学、文学、代码、百科、社区内容 |
| 语言多样性 | 50+ 种语言,含非洲/亚洲低资源语言 |
社区影响¶
- 已被 Anthropic 用于模型训练
- 多个 LLM 训练项目采用
- 基于 Common Corpus 衍生的多模态数据集、分类器、合成数据集和基准
关键发现¶
- "开放数据悖论":大量公共领域/开放许可内容在网上可见性低、不在主流预训练数据源中——需要主动挖掘,不能只依赖 Common Crawl
- 政府和文化机构数字化的文档是被低估的数据源——质量高、无版权问题、多语言
- 即使是最宽松的许可,合规数据的多样性和质量仍有差距——需要更多社区努力
亮点与洞察¶
- AI 合规基础设施的里程碑:在 EU AI Act、版权诉讼潮的背景下,Common Corpus 证明了"合规+大规模"是可能的,为整个行业提供了合规训练数据的"公地"
- 开放科学的实践典范:完整的数据溯源、许可验证、处理工具全部开源——其他项目可复用整个 pipeline
- 语义覆盖的独特性:非常不同于 web-crawled 数据——包含历史文献、法律文本、科研论文等,可能带来不同于网页文本的知识分布
局限与展望¶
- 规模上限:~2T tokens 远小于非合规数据集(RefinedWeb 5T+),在 scaling law 下可能不足以训练最大模型
- 质量差距:公共领域文献(OCR 质量、古老语言风格)可能与现代网页文本有分布差异,对模型性能影响未量化
- 缺乏训练验证:未报告在 Common Corpus 上训练的模型与在非合规数据上训练的模型的性能对比(这是关键缺失)
- 代码数据 283B tokens 远少于 The Stack 等专门代码数据集
- 低资源语言 虽有覆盖但数据量可能仍不足以训练高质量模型
相关工作与启发¶
- vs The Pile:开创性预训练数据集但含 Books3 等版权内容,已被部分下架
- vs RefinedWeb:5T 规模但全部来自 Common Crawl 无许可过滤
- vs KL3M:合规但仅美国行政文本(领域单一)
- 对行业的启示:Common Corpus 表明合规数据收集是一个需要持续投入的基础设施项目,不是一次性工作。社区协作(如 BLOOM 的 ROOTS)模式可能是可持续路径
评分¶
- 新颖性: ⭐⭐⭐ 主要是数据工程贡献,方法学创新有限
- 实验充分度: ⭐⭐⭐ 数据集描述详尽,但缺乏关键的模型训练性能对比
- 写作质量: ⭐⭐⭐⭐ 数据来源和管道描述清晰,遵循最佳实践指南
- 价值: ⭐⭐⭐⭐⭐ ICLR Oral 实至名归——对 AI 行业合规化有巨大推动,是开放科学基础设施的重要贡献