Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training¶
会议: ICLR 2026 Oral
arXiv: 2506.01732
代码: HuggingFace
领域: LLM 预训练数据 / 数据工程 / AI 合规
关键词: pre-training data, ethical data, open data, multilingual, data curation, copyright, AI legislation
一句话总结¶
构建 Common Corpus——约 2 万亿 token 的最大规模合法授权 LLM 预训练数据集,覆盖 6 大集合(政府/文化/科学/代码/Web/语义),多语言(含低资源语言),所有数据均为无版权或宽松许可来源,配有完整数据溯源和多阶段过滤管道,已被 Anthropic 等行业领导者采用。
研究背景与动机¶
领域现状:LLM 预训练需万亿 token 级数据(最新模型如 DeepSeek v3、Llama 4 使用 14-36T tokens),但主流数据集(The Pile、RefinedWeb、C4)大量使用版权内容。
现有痛点: - 法律风险加剧:NYT 起诉 OpenAI、EU AI Act 立法、C4 中 45% 内容已被 ToS 限制爬取 - 开放科学受损:Books3、LAION、MATH benchmark 等关键资源先后被 DMCA/法律挑战下架——之前的研究不可复现 - 现有合规数据集不足:C4C(228B tokens,仅英语)、KL3M(1.2T tokens,仅美国行政文本)、Common Pile(1T tokens,仅英语)——规模小或语言单一
核心矛盾:训练强大 LLM 需要海量数据,但合规数据规模远不够;多语言和低资源语言的合规数据更为匮乏
核心 idea:系统性地从无版权/宽松许可来源(政府文件、公共领域文学、开放科学论文、开源代码、Creative Commons Web 内容)收集和过滤约 2T tokens,建立 AI 训练数据的开放科学基础设施
方法详解¶
整体框架¶
来源识别(公共领域文献、政府文件、科学论文、许可代码、CC Web)→ 许可验证(逐文档确认版权/许可状态)→ 多阶段数据过滤(去重、语言检测、质量评分、毒性过滤、PII 移除)→ 领域分类 → 数据溯源标注 → 发布为 10000 个 parquet 文件
六大数据集合¶
| 集合 | Documents | Tokens | 来源 |
|---|---|---|---|
| Open Government | 74.7M | 406.6B | 多国政府文件、法律文本、议会记录 |
| Open Culture | 93.2M | 886.0B | 公共领域书籍、历史文献、图书馆数字化 |
| Open Science | 19.2M | 281.2B | 开放获取论文、预印本(arXiv 等) |
| Open Code | 202.8M | 283.2B | 宽松许可开源代码(MIT/Apache/BSD 等) |
| Open Web | 96.2M | 73.2B | Creative Commons 授权网页内容 |
| Open Semantic | 30.1M | 68.0B | 结构化知识(Wikipedia 等) |
| 总计 | 517.0M | ~2.0T |
关键设计¶
-
许可合规验证
- 功能:逐文档验证版权状态和许可类型,确保所有数据"使用无需许可"
- 来源策略:按 Open Source Initiative 的"最强开放"定义——不仅数据可获得,使用也不受限
- 公共领域确认:基于各国版权法(如美国 1928 年前出版物、欧洲 70 年身后版权期)
- 代码许可过滤:只保留无需归属的宽松许可(MIT、Apache 2.0、BSD 等)
-
多语言覆盖
- 功能:不仅含英语等主要语言,还系统性收集低资源语言数据
- 语言分布:英语 968.8B tokens(48.5%),法语 275.4B,德语 166.3B,... 覆盖 50+ 种语言
- 11% 为多语言文档
- 所有多语言数据均为原生文本,非机器翻译
- 设计动机:现有合规数据集几乎全部仅英语,限制了多语言 LLM 的合规训练
-
多阶段数据过滤管道
- 去重:fuzzy 和 exact dedup
- 语言检测:确保语言标注准确
- 质量评分:基于 perplexity 和内容质量模型过滤低质量文档
- 毒性过滤:移除有害内容
- PII 移除:去除个人身份信息
- OCR 校正:对历史数字化文档进行 OCR 质量修复
-
数据溯源透明
- 每个文档包含:来源 URL、许可类型、语言标签、集合/领域分类、其他元数据
- 支持完整的 AI 审计——从模型溯源到训练数据再到原始来源
实验关键数据¶
数据集规模对比¶
| 数据集 | 规模 | 语言 | 合规性 |
|---|---|---|---|
| C4 | 156B | 英语为主 | 部分受限 |
| RefinedWeb | 5T | 英语 | 版权争议 |
| C4C | 228B | 英语 | 合规 |
| KL3M | 1.2T | 英语 | 合规(美国行政文本) |
| Common Pile | 1T | 英语 | 合规 |
| Common Corpus | ~2.0T | 50+ 语言 | 完全合规 |
Common Corpus 是唯一一个同时满足"万亿规模 + 多语言 + 完全合规"的数据集。
数据多样性¶
| 维度 | 特征 |
|---|---|
| 时间跨度 | 古代到现代(公共领域历史文献→最新 CC 网页) |
| 领域范围 | 法律、科学、文学、代码、百科、社区内容 |
| 语言多样性 | 50+ 种语言,含非洲/亚洲低资源语言 |
社区影响¶
- 已被 Anthropic 用于模型训练
- 多个 LLM 训练项目采用
- 基于 Common Corpus 衍生的多模态数据集、分类器、合成数据集和基准
关键发现¶
- "开放数据悖论":大量公共领域/开放许可内容在网上可见性低、不在主流预训练数据源中——需要主动挖掘,不能只依赖 Common Crawl
- 政府和文化机构数字化的文档是被低估的数据源——质量高、无版权问题、多语言
- 即使是最宽松的许可,合规数据的多样性和质量仍有差距——需要更多社区努力
亮点与洞察¶
- AI 合规基础设施的里程碑:在 EU AI Act、版权诉讼潮的背景下,Common Corpus 证明了"合规+大规模"是可能的,为整个行业提供了合规训练数据的"公地"
- 开放科学的实践典范:完整的数据溯源、许可验证、处理工具全部开源——其他项目可复用整个 pipeline
- 语义覆盖的独特性:非常不同于 web-crawled 数据——包含历史文献、法律文本、科研论文等,可能带来不同于网页文本的知识分布
局限与展望¶
- 规模上限:~2T tokens 远小于非合规数据集(RefinedWeb 5T+),在 scaling law 下可能不足以训练最大模型
- 质量差距:公共领域文献(OCR 质量、古老语言风格)可能与现代网页文本有分布差异,对模型性能影响未量化
- 缺乏训练验证:未报告在 Common Corpus 上训练的模型与在非合规数据上训练的模型的性能对比(这是关键缺失)
- 代码数据 283B tokens 远少于 The Stack 等专门代码数据集
- 低资源语言 虽有覆盖但数据量可能仍不足以训练高质量模型
相关工作与启发¶
- vs The Pile:开创性预训练数据集但含 Books3 等版权内容,已被部分下架
- vs RefinedWeb:5T 规模但全部来自 Common Crawl 无许可过滤
- vs KL3M:合规但仅美国行政文本(领域单一)
- 对行业的启示:Common Corpus 表明合规数据收集是一个需要持续投入的基础设施项目,不是一次性工作。社区协作(如 BLOOM 的 ROOTS)模式可能是可持续路径
评分¶
- 新颖性: ⭐⭐⭐ 主要是数据工程贡献,方法学创新有限
- 实验充分度: ⭐⭐⭐ 数据集描述详尽,但缺乏关键的模型训练性能对比
- 写作质量: ⭐⭐⭐⭐ 数据来源和管道描述清晰,遵循最佳实践指南
- 价值: ⭐⭐⭐⭐⭐ ICLR Oral 实至名归——对 AI 行业合规化有巨大推动,是开放科学基础设施的重要贡献