跳转至

Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training

会议: ICLR 2026 Oral
arXiv: 2506.01732
代码: HuggingFace
领域: LLM 预训练数据 / 数据工程 / AI 合规
关键词: pre-training data, ethical data, open data, multilingual, data curation, copyright, AI legislation

一句话总结

构建 Common Corpus——约 2 万亿 token 的最大规模合法授权 LLM 预训练数据集,覆盖 6 大集合(政府/文化/科学/代码/Web/语义),多语言(含低资源语言),所有数据均为无版权或宽松许可来源,配有完整数据溯源和多阶段过滤管道,已被 Anthropic 等行业领导者采用。

研究背景与动机

领域现状:LLM 预训练需万亿 token 级数据(最新模型如 DeepSeek v3、Llama 4 使用 14-36T tokens),但主流数据集(The Pile、RefinedWeb、C4)大量使用版权内容。

现有痛点: - 法律风险加剧:NYT 起诉 OpenAI、EU AI Act 立法、C4 中 45% 内容已被 ToS 限制爬取 - 开放科学受损:Books3、LAION、MATH benchmark 等关键资源先后被 DMCA/法律挑战下架——之前的研究不可复现 - 现有合规数据集不足:C4C(228B tokens,仅英语)、KL3M(1.2T tokens,仅美国行政文本)、Common Pile(1T tokens,仅英语)——规模小或语言单一

核心矛盾:训练强大 LLM 需要海量数据,但合规数据规模远不够;多语言和低资源语言的合规数据更为匮乏

核心 idea:系统性地从无版权/宽松许可来源(政府文件、公共领域文学、开放科学论文、开源代码、Creative Commons Web 内容)收集和过滤约 2T tokens,建立 AI 训练数据的开放科学基础设施

方法详解

整体框架

来源识别(公共领域文献、政府文件、科学论文、许可代码、CC Web)→ 许可验证(逐文档确认版权/许可状态)→ 多阶段数据过滤(去重、语言检测、质量评分、毒性过滤、PII 移除)→ 领域分类 → 数据溯源标注 → 发布为 10000 个 parquet 文件

六大数据集合

集合 Documents Tokens 来源
Open Government 74.7M 406.6B 多国政府文件、法律文本、议会记录
Open Culture 93.2M 886.0B 公共领域书籍、历史文献、图书馆数字化
Open Science 19.2M 281.2B 开放获取论文、预印本(arXiv 等)
Open Code 202.8M 283.2B 宽松许可开源代码(MIT/Apache/BSD 等)
Open Web 96.2M 73.2B Creative Commons 授权网页内容
Open Semantic 30.1M 68.0B 结构化知识(Wikipedia 等)
总计 517.0M ~2.0T

关键设计

  1. 许可合规验证

    • 功能:逐文档验证版权状态和许可类型,确保所有数据"使用无需许可"
    • 来源策略:按 Open Source Initiative 的"最强开放"定义——不仅数据可获得,使用也不受限
    • 公共领域确认:基于各国版权法(如美国 1928 年前出版物、欧洲 70 年身后版权期)
    • 代码许可过滤:只保留无需归属的宽松许可(MIT、Apache 2.0、BSD 等)
  2. 多语言覆盖

    • 功能:不仅含英语等主要语言,还系统性收集低资源语言数据
    • 语言分布:英语 968.8B tokens(48.5%),法语 275.4B,德语 166.3B,... 覆盖 50+ 种语言
    • 11% 为多语言文档
    • 所有多语言数据均为原生文本,非机器翻译
    • 设计动机:现有合规数据集几乎全部仅英语,限制了多语言 LLM 的合规训练
  3. 多阶段数据过滤管道

    • 去重:fuzzy 和 exact dedup
    • 语言检测:确保语言标注准确
    • 质量评分:基于 perplexity 和内容质量模型过滤低质量文档
    • 毒性过滤:移除有害内容
    • PII 移除:去除个人身份信息
    • OCR 校正:对历史数字化文档进行 OCR 质量修复
  4. 数据溯源透明

    • 每个文档包含:来源 URL、许可类型、语言标签、集合/领域分类、其他元数据
    • 支持完整的 AI 审计——从模型溯源到训练数据再到原始来源

实验关键数据

数据集规模对比

数据集 规模 语言 合规性
C4 156B 英语为主 部分受限
RefinedWeb 5T 英语 版权争议
C4C 228B 英语 合规
KL3M 1.2T 英语 合规(美国行政文本)
Common Pile 1T 英语 合规
Common Corpus ~2.0T 50+ 语言 完全合规

Common Corpus 是唯一一个同时满足"万亿规模 + 多语言 + 完全合规"的数据集。

数据多样性

维度 特征
时间跨度 古代到现代(公共领域历史文献→最新 CC 网页)
领域范围 法律、科学、文学、代码、百科、社区内容
语言多样性 50+ 种语言,含非洲/亚洲低资源语言

社区影响

  • 已被 Anthropic 用于模型训练
  • 多个 LLM 训练项目采用
  • 基于 Common Corpus 衍生的多模态数据集、分类器、合成数据集和基准

关键发现

  • "开放数据悖论":大量公共领域/开放许可内容在网上可见性低、不在主流预训练数据源中——需要主动挖掘,不能只依赖 Common Crawl
  • 政府和文化机构数字化的文档是被低估的数据源——质量高、无版权问题、多语言
  • 即使是最宽松的许可,合规数据的多样性和质量仍有差距——需要更多社区努力

亮点与洞察

  • AI 合规基础设施的里程碑:在 EU AI Act、版权诉讼潮的背景下,Common Corpus 证明了"合规+大规模"是可能的,为整个行业提供了合规训练数据的"公地"
  • 开放科学的实践典范:完整的数据溯源、许可验证、处理工具全部开源——其他项目可复用整个 pipeline
  • 语义覆盖的独特性:非常不同于 web-crawled 数据——包含历史文献、法律文本、科研论文等,可能带来不同于网页文本的知识分布

局限与展望

  • 规模上限:~2T tokens 远小于非合规数据集(RefinedWeb 5T+),在 scaling law 下可能不足以训练最大模型
  • 质量差距:公共领域文献(OCR 质量、古老语言风格)可能与现代网页文本有分布差异,对模型性能影响未量化
  • 缺乏训练验证:未报告在 Common Corpus 上训练的模型与在非合规数据上训练的模型的性能对比(这是关键缺失)
  • 代码数据 283B tokens 远少于 The Stack 等专门代码数据集
  • 低资源语言 虽有覆盖但数据量可能仍不足以训练高质量模型

相关工作与启发

  • vs The Pile:开创性预训练数据集但含 Books3 等版权内容,已被部分下架
  • vs RefinedWeb:5T 规模但全部来自 Common Crawl 无许可过滤
  • vs KL3M:合规但仅美国行政文本(领域单一)
  • 对行业的启示:Common Corpus 表明合规数据收集是一个需要持续投入的基础设施项目,不是一次性工作。社区协作(如 BLOOM 的 ROOTS)模式可能是可持续路径

评分

  • 新颖性: ⭐⭐⭐ 主要是数据工程贡献,方法学创新有限
  • 实验充分度: ⭐⭐⭐ 数据集描述详尽,但缺乏关键的模型训练性能对比
  • 写作质量: ⭐⭐⭐⭐ 数据来源和管道描述清晰,遵循最佳实践指南
  • 价值: ⭐⭐⭐⭐⭐ ICLR Oral 实至名归——对 AI 行业合规化有巨大推动,是开放科学基础设施的重要贡献