An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)¶

会议: ACL 2025
arXiv: 2503.10267
代码: github
领域: 其他（多语言数据集/语料库构建）
关键词: 多语言语料库, 网络爬取, 数据管线, 机器翻译, 语言模型预训练

一句话总结¶

本文介绍 HPLT v2，一个从 4.5 PB 的 Internet Archive 和 Common Crawl 数据中提取的大规模多语言数据集，包含覆盖 193 种语言的 8 万亿 token 单语数据和覆盖 51 种语言的 3.8 亿句对平行数据，并通过改进的数据处理管线显著提升了数据质量。

研究背景与动机¶

训练最先进的大语言模型需要大量干净且多样化的文本数据，但构建合适的多语言数据集仍然是一个挑战。虽然英语为主的 LLM 已展现出令人印象深刻的多语言能力，但研究社区正越来越关注显式多语言语料库的构建。

现有多语言数据集（如 OSCAR、CC-100、mC4、CulturaX、MADLAD-400）主要来源于 Common Crawl。HPLT v2 的独特之处在于大量使用了 Internet Archive 的爬取数据，因此可以作为这些现有数据集的互补来源。此外，有效的 NLP 研究需要开放的训练数据以便结果可以被复制和验证。

HPLT v2 是 HPLT v1.2 的直接后续版本，在多个方面进行了改进：数据源规模扩大 2.5 倍（4.5 PB），文本提取工具从 warc2text 换为更高效的 Trafilatura，语言识别从 CLD2 换为修改版 OpenLID（覆盖从 75 种语言扩展至 193 种），并新增了 robots.txt 合规性标注和 PII 标注等。

方法详解¶

整体框架¶

数据构建管线分为三个主要阶段：

HTML 提取：从 WARC 格式的网络爬取数据中提取 HTML 和元数据
单语文本处理：去重、清洗、质量过滤
平行数据提取：从单语数据中提取双语对齐句对

关键设计¶

文本提取阶段：

数据源总计 4.5 PB：3.7 PB 来自 Internet Archive（2012-2020 年），0.8 PB 来自 Common Crawl（2014-2022 年）
使用 warc2text 工具从 WARC 文件中提取 HTML 和元数据
使用 Trafilatura 1.8.0 进行去样板化（设置 include_comments=False, include_tables=False, no_fallback=False）
使用修改版 OpenLID 模型进行语言识别（合并阿拉伯语方言，改进预处理）
提取后数据从 4.5 PB 缩减至 62 TB

单语文本清洗：

过滤语言标签预测概率低于 0.5 的文档
使用 MinHash（240 个哈希，Jaccard 阈值 0.8）进行爬取级去重
遵守 robots.txt 规则，移除被禁止爬取的文档
使用 Web Docs Scorer (WDS) 计算文档质量分，移除低于 5 分的文档
过滤长度小于 500 字符或平均每段少于 5 词的文档（中日韩为 10 字符）
过滤 UT1 成人内容列表中的 URL
添加 PII（个人身份信息）元数据标注

平行数据提取：

基于 Bitextor 管线改进，从清洗后的单语 HPLT v2 中提取
使用 Loomchild（基于 SRX 的句子分割器）支持更多语言
使用 Bicleaner AI 进行翻译质量过滤（多语言模型可处理未见语言对）
最终产出 50 种语言与英语配对的 3.8 亿句对
另外通过英语作为枢纽语言创建了 MultiHPLT v2 多路平行语料（1275 个语言对，167 亿句对）

损失函数 / 训练策略¶

本文的核心贡献是数据集构建而非模型训练。但在评估阶段训练了多种模型： - MLM：使用 LTG-BERT 架构在 52 种语言上训练掩码语言模型 - 生成式 LM：训练 1.7B 参数的 decoder-only LM（英语 100B token，挪威语 30B token） - 机器翻译：使用 Transformer-base 架构和 Marian NMT 工具包训练

实验关键数据¶

主实验¶

MLM 评估（52 种语言）：

在 POS 标注、词形还原、依存分析和命名实体识别四个任务上，HPLT v2 训练的模型相比 mBERT、XLM-R 和 HPLT v1.2 表现出显著更高的胜率。仅在词形还原任务上，XLM-R 和 HPLT v1.2 提供了有竞争力的结果（差异小于 1%）。

生成式 LM 评估：

英语：HPLT v2 (cleaned) 训练的模型在下游任务上达到与 FineWeb 相似的性能，显著超过 HPLT v1.2
挪威语：HPLT v2 与 FineWeb、CulturaX 和 mC4 表现相当，均超过 HPLT v1.2。16B token 后性能趋于平稳

机器翻译评估：

对比	BLEU (xx→en)	COMET (xx→en)	BLEU (en→xx)	COMET (en→xx)
HPLT v1.2	28.5	0.7943	24.4	0.7623
HPLT v2	32.7	0.8343	27.9	0.8137

HPLT v2 相比 v1.2 有显著优势。与 OPUS 数据结合使用时，BLEU 和 COMET 进一步改善，表明 HPLT v2 包含与现有 OPUS 语料不重叠的内容。

消融实验¶

数据质量分析：

去重后版本 21 TB，清洗后版本 15 TB
清洗前后对比：唯一段落从 22.2%（v1.2）提升到 40.9%（v2）
长文档（>25段）比例从 90.8% 降至 23.2%（因为更好的去样板化）
匹配文档语言的段落从 58.6% 提升至 81.5%
80% 的平行句对翻译似然分数在 0.8-1.0 之间

人工检查（22 种语言，每种 200 个文档）：

大多数语言中色情内容和非目标语言比例约 0-3%
非自然文本比例约 10%（部分语言高达 30%）
2017 年后的 CC 爬取数据质量更高（非自然文本概率约为其他来源的一半）

关键发现¶

虽然 CC 爬取数据不到输入数据的 20%，却贡献了最终文本的约 60%，因为 CC 更专注于文本内容而 IA 包含大量多媒体
较小语言数据集倾向于包含更多 Wikipedia 和宗教内容
欧洲语言的地理顶级域名占比最高，非洲语言以通用顶级域名为主
中文（以及可能的韩文和日文）的标点符号被错误地规范化为拉丁等价物，导致性能下降（将在下个版本修复）
Internet Archive 对某些语言（如中文、波斯语）提供了比 CC 更多的文本

亮点与洞察¶

规模和覆盖的突破：8 万亿 token、193 种语言的单语数据加上 3.8 亿句对的平行数据，是目前最大的开放多语言数据集之一。
Internet Archive 的独特价值：作为少数大规模利用 IA 数据的项目，HPLT v2 与主要基于 CC 的其他数据集形成互补，为研究社区提供了多样化的数据来源。
完整的可复现性：整个数据管线代码公开，数据使用 CC0 许可证发布，体现了对开放科学的高度承诺。
注册体裁标注：使用 16 种语言的注册分类器对 100 种语言的数据进行了体裁标注，帮助用户做出更明智的数据采样决策。
Document-level 平行数据：提供了 DocHPLT，包含句子和段落对齐标注的文档级平行数据，这对文档级翻译研究非常有价值。

局限与展望¶

数据主要以印欧语言（尤其是英语）为主，平行数据以英语为中心。增加欠服务语言的数据量仍是重要的未来工作。
数据中仍存在 LID 错误、样板文本残留（特别是 Wikipedia 和博客平台）以及其他清洗步骤的残留错误。
对机器生成内容（如机器翻译和 LLM 输出）的检测和移除仅有有限支持。
中日韩文标点规范化问题需要修复。
评估仅覆盖 HPLT v2 中语言的一个子集，受限于可用评测资源。
计算成本巨大：总计约 440 万 CPU 小时和 10.6 万 GPU 小时。

评分¶

创新性: ★★★☆☆ — 管线改进为主，无方法论突破
实用性: ★★★★★ — 对多语言 NLP 社区价值极高
实验充分度: ★★★★★ — MLM、生成式 LM、MT 三条评估线，22 种语言人工检查
写作质量: ★★★★☆ — 结构清晰，详尽但略显冗长