Joint Selection for Large-Scale Pre-Training Data via Policy Gradient-based Mask Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fs2uDib85s
代码: https://github.com/ByteDance-Seed/DATAMASK
领域: LLM 预训练 / 数据选择
关键词: 预训练数据选择, 质量-多样性联合优化, 掩码学习, 策略梯度, FineWeb

一句话总结¶

把万亿 token 级预训练数据选择重新表述成"可学习掩码"问题，用分组策略梯度同时优化质量与多样性两类指标，比贪心算法快 98.9%，从 15T 的 FineWeb 选出 1.5T 的 FineWeb-Mask，在 1.5B/7B 模型上分别带来 3.2%/1.9% 的平均提升。

研究背景与动机¶

领域现状：开源预训练语料（FineWeb、DCLM）的"数据配方"核心是按某种打分筛样本，打分大致分两类——质量指标（启发式规则、LLM 裁判、fastText 分类器，如 FineWeb-Edu、UltraFineWeb、DCLM）和多样性指标（pair-wise 相似度、facility location、DiSF 维度坍缩度、Semdedup 去重）。

现有痛点：作者的实证研究揭示两类指标各有硬伤。只按质量选，长期预训练会出现严重的边际收益递减——质量高的样本在嵌入空间里聚得很紧（语义冗余高、信息多样性低），训得越久越没东西可学；只按多样性选，又会误删大量有价值的高质量样本，性能甚至跌破原始 FineWeb。

核心矛盾：最直接的解法是两类指标联合选，但质量分是逐样本独立计算的（top-k 即可），多样性分却是定义在集合上的集合函数，求解依赖代价高昂的贪心算法。在万亿 token 规模下，贪心算法当样本超过 10 万就要 78 小时，根本跑不动，因此现有工作几乎从不在单次选择里联合考虑这两类指标。

本文目标：让万亿级语料能在一次选择流程里同时优化质量和多样性，且选择时间可接受。

核心 idea（掩码学习 + 策略梯度）：把"选哪些样本"建模为对全集学一个二值掩码 \(M\)，再做概率松弛——不直接优化离散掩码而是学每个样本的采样 logits，最后用分组策略梯度估计梯度迭代更新，绕开集合函数难以微分、组合空间巨大的障碍。

方法详解¶

整体框架¶

DATAMASK 把选择预算 \(S\) 下的子集选择写成"学一个最优掩码"的优化问题，再经"概率松弛 → 策略梯度估计 → 分组优势更新"三步把不可微的离散采样变成可迭代的连续优化，最后从收敛 logits 采出最终掩码得到选中子集。

flowchart LR
    A[全集 D<br/>15T tokens] --> B[初始化 logits L0<br/>质量分加权初始化]
    B --> C[采样 G 个掩码 Mj<br/>无放回 softmax 采样]
    C --> D[算每个子集的<br/>联合指标 f=λ·质量+1-λ·多样性]
    D --> E[分组相对优势<br/>策略梯度估计]
    E --> F[更新 logits Lt+1]
    F -->|迭代 E 轮| C
    F -->|收敛| G[最终掩码 M*<br/>FineWeb-Mask 1.5T]

关键设计¶

1. 掩码学习 + 概率松弛：把组合选择变成连续可优化问题。 对全集 \(D=\{x_i\}_{i=1}^N\) 引入二值掩码 \(M\in\{0,1\}^N\)，\(M_i=1\) 表示选入子集 \(U=\Phi_M(D)\)，于是选择等价于 \(M^*=\arg\max_M f(\Phi_M(D))\) s.t. \(\sum_i M_i=S\)。但二值掩码离散、不可微，且万亿规模组合爆炸。作者把掩码视为从分布 \(P(M|L)\) 中采样得到，每个样本被选概率由 softmax 给出 \(P(M_i|L)=e^{L_i}/\sum_j e^{L_j}\)，对子集做 \(S\) 次无放回采样。优化目标转为求最优 logits \(L^*=\arg\max_L \mathbb{E}_{M\sim P(M|L)}[f(\Phi_M(D))]\)——logits 是连续的，从而可优化，这是整个框架能 scale 到万亿 token 的根本。

2. 分组相对优势的策略梯度估计：压方差、稳收敛。 采样仍不可微，作者用 Policy Gradient Estimation（REINFORCE）得到 \(\nabla_L \mathbb{E}[f]=\mathbb{E}[f(\Phi_M(D))\nabla_L\ln P(M|L)]\)。但选中样本数远小于全集，单次估计方差巨大、收敛困难。借鉴 GRPO 的相对优势思想，作者一次采 \(G\) 个掩码，用组内均值 \(\mu_G\)、标准差 \(\sigma_G\) 把奖励标准化成相对优势作为 baseline：\(\nabla_L \mathbb{E}[f]\approx \frac{1}{G}\sum_{j=1}^G \frac{f(\Phi_{M_j}(D))-\mu_G}{\sigma_G}\nabla_L\ln P(M_j|L)\)，再以学习率 \(\eta\) 更新 logits。组归一化显著降低方差、加速训练，这是相比朴素 REINFORCE 的关键改进。

3. 质量-多样性联合目标：一个 λ 调和两类指标。 联合目标取 \(f(U)=\lambda f_{qua}(U)+(1-\lambda)f_{div}(U)\)。质量项用 DCLM、Edu、Wiki 三种分类器分之和；多样性项在 pair-wise 相似度、facility location、DiSF 之间消融。实验发现 FineWeb 上 DiSF 与质量分冲突最大（负作用），pair-wise 相似度配 \(\lambda\in[0.1,0.5]\) 最佳。其本质是把质量分当作奖励注入多样性优化，从而在去冗余的同时保住高质量样本。

4. 工程加速三件套：让万亿 token 真的跑得动。（一）质量感知剪枝 + 初始化——先按质量分滤掉最差 40–50% 样本避免选出极低质量数据，并令初始采样概率正比于质量分，既提性能又加速收敛；（二）分块更新——平台无法一次加载上亿文件，随机切成 100 万样本的子集（远大于 DiSF 的 1024）；（三）批更新——每步只随机取 5–10% 样本更新 logits，不仅大幅省时，引入的随机噪声还能跳出局部最优、收敛到更好的分数。组数 \(G\) 推荐 128/256（太小发散、太大费算力）。这套组合把 DiSF 求解从贪心的 78 小时压到约 50 分钟。

实验关键数据¶

主实验表格¶

12 个任务三大类能力平均分（1.5B dense 训 400B tokens / 7B MoE 训 300B tokens）：

语料	1.5B Avg	vs FineWeb	7B MoE Avg	vs FineWeb
FineWeb（原始）	44.9	—	50.7	—
FineWeb-Semdedup（纯多样性）	43.8	-1.1	50.0	-0.7
FineWeb-Edu（质量）	46.8	+1.4	51.2	+0.5
UltraFineWeb-en	45.8	+0.9	49.5	-1.2
FineWebPro	47.2	+2.3	51.4	+0.7
FineWeb-DCLM	46.9	+2.0	52.2	+1.5
FineWeb-Mask（本文）	48.1	+3.2	52.6	+1.9

12 任务中胜出数：1.5B 模型 6/12（最高），7B MoE 4/12（最高）；相比最强 baseline 仍 +0.9%（dense）/+0.4%（MoE）。

消融实验表格¶

维度	设置	结论
多样性指标	pair-wise / facility location / DiSF	pair-wise 与 facility location 优于纯质量，DiSF 因与质量冲突最大反而负作用
平衡系数 λ	1.0→0.1	推荐 λ∈[0.1,0.5]；全部配置均超原始 FineWeb，多数超 FineWeb-Edu
组数 G	32→512	G 太小训练发散，太大费算力，推荐 128/256
质量剪枝+初始化	Random→+Pruning→+Init	性能 44.3→45.0→45.1，选择时间 18h→10h→7h
批更新比例	100%/10%/5%/1%	5–10% 既省时又因噪声逃离局部最优、分数更好

关键发现¶

加速：在 DiSF 上比贪心算法快 98.9%（10 万样本从 78 小时→50 分钟）。
冲突根因：把样本聚成 1 万簇做质量×多样性热图，发现高质量和低质量区都存在语义冗余，纯多样性方法会无差别删掉高质量样本；联合学习能通过质量奖励控制侧重。
长度偏好：质量分类器（FineWeb-Edu 147%、UltraFineWeb 114%）偏好长文档，多样性方法偏好短文本（嵌入是 token 平均，长句相似度差异小）。
架构差异：UltraFineWeb 在 dense 上更好、MoE 上更差；FineWeb-Mask 在两种架构上都最优。

亮点与洞察¶

问题重述漂亮：把"集合函数难优化"的数据选择转成"学采样 logits"，一举绕开贪心算法的规模瓶颈，是把组合优化 RL 化的典型范式。
实证先于方法：先用质量初始化/联合优化的对照曲线（Figure 3）和 t-SNE 可视化讲清"质量 vs 多样性冲突"的根因，动机扎实而非堆方法。
GRPO 思想跨界：把 LLM 后训练里的分组相对优势搬到数据选择的策略梯度上压方差，迁移得自然。
真·大规模落地：不是小批量玩具实验，而是真在 15T FineWeb 上选出 1.5T 子集、用 384 GPU 训 1.5B/7B 模型验证，并开源 FineWeb-Mask。

局限与展望¶

只验证了质量+多样性两类指标的二元组合，框架声称可扩展到任意多指标，但更复杂组合留待未来工作。
超参依赖经验：λ、G、批更新比例都靠在 FineWeb 上调，换语料/换模型规模的可迁移性未充分验证（DiSF 的失效就说明指标-数据强相关）。
嵌入质量是隐含上限：多样性完全依赖 E5 文本嵌入，嵌入的长度偏置直接影响选样长度分布，嵌入本身的偏差会传导到选择结果。
绝对增益不算大：7B MoE 上仅 +1.9%（相比最强 baseline +0.4%），在更大模型/更多 token 下能否保持优势仍待观察。

评分¶

新颖性: ⭐⭐⭐⭐ — 掩码学习 + 分组策略梯度求解集合函数式数据选择，是把组合优化 RL 化的新颖且自洽的范式。
实验充分度: ⭐⭐⭐⭐ — 真在 15T 语料、1.5B/7B 双架构上验证，消融覆盖指标/λ/G/剪枝/批更新，扎实；但绝对增益有限、超参可迁移性验证偏弱。
写作质量: ⭐⭐⭐⭐ — 动机由实证驱动、图表丰富、逻辑清晰，可读性好。
价值: ⭐⭐⭐⭐ — 开源 FineWeb-Mask 与可扩展框架，对大规模预训练数据配方有直接工程价值。