跳转至

How to Train Data-Efficient LLMs

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=yKUbw7q1IA
代码: 待确认
领域: LLM 预训练 / 数据筛选
关键词: 数据高效预训练, 数据筛选, 质量评分, 覆盖采样, Ask-LLM, 密度采样

一句话总结

本文系统对比 22 种数据筛选策略对 LLM 预训练的影响,提出基于指令微调 LLM 直接打质量分的 Ask-LLM 和基于核密度估计做覆盖采样的 Density,发现质量筛选(Ask-LLM)即便只保留 10% 数据也能超过全量训练并收敛快 70%,而覆盖采样通常只能"追平"全量。

研究背景与动机

  • 领域现状:LLM 预训练是机器学习里数据和算力最密集的任务,但受幂律 scaling law 约束,靠线性堆数据/堆参数的回报急剧递减。已有工作(LIMA、Phi-2、D4)表明精心筛选的小数据集能让小模型超过大几十倍的 baseline,数据筛选成为突破幂律软上限的关键杠杆。
  • 现有痛点:数据筛选大致分为冲覆盖度(coverage,让模型见到全谱系主题/语言)和冲质量(quality,优选高价值样本)两类,但二者孰优、各自在什么阶段起作用,缺乏大规模公平对比——因为这种实验要在多个模型尺寸 × 多个采样率 × 多种筛选策略上反复预训练,成本极高,社区里几乎没人做过完整对照。
  • 核心矛盾便宜的覆盖启发式(如最大覆盖、聚类采样)是否足以训出 SoTA LLM?还是说昂贵的、逐样本精评质量的采样器确有不可替代的价值? 这是本文的核心研究问题。
  • 本文目标:构造两个分别纯冲质量纯冲覆盖的采样器,把它们放在质量↔覆盖光谱的两个极端,再做一次穷举式 benchmark,搞清楚覆盖、质量、采样成本在预训练不同阶段的角色。
  • 核心 idea用指令微调 LLM 的零样本推理能力直接当"质量评审"(Ask-LLM),并用核密度求和高效估计样本局部密度来做覆盖采样(Density),在 T5 系列上跑 220 次预训练 + 1100 次微调做全面对照。

方法详解

整体框架

本文把数据筛选拆成"打分 + 选样"两步:先用一个采样器给数据集每个样本算一个浮点分(衡量质量或覆盖),再用 top-k 或重要性采样(IPS)从中选出子集。两个采样器位于光谱两端——Ask-LLM 对每个样本做高度情境化的质量评估(贵,需逐样本 LLM 推理),Density 则只问"我们是不是已经采过很多相似样本了"(便宜,比聚类还快)。

flowchart LR
    A[C4 原始语料 184B] --> B{打分阶段}
    B -->|Ask-LLM: 代理LLM问yes/no| C[质量分 P_yes]
    B -->|Density: 核密度求和| D[覆盖分 score_y]
    C -->|top-k 选高分| E[质量子集]
    D -->|IPS 反密度采样| F[覆盖子集]
    E --> G[iso-compute 预训练 524B tokens]
    F --> G
    G --> H[111 项下游微调评测]

关键设计

1. Ask-LLM 质量采样:把数据评审外包给指令微调 LLM。 不再用样本在某个模型下的 perplexity 当质量代理,而是直接把候选训练样本塞进一个固定 prompt——"这段被 ### 包住的文字对预训练 LLM 是否含有 informative signal?要求格式良好、含有用世界知识、且不含有害/种族歧视/性别歧视内容。选项:yes / no"——取代理 LLM 输出 token "yes" 的 softmax 概率作为质量分:\(\text{score} = P(\text{"yes"} \mid \text{prompt})\)。这种设计绕开了 perplexity 过滤的几个典型失败模式:perplexity 会偏好缺乏上下文的样本(如有问无答)、会因常见词组合似然高而选中重复废话、又会因生僻但合法的词组合误杀小众但有价值的长尾知识。Ask-LLM 借助 LLM 的推理与上下文理解能识别这些情况;更关键的是,它用 LLM 做"质量评判"而非"似然估计",因此摆脱了 perplexity 过滤器的分布内偏置(perplexity 是按打分模型自己的训练数据做决策,而非按待采样数据集)——这一点即使 Ask-LLM 与 perplexity 用同尺寸模型也成立,实验也证实两者打分零相关。

2. Density 覆盖采样:用核密度求和估计局部密度再反向采样。 直觉是数据分布本身就是强覆盖信号——高概率区是有大量近重复的"原型"样本,低概率区是离群/稀有/独特输入;要最大化主题覆盖,就该放大欠表示区域、压制冗余高密度信息。给定嵌入数据集 \(D\) 和核函数 \(k(x,y)\),对每个样本估计密度为核求和:\(\text{score}(y) = \sum_{x \in D} k_\lambda(x, y)\),其中带宽 \(\lambda\) 控制点的影响尺度。朴素求和是 \(O(N^2)\),本文借助算法社区的近似哈希技巧把复杂度降到 \(O(N \log N)\)。与 D4 的聚类做法不同,Density 不聚类、而在模型潜空间(而非 n-gram 的 Jaccard 距离)上直接做密度估计,并采用有更强理论保证(Theorem C.2)的两遍采样算法。最终 Density 用 IPS(重要性采样,按密度倒数采样)来最大化覆盖——作者实验发现 top-K/bottom-K 不维持覆盖、表现很差。

3. iso-compute 公平评测协议:固定训练 token 数而非固定 epoch。 低采样率会得到极小数据集,若按固定 epoch 训练会让"采少量高质量可重复 token"的方法吃亏。本文统一在 iso-compute 设定下训练——所有模型都恰好训 524B token,小采样率意味着更多 epoch 重复。这给每种筛选方法同等机会发挥,既不惩罚采少量高质量可重复 token 的方法,也不偏袒采大量不重复 token 的方法,从而让 22 种采样器的对比建立在公平算力预算之上。

4. Effective Model Size 归一化指标:把 111 个异质任务压成一个可比数。 111 个下游任务对数据/模型优化的响应速率各不相同,难以用单一指标概括。受 scaling law 文献启发,本文定义 Effective Model Size:基于"参数量 vs 下游评测"趋势的参数化拟合做外推,回答"若某技术带来 x 性能,不用该技术时需要多大的 LLM 才能达到同样的 x"。这把"性能提升"翻译成"等效模型尺寸",让覆盖/质量/成本的权衡有了统一可读的量纲。

实验关键数据

主实验表格

T5-Large 固定采样到约 10%(18B token)后 iso-compute 预训练 524B token,对比各采样器(节选自 Table 1,Effective Model Size 越大越好):

Sampler # Tokens Effective Model Size GLUE SuperGLUE MMLU BBH
全量 T5-Large 184B 800M 88.2 82.5 40.7 33.6
Random 18B 713M 88.4 82.3 41.8 33.6
Density 18B 802M 88.0 80.5 42.6 35.5
Prototypes 18B 423M 87.7 80.5 36.7 33.0
Perplexity (Small) 18B 301M 87.6 80.2 36.8 33.8
DSIR 18B 476M 87.3 81.7 39.8 33.3
Q-Classifier 18B 797M 88.7 83.6 40.5 35.0
Ask-LLM (Gemma-7B) 18B 1.5B 88.2 82.5 44.2 37.1

只用 10% 数据,Ask-LLM (G.7B) 把 800M 的 T5-Large 训到等效 1.5B 模型的水平,几乎翻倍;而 Density 等覆盖法约等于"追平"全量(802M),perplexity 过滤反而严重退化(301M)。

消融 / 成本表格

训练与打分的 accelerator-hour 成本(Table 2,30 次运行平均):

指标 (Accelerator-Hr) T5-XXL T5-XL T5-Large T5-Base T5-Small
Scoring Cost (C4) 49.0 10.0 1.7 0.76 0.24
Training Cost (C4) 24.0 9.3

以 Ask-LLM-T5-XL 打分训 T5-Large 为例:Figure 1 显示可保守地砍掉 44% 训练预算而性能不掉,成本约 \(56\% \times 24 + 10 \approx 23.44\) 加速器小时,对比全量 24 小时仍有净收益,且打分成本可摊销复用。

关键发现

  • 推理改善效率:Ask-LLM 把 800M 模型训到 1.5B 的等效水平,持续超过同等模型容量(XL)的 perplexity 过滤和覆盖 baseline,且收敛更快(Figure 5)。
  • 质量分与 perplexity 零相关(Figure 7):prompting 给采样器注入了 perplexity 里没有的关键信息,说明"推理 + 上下文"是不可替代的成分。
  • 昂贵打分何时值得:其他采样器只在大采样率(≥60%)才接近 Ask-LLM;在低数据区间 Ask-LLM 显著领先。故 LLM 级过滤最划算的两个场景是——(i) 提升全量上限(靠去掉最低质量数据推高天花板);(ii) 低数据区(只留最高质量数据带来最大增益)。
  • 覆盖 vs 质量:覆盖采样通常能"恢复"全量训练性能,但质量过滤(Ask-LLM)能"超过"它。

亮点与洞察

  • 用一次穷举式大规模对照(22 采样器 × 多尺寸 × 多采样率,220 预训练 + 1100 微调)正面回答了"便宜覆盖启发式 vs 昂贵质量评审"这个长期悬而未决的问题,结论清晰且可操作。
  • Ask-LLM 的精髓在于把"质量"从似然估计重定义为"LLM 的推理判断",从而摆脱 perplexity 的分布内偏置——这一视角解释了为何同尺寸模型下两者打分仍零相关。
  • Effective Model Size 与 iso-compute 是两个很扎实的方法论贡献:前者让异质多任务可比,后者让不同采样率的对比公平,二者使结论更可信。

局限与展望

  • 实验主体是 T5-style 编码器-解码器模型(60M / 800M)和 C4 数据集,未验证在 decoder-only 大模型、万亿 token、多语料混合下结论是否同样成立。
  • Ask-LLM 需对每个样本做一次 LLM 推理,打分成本随数据规模线性增长;虽可摊销,但在超大语料上仍是显著开销,文中也坦承其性价比依赖于"训练成本足够大到能摊平打分成本"。
  • 作者预期 chain-of-thought 等更强 prompting 能进一步提升 Ask-LLM,但本文未展开;Density 的带宽 \(\lambda\) 选择与潜空间嵌入质量对结果的敏感度也值得更深入分析。

相关工作与启发

  • 与 D4(Tirumala et al., 2023)同样假设可用预训练 LLM 的嵌入,但 Density 用核密度求和替代聚类、在潜空间而非 n-gram Jaccard 上估密度,并有更强理论保证。
  • 把 perplexity/loss 过滤统一解释为"基于模型的密度采样",把 SemDeDup、SSL Prototypes 解释为"离散化的相似度密度估计 + 离群过滤",为后续设计采样器提供了统一的"质量↔覆盖光谱"框架。
  • 对实践者的启发:在算力受限的单 epoch 区间,先用 LLM 评审去掉最低质量数据,是当前最稳的提质量+提速手段;覆盖采样更适合"省成本追平"而非"突破上限"。
  • 后续社区把 LLM 数据效率问题进一步分解为"质量过滤 + 数据混合"两个子问题(Li et al., 2024),并出现基于评分的语料重加权、多 rubric 评分聚合、用小代理 LLM 训练结果反推质量分等方向;本文的 Ask-LLM 可视为这一脉络中"质量过滤"分支的代表性起点。

评分

  • 新颖性: ⭐⭐⭐⭐ — Ask-LLM 把数据评审重定义为 LLM 推理判断、Density 用核密度做高效覆盖采样,两个采样器 + 统一光谱框架都有原创性。
  • 实验充分度: ⭐⭐⭐⭐⭐ — 22 采样器 × 多尺寸 × 多采样率,220 预训练 + 1100 微调 + 111 下游任务,规模罕见、对照公平。
  • 写作质量: ⭐⭐⭐⭐ — 研究问题清晰、图表充分、方法论(iso-compute / Effective Model Size)交代到位。
  • 价值: ⭐⭐⭐⭐⭐ — 直接回答了数据筛选领域的核心争论,对工业级数据高效预训练有强指导意义。