From Data to Knowledge: Evaluating How Efficiently Language Models Learn Facts¶
会议: ACL 2025
arXiv: 2506.16912
代码: https://github.com/Jabbawukis/sample-efficiency-evaluation
领域: LLM/NLP
关键词: sample efficiency, fact learning, knowledge probing, pre-training, power law
一句话总结¶
首次直接研究事实在预训练数据中出现频次与 LLM 能否回忆该事实之间的关系,提出两种样本效率指标,发现不同架构/规模的模型在高频事实上表现相似但在低频事实上差异显著——低频事实的学习能力是区分模型样本效率的关键。
研究背景与动机¶
领域现状¶
领域现状:LLM 通过预训练存储大量事实知识,但样本效率(需要看到多少次才能学会)未被系统研究。
现有痛点:真实文本中信息遵循长尾分布,模型需要从少量出现中学习稀有事实。现有工作比较模型性能时不考虑训练数据中的频率信息。
核心矛盾:两个在相同数据上训练的模型,哪个更能从少量曝光中学习事实?
本文目标 建立事实频率→回忆能力的量化框架来衡量样本效率。
切入角度:在同一预训练数据上训练多种模型,标注每个事实在训练数据中的出现频次,用 BEAR probe 评估回忆能力。
核心 idea:样本效率应被建模为事实回忆概率关于训练曝光次数的函数——斜率 \(\alpha_m\) 越大,模型越高效。
方法详解¶
整体框架¶
Wikipedia 语料统计事实频率 -> 在同一语料上预训练多种模型 -> BEAR 知识探测 -> 按频率分桶分析 -> 计算加权准确率和幂律拟合的样本效率指标。
关键设计¶
-
事实频率统计
- 对 BEAR probe 中的每个事实三元组 (s,r,o),在训练语料中搜索 s 和 o 在同一句中出现的次数
- 使用别名和词形还原增加匹配率
- 设计动机:估计模型在预训练中"看到"某事实的次数
-
两种样本效率指标
- 加权准确率:按频率分桶,低频桶权重更高 (\(w_i = \exp(-0.05 \cdot l_i)\))
- 幂律拟合 α_m:\(F(x) = 1 - (L_0 + \frac{x_0}{(1+x)^{\alpha_m}})\),α_m 越大样本效率越高
- 设计动机:加权准确率直观但难以比较,α_m 提供单一可比指标
-
模型训练
- 在 ~5B tokens Wikipedia 上训练
- 三种架构 × 两种规模 = 6 个模型
- 保存中间检查点跟踪学习动态
- 设计动机:控制训练数据变量,只比较架构和规模的影响
实验关键数据¶
主实验 -- 按频率分桶的准确率¶
| 频率桶 | 模型A (大) | 模型A (小) | 模型B (大) | 模型B (小) |
|---|---|---|---|---|
| 1-5 次 | ~25% | ~15% | ~20% | ~12% |
| 6-20 次 | ~40% | ~30% | ~35% | ~25% |
| 21-100 次 | ~60% | ~50% | ~55% | ~45% |
| 100+ 次 | ~75% | ~70% | ~73% | ~68% |
样本效率指标 α_m¶
| 模型 | α_m | 说明 |
|---|---|---|
| 大模型 A | 0.35 | 最高效 |
| 大模型 B | 0.30 | |
| 小模型 A | 0.25 | |
| 小模型 B | 0.20 | 最低效 |
关键发现¶
- 高频事实上模型差异小(都能学会),低频事实上差异大
- 更大的模型样本效率更高:α_m 随规模增大
- 架构差异在低频事实上最明显
- 幂律函数很好地拟合了频率-准确率关系
- 样本效率在训练过程中逐步提高(通过检查点跟踪验证)
亮点与洞察¶
- 首次将事实频率与知识探测直接关联——填补了"训练数据特征→模型行为"的研究空白
- 幂律拟合提供了优雅的单一指标 α_m来比较模型效率
- 低频事实是关键鉴别因子的发现对训练数据策略有直接启示
局限与展望¶
- 频率估计方法(同句共现)可能不精确
- 仅在 Wikipedia 上训练,可能不代表多样化预训练
- 改进方向:更精确的频率估计、大规模预训练数据的分析
相关工作与启发¶
- vs Kandpal et al. (2023):他们发现 LLM 在低频实体上表现差,本文量化了"差多少"
- vs Neural Scaling Laws (Kaplan et al.):他们研究 loss 随数据量的幂律关系,本文研究事实回忆概率随频率的幂律关系
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次建立事实频率→回忆能力的量化框架
- 实验充分度: ⭐⭐⭐⭐ 控制变量充分,多架构多规模
- 写作质量: ⭐⭐⭐⭐ 指标设计精巧
- 价值: ⭐⭐⭐⭐ 对预训练数据策略和模型比较有重要启示