From Data to Knowledge: Evaluating How Efficiently Language Models Learn Facts¶

会议: ACL 2025
arXiv: 2506.16912
代码: https://github.com/Jabbawukis/sample-efficiency-evaluation
领域: LLM/NLP
关键词: sample efficiency, fact learning, knowledge probing, pre-training, power law

一句话总结¶

首次直接研究事实在预训练数据中出现频次与 LLM 能否回忆该事实之间的关系，提出两种样本效率指标，发现不同架构/规模的模型在高频事实上表现相似但在低频事实上差异显著——低频事实的学习能力是区分模型样本效率的关键。

领域现状：LLM 通过预训练存储大量事实知识，但样本效率（需要看到多少次才能学会）未被系统研究。

现有痛点：真实文本中信息遵循长尾分布，模型需要从少量出现中学习稀有事实。现有工作比较模型性能时不考虑训练数据中的频率信息。

核心矛盾：两个在相同数据上训练的模型，哪个更能从少量曝光中学习事实？

本文目标 建立事实频率→回忆能力的量化框架来衡量样本效率。

切入角度：在同一预训练数据上训练多种模型，标注每个事实在训练数据中的出现频次，用 BEAR probe 评估回忆能力。

核心 idea：样本效率应被建模为事实回忆概率关于训练曝光次数的函数——斜率 \(\alpha_m\) 越大，模型越高效。

Wikipedia 语料统计事实频率 -> 在同一语料上预训练多种模型 -> BEAR 知识探测 -> 按频率分桶分析 -> 计算加权准确率和幂律拟合的样本效率指标。

事实频率统计
- 对 BEAR probe 中的每个事实三元组 (s,r,o)，在训练语料中搜索 s 和 o 在同一句中出现的次数
- 使用别名和词形还原增加匹配率
- 设计动机：估计模型在预训练中"看到"某事实的次数
两种样本效率指标
- 加权准确率：按频率分桶，低频桶权重更高 (\(w_i = \exp(-0.05 \cdot l_i)\))
- 幂律拟合 α_m：\(F(x) = 1 - (L_0 + \frac{x_0}{(1+x)^{\alpha_m}})\)，α_m 越大样本效率越高
- 设计动机：加权准确率直观但难以比较，α_m 提供单一可比指标
模型训练
- 在 ~5B tokens Wikipedia 上训练
- 三种架构 × 两种规模 = 6 个模型
- 保存中间检查点跟踪学习动态
- 设计动机：控制训练数据变量，只比较架构和规模的影响

频率桶	模型A (大)	模型A (小)	模型B (大)	模型B (小)
1-5 次	~25%	~15%	~20%	~12%
6-20 次	~40%	~30%	~35%	~25%
21-100 次	~60%	~50%	~55%	~45%
100+ 次	~75%	~70%	~73%	~68%