Subword Models Struggle with Word Learning, but Surprisal Hides It¶
会议: ACL 2025
arXiv: 2502.12835
代码: 有
领域: 其他
关键词: 词汇习得, 子词分词, 字符级语言模型, 词汇判断任务, surprisal
一句话总结¶
本文通过心理语言学的词汇判断任务(lexical decision task)揭示了使用子词(BPE)分词的语言模型在单词学习方面存在严重缺陷,而基于字符级分词的模型能轻松完成该任务;当使用 surprisal(在语境中的出乎意料程度)来评估时,这一差距被掩盖了。
研究背景与动机¶
人类在语言习得时,首先学会识别单个词汇,然后再理解支配这些词汇的语法规则。然而,当前使用语言模型(LM)来模拟语言学习者的研究中,对这一基本事实关注极少。大多数研究聚焦于语法评估或通过 surprisal 来衡量词汇学习——但 surprisal 本质上与 LM 的下一个 token 预测训练目标高度对应,这意味着用它来衡量"是否学会了词汇"可能存在循环论证的问题。
作者注意到一个关键的架构选择问题:子词分词(如 BPE)将词汇拆分成语言学和认知上都不合理的单元,这可能从根本上影响模型对"什么是一个有效的词"的学习。为了独立于语法来考察词汇学习,本文引入了心理语言学中经典的词汇判断任务——判断给定的词/非词配对中哪个是真实的英语单词。
方法详解¶
整体框架¶
研究设计了三组实验来评估子词模型和字符级模型在词汇学习上的差异: 1. 词汇判断(Lexical Decision):无语境条件下的纯词汇识别 2. Surprisal:在合理语法语境中的词汇识别 3. Anti-surprisal:在不合理语境中的词汇识别
并通过学习轨迹分析来比较词汇学习和语法学习的时间关系。
关键设计¶
-
词汇判断任务设计:使用 wuggy 工具生成最小对(word/non-word pair),非词仅在一两个音节上与真实词不同(如 sending → monding),保持音节双字母组频率和词长一致。共生成 1,000 个高频词和 1,000 个低频词的配对。对于每个配对 (w, w),比较模型在仅有空格前缀条件下对二者的 surprisal,若 -log(P(w)) < -log(P(w)) 则判断正确。
-
多模型对比设计:训练了字符级和子词级 Llama 模型三元组(参数从 0.49M 到 30M),在 BabyLM 10M 语料上训练。同时测试了 Pythia 系列(14M-1.4B,仅子词)和 GPT-2(字符/子词版本),覆盖不同规模。
-
学习轨迹分析:对数间距保存 19 个训练检查点(前 10% 训练步的 10 个 + 后 90% 的 9 个),同时在词汇判断、surprisal 和 BLiMP(语法基准)上评估,观察词汇学习和语法学习的时间关系。
损失函数 / 训练策略¶
所有模型使用标准的自回归语言模型目标函数训练,即最大化下一个 token 的对数似然。关键区别仅在于分词方式(BPE vs. 字符级)。
实验关键数据¶
主实验(词汇判断 vs. Surprisal 准确率)¶
| 分词方式 | 模型 | 参数量 | 词汇判断(高频) | 词汇判断(低频) | Surprisal(高频) | Surprisal(低频) |
|---|---|---|---|---|---|---|
| 子词(BPE) | Pythia | 14M | 66.6% | 62.5% | 90.5% | 85.5% |
| 子词(BPE) | Pythia | 1.4B | 87.8% | 81.6% | 97.9% | 97.9% |
| 子词(BPE) | Llama | 30M | 83.6% | 68.6% | 92.7% | 81.1% |
| 字符 | GPT-2 | 85M | 98.7% | 97.3% | 99.8% | 99.4% |
| 字符 | Llama | 22M | 99.0% | 93.3% | 99.8% | 94.7% |
消融实验(Anti-surprisal 条件)¶
| 分词方式 | 模型 | 参数量 | Anti-surprisal(高频) | Anti-surprisal(低频) |
|---|---|---|---|---|
| 子词(BPE) | Pythia | 1.4B | 76.5% | 84.7% |
| 字符 | GPT-2 | 85M | 98.0% | 96.3% |
| 字符 | Llama | 22M | 99.0% | 92.5% |
关键发现¶
- 字符级模型在词汇判断中接近完美(97-99%),而最大的 BPE 模型仅达 87.8%——甚至最小的字符模型(0.49M)都超过最大的 BPE 模型
- Surprisal 掩盖了差距:在有语法语境时,BPE 模型的准确率大幅提升至 90%+,与字符模型的差距缩小
- 学习轨迹分离:字符模型中,词汇学习遵循幂律曲线、先于语法学习;而 BPE 模型中,两者同步发展、形成无法分离的 S 型曲线束
- Anti-surprisal 实验中 BPE 模型出现反常现象——在不合适语境下,模型可能更偏好非词而非真实低频词,表明词汇和语法学习在子词模型中高度纠缠
亮点与洞察¶
- 核心洞察极具冲击力:一个看似基础的架构选择(分词方式)竟然从根本上改变了模型的学习路径和词汇表征能力
- 实验设计精巧:借助心理语言学的经典范式,以一种"挑战"模型的方式(不依赖训练分布内的 pattern matching)来测试词汇知识
- 与人类发展的对应关系:字符模型中"先词汇后语法"的学习顺序与人类儿童的语言习得更为相似
- 对 BabyLM 研究的重要警示:使用子词模型来模拟语言习得时,"词汇学习"的评估结果可能完全依赖于语法线索,无法独立测试
局限与展望¶
- 仅在英语上进行实验,不同书写系统的语言可能表现不同
- 字符级模型仅测试了小规模,缺乏大规模字符模型(如参数量 > 1B)的对比
- 词汇学习在人类中还涉及语义、多模态输入和交际意图,本研究仅考察了形式层面
- 未探索形态感知分词器(如 morphology-aware tokenizer)是否能缩小差距
相关工作与启发¶
- 与 Chang and Bergen (2022) 通过 surprisal 研究词汇学习不同,本文揭示了 surprisal 作为词汇评估指标的局限性
- Goriely et al. (2024) 和 Bunzeck et al. (2025) 在类似任务上的发现与本文一致
- 该发现与 LLM 无法完成字符级任务(如数 strawberry 中的 r)的研究高度吻合
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次系统性地将分词选择与词汇学习轨迹关联,核心发现具有颠覆性
- 实验充分度: ⭐⭐⭐⭐ — 多模型、多条件、多尺度的全面对比,但缺少大规模字符模型
- 写作质量: ⭐⭐⭐⭐⭐ — 论证清晰、逻辑严密、与心理语言学文献的对话充分
- 价值: ⭐⭐⭐⭐ — 对语言模型作为语言习得模型的使用提出了重要反思,对分词策略选择具有指导意义
Subword Models Struggle with Word Learning, but Surprisal Hides It¶
会议: ACL 2025
arXiv: 2502.12835
代码: 有
领域: NLP / 认知语言学
关键词: 词汇学习, 子词分词, 字符级模型, 词汇决策, surprisal
一句话总结¶
本文通过心理语言学中的词汇决策任务(lexical decision),揭示了子词(BPE)语言模型在孤立词汇识别上远不如字符级模型,而常用的 surprisal 指标因引入句法上下文掩盖了这一缺陷。
研究背景与动机¶
人类习得语言时,先学会识别单词,再理解语法。然而,现有的将 LM 作为语言习得模型的研究大多聚焦于句法层面,对隐含的"词汇学习"过程关注不足。已有的词汇学习研究主要通过 surprisal(负对数概率) 来衡量模型是否"学会"了某个词,但 surprisal 本质上衡量的是"在给定上下文中词的预期程度",与模型训练目标直接对应,无法真正揭示模型是否具备独立的词汇知识。
此外,BPE 等子词分词方法会将单词切分为语言学上不合理的子单元,从认知科学角度看并不可信。而字符级模型避免了这种先验切分,理论上应更接近人类的词汇发现过程。
本文的核心问题是:LM 是否"知道"哪些字符串是合法单词? 这比"LM 能否预测词在上下文中的出现"更基本。
方法详解¶
整体框架¶
作者设计了三种实验范式来探测模型的词汇知识,从无上下文到有上下文递进:
- 词汇决策(Lexical Decision) —— 无上下文
- Surprisal —— 合理上下文
- Anti-Surprisal —— 不合理上下文
关键设计¶
-
词汇决策任务
- 功能:给定一个真词/非词对(如 sending / monding),判断哪个是真词
- 核心思路:仅在空格符(最中性的起始 token)后计算两个词的平均 surprisal,比较大小
- 设计动机:模拟心理语言学中的强制选择词汇决策,剥离句法/语义上下文的干扰
- 用 wuggy 工具生成 1000 对高频词和 1000 对低频词的最小对
-
Surprisal 实验
- 功能:在合理句法上下文中测量真词 vs 非词的 surprisal
- 核心思路:从 OpenSubtitles 中采样包含目标词的句子,将目标词替换为匹配的非词
- 设计动机:测试"当句法上下文可用时"模型能否更好区分词与非词
-
Anti-Surprisal 实验
- 功能:在不匹配的上下文中插入真词/非词
- 核心思路:选择不包含目标词的句子,随机在位置 ≥3 处插入
- 设计动机:提供词汇上下文但不提供语义/句法线索,测试纯粹的"其他词存在"是否有助于判断
-
学习轨迹分析
- 对数间隔保存 19 个中间 checkpoint
- 同时在 BLiMP(句法基准)和词汇决策任务上评估
- 对比字符模型和子词模型中"词汇学习"与"句法学习"的时间关系
模型配置¶
| 模型 | 分词方式 | 参数量 | 训练数据 |
|---|---|---|---|
| Llama (×3) | 字符/BPE | 0.49M-30M | BabyLM 10M |
| GPT-2 (×2) | 字符/BPE | 85-97.5M | 100M words |
| Pythia (×6) | BPE | 14M-1.4B | 825GB |
实验关键数据¶
主实验——词汇决策 vs Surprisal(Table 1 摘要)¶
| 模型 | 分词 | 词汇决策(高频/低频) | Surprisal(高频/低频) | Anti-Surprisal(高频/低频) |
|---|---|---|---|---|
| Llama-0.49M | 字符 | 97.6/83.0 | 98.2/84.3 | 98.0/83.1 |
| Llama-21.9M | 字符 | 99.0/93.3 | 99.8/94.7 | 99.0/92.5 |
| GPT-2 | 字符 | 98.7/97.3 | 99.8/99.4 | 98.0/96.3 |
| Llama-30M | BPE | 83.6/68.6 | 92.7/81.1 | 83.7/76.1 |
| Pythia-1.4B | BPE | 87.8/81.6 | 97.9/97.9 | 76.5/84.7 |
| GPT-2 | BPE | 35.6/79.1 | 99.0/99.2 | 84.7/86.9 |
关键发现¶
- 字符级模型在词汇决策上接近完美(97-99%),而即使最大的 BPE 模型也只有约 88%
- Surprisal 掩盖了差距:在有上下文的情况下,BPE 模型追赶上来(>90%),但这依赖于句法信号
- Anti-Surprisal 揭示 BPE 的纠结:BPE 模型在不合理上下文中反而偏好非词,说明其词汇和句法知识不可分离
- 学习轨迹差异显著:
- 字符模型:词汇学习先于句法学习,两条曲线清晰分离
- BPE 模型:词汇和句法学习轨迹高度相关、同时发生,呈S形曲线
- BPE 模型存在高频/低频词的持续性能差距,无法通过增大模型弥合
消融实验¶
- 不同模型架构(Llama/GPT-2/Pythia)结果一致
- 模型规模扩大带来的收益在 BPE 模型上有限
- 训练数据量差异(10M vs 825GB)不改变字符 vs BPE 的整体趋势
亮点与洞察¶
- 方法论创新:将心理语言学的词汇决策范式引入 LM 评估,填补了"独立于句法的词汇探测"空白
- 深刻洞察:surprisal 作为评估词汇学习的指标存在根本性问题——它与训练目标直接对应,无法真正探测抽象的词汇知识
- 认知启示:字符模型的学习轨迹(先词汇后句法)更符合人类儿童的语言习得顺序
- 实证发现:BPE 分词的先验切分实际上"跳过"了词汇发现阶段,导致词汇和句法学习纠缠在一起
局限与展望¶
- 仅在英语上实验,不同书写系统/音素系统可能有不同模式
- 字符级模型仅在小规模上测试,缺乏大规模字符模型的验证
- 未涵盖词汇学习的语义/指称维度(如物体命名)
- 未探究形态学感知分词器(morphology-aware tokenizers)的表现
相关工作与启发¶
- Chang & Bergen (2022) 的 surprisal 阈值方法虽直觉,但将频繁功能词识别为"最早学会"的词,与儿童实际产出矛盾
- Le Godais et al. (2017) 早已在字符 LSTM 上观察到 ~95% 的词汇决策准确率
- 对分词方法的选择在 BabyLM / 语言习得模拟中应更加谨慎
评分¶
- 新颖性: ⭐⭐⭐⭐ — 词汇决策范式在 Transformer LM 评估中首次系统使用,视角新颖
- 实验充分度: ⭐⭐⭐⭐ — 多模型、多架构、多分词方式、学习轨迹分析全面
- 写作质量: ⭐⭐⭐⭐⭐ — 逻辑清晰,动机与实验紧密衔接,图表精美
- 价值: ⭐⭐⭐⭐ — 对理解 LM 内部词汇表征有重要意义,对 BabyLM 社区尤为关键