The Impact of Token Granularity on the Predictive Power of Language Model Surprisal¶

会议: ACL 2025
arXiv: 2412.11940
代码: GitHub
领域: 认知建模 / 计算心理语言学
关键词: token 粒度, 子词分词, 惊奇度, 认知建模, 阅读时间

一句话总结¶

系统研究子词 token 粒度（词表大小 256~128K）对 LM surprisal 预测人类阅读时间能力的影响，发现 ~8K 词表的中等粒度在自然阅读时间预测上最优（甚至优于 GPT-2），而粗粒度 token 在花园路径句法效应上更敏感，揭示认知建模的最优分词粒度并非 NLP 通用标准。

研究背景与动机¶

语言模型的 surprisal 是认知建模的核心工具。 在 Hale (2001) 和 Levy (2008) 的理论框架下，词级 surprisal（$-\log P(w_i | w_{<i})$）被广泛用作预测人类逐词处理难度的指标。近年来，Transformer 等神经语言模型被用于计算 surprisal 并与人类阅读时间进行拟合，为理解预测性语言处理提供了计算模型。

影响 surprisal 质量的因素已有研究，但 token 粒度这个基础变量被忽视。 模型架构、训练数据对 surprisal 质量的影响已被研究（Oh and Schuler, 2023; Shain et al., 2024），但子词分词的粒度——即词表大小——对认知建模能力的影响从未被系统探索过。

Token 粒度通过两条路径影响 surprisal 质量。 第一，初始偏置路径：细粒度分词（小词表）将低频长词拆成多个 token，隐式编码了词长和词频信息——例如"journey"被拆成 7 个 token 后，均匀分布下它的概率比"to"低 6 个量级。粗粒度分词（大词表）保持大多数词完整，初始概率更均匀。词长和词频恰好是影响人类阅读处理的关键变量（Barton et al., 2014; Just and Carpenter, 1980），因此某些分词方案天然更适合预测阅读时间。第二，表示质量路径：粗粒度 token 学到更接近词级共现统计的表示（类似 Word2Vec），而细粒度 token 将一个词分散到多个向量，增加了学习词间关联的难度。

方法详解¶

整体框架¶

(1) 用 Unigram LM (ULM) tokenizer 训练 11 种词表大小（256~128K）的分词器 → (2) 基于 Mamba-2 架构训练 3 种规模的语言模型 → (3) 在 5 个阅读时间语料库（10 种指标）上评估 surprisal 预测力 → (4) 在花园路径句法构造上评估句法敏感性。

关键设计¶

11 级 token 粒度的系统化控制:
- 功能：训练词表大小 $|V| \in \{256, 512, 1K, 2K, 4K, 8K, 16K, 32K, 48K, 64K, 128K\}$ 的 ULM 分词器
- 核心思路：ULM 分词器以字符为基本单元（而非 BPE 的 bytes），通过最大化子词序列的联合概率迭代剪枝词表，在 100 万 Wiki-40B 文章上训练。$|V|=256$ 接近字符级（"journey" → 7 token），$|V|=128K$ 接近词级（"journey" → 1 token）
- 设计动机：选用 ULM（而非 BPE）因为字符比 byte 更可解释；覆盖从 256 到 128K 的极宽范围以全面映射粒度-质量关系
Mamba-2 架构解决序列长度不可比问题:
- 功能：用状态空间模型（SSM）替代 Transformer 训练 LM
- 核心思路：不同粒度导致同一文本的 token 序列长度差异巨大（$|V|=256$ 下序列长度可达 $|V|=128K$ 的数倍）。Transformer 的 self-attention 有 $O(n^2)$ 空间复杂度，对长序列不友好。Mamba-2 基于 SSM 的线性复杂度天然适合处理变长序列。训练 Small/Medium/Large 三种规模：6/12/24 层，256/512/768 维嵌入，参数量 2.6M/19.8M/88M（不含嵌入层）
- 设计动机：若用 Transformer 并设固定最大长度，不同粒度的 LM 会条件于不同量的上下文，破坏实验公平性
Whitespace 概率修正:
- 功能：修正从 subword token 概率推导词概率时的归一化问题
- 核心思路：ULM 分词器在 token 前添加空格前缀，朴素计算词概率时所有词概率之和可能超过 1（因为未标记词的结束位置）。应用 Oh and Schuler (2024) 的修正方法，将空格概率重新分配给前一个 token
- 设计动机：确保词级 surprisal 在概率论上正确

损失函数 / 训练策略¶

标准 causal LM 目标（next-token prediction）。在 Wiki-40B 英文完整训练集上训练一个 epoch（5,152,219 个训练样本，10,063 个 batch × 512 样本），使用 AdamW 优化器（最大学习率 $10^{-3}$，cosine 退火至 $10^{-5}$），梯度裁剪 norm=1，半精度训练（48GB RTX 8000 GPU）。

实验关键数据¶

主实验——自然阅读时间预测（ΔLogLik 越高越好）¶

阶段	最优词表	ΔLogLik	最差词表	ΔLogLik	GPT-2 Small
训练前（纯分词器）	$	V	=4K$	2553	$
训练后（Small 平均）	$	V	=8K$	最高	$
训练后（Large 平均）	差异缩小	—	—	—	—
训练后（三尺度平均）	**$	V	=8K$**	最优	$

花园路径实验（GPE 越大=越敏感）¶

句法构造	粗粒度（大词表）趋势	细粒度（小词表）趋势	说明
MV/RR（主动词/关系从句）	GPE 更大（~6ms, Small）	GPE 更小（~2ms, Small）	粗粒度优势明显
NP/S（名词短语/句子补语）	趋势类似但弱	—	构造间差异
NP/Z（名词短语/不及物）	趋势类似但弱	—	构造间差异
人类实际效应	—	—	所有 LM 低估 1-2 个量级

关键发现¶

纯分词器（无训练）的 surprisal 已能预测阅读时间：$|V|=4K$ 时 ΔLogLik≈2553，仅靠分词器编码的词长/词频信息即提供显著预测力
训练后 ~8K 词表综合最优：在 5 个语料库×10 种阅读指标上平均，甚至超越 GPT-2 Small（$|V|≈50K$）
模型大小与粒度存在交互：大模型（88M 参数）能部分克服初始偏置，不同粒度间差异缩小
最优粒度因任务而异：自然阅读偏好中等粒度（8K），花园路径偏好粗粒度（大词表）——因为词级共现统计更有利于学习句法关系
困惑度与认知建模质量不完全对应：大词表困惑度更低但 ΔLogLik 不一定更高

亮点与洞察¶

揭示被忽视的关键变量：分词粒度不仅影响 NLP 性能，更深刻影响模型作为认知模型的质量——此前从未被系统研究
实验设计的全面性：11 粒度 × 3 模型规模 × 5 语料库 × 10 阅读指标 + 花园路径实验，覆盖面极广
纯分词器即可预测阅读时间：这一发现说明人类阅读处理对词长/词频极其敏感，分词器隐式地编码了这些信息
Mamba-2 架构选择：巧妙解决了不同粒度下序列长度不可比的实验设计难题
不同任务需要不同最优粒度：自然阅读 vs 花园路径的分离结果对认知建模实践有直接指导意义

局限与展望¶

仅在英语数据和英语母语者上验证，跨语言泛化性未知（如中文分词粒度的影响可能完全不同）
模型规模有限（最大 88M 参数），更大模型可能完全克服初始偏置使粒度不再重要
仅关注认知建模场景，不涉及 token 粒度对 NLP 应用性能的影响
花园路径仅覆盖 3 种句法构造（MV/RR、NP/S、NP/Z），构造覆盖面有限
所有模型仍大幅低估人类花园路径效应（差 1-2 个量级），分词粒度无法弥补这一根本性差距

评分¶

新颖性: ⭐⭐⭐⭐ 系统化研究被忽视的重要变量，实验设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 11粒度×3规模×5语料库×10指标+花园路径，覆盖极全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，两个实验互补，结论明确
价值: ⭐⭐⭐⭐ 对认知建模实践有直接指导，揭示的分词-认知关联有基础研究意义