Inconsistent Tokenizations Cause Language Models to be Perplexed by Japanese Grammar¶

会议: ACL 2025
arXiv: 2505.19599
代码: 无
领域: LLM预训练
关键词: 分词一致性, 日语语法, 心理谓词限制, 困惑度, byte fallback

一句话总结¶

揭示了 tokenizer 的不一致分词是导致 LLM 无法遵守日语"第一人称心理谓词限制"等细微语法规则的根本原因——当限制测试句子为一致分词时，Llama 3 的困惑度差异可改善28倍。

研究背景与动机¶

标准的 LLM 评估基准（如 MMLU、llm-jp-eval）主要测试"高层"能力（记忆、推理），而忽略了语言特定的细微能力。这对日语尤其成问题：

日语第一人称心理谓词限制¶

日语有一个独特的语法现象——描述内心状态的谓词（如"寒い/cold"、"悲しい/sad"等）直接使用时只能描述第一人称：

✅ 私は寒い（我觉得冷）—— 第一人称 + 心理谓词，合法
❌ 母は寒い（妈妈觉得冷）—— 第三人称 + 心理谓词直接形式，不合法
✅ 母は寒がっている（妈妈看起来觉得冷）—— 第三人称 + 心理谓词 + 证据标记（evidential），合法
✅ 母は寒そうだ（妈妈似乎觉得冷）—— 同上的另一种合法形式

母语者自然遵守此规则（即使不知道规则名称），但 L2 学习者和 即便 GPT-4o 这样的最先进模型也经常违反此规则。

研究问题：为什么 LLM 会违反这一规则？是数据不足还是其他系统性原因？

方法详解¶

整体框架¶

通过两类实验探究 LLM 对日语心理谓词限制的掌握：

困惑度实验：构建最小对句（合法 vs 不合法），比较模型困惑度
机器翻译实验：让模型翻译包含第三人称心理谓词的英语句子，观察是否使用证据标记

关键设计¶

模型选择：选取7-10B参数范围内的6个模型： - 多语言模型：Mistral 0.1-7B、LLaMA 2-7B、LLaMA 3-8B - 日语专调模型：Weblab-10B、Swallow-7B、Swallow-MS-7b

最小对句设计：基于语言学模板构建四类句子： - (a) 第一人称 + 心理谓词（合法） - (b) 第三人称 + 非心理谓词（合法） - (c) 第三人称 + 心理谓词 + 证据标记（合法） - (#) 第三人称 + 心理谓词 + 直接形式（不合法）

理想的 LLM 应对 (a)(b)(c) 给出低于 (#) 的困惑度。

分词一致性分析指标： - fertility 得分：token 数与字符数的比率，衡量 tokenizer 的"膨胀程度" - byte fallback 率：当 tokenizer 遇到不认识的字符时退化为字节编码的频率

模型	Fertility	Byte Fallback 率
Llama 3	0.85	0.08
Swallow	1.00	0.19
Weblab	1.23	0.66
Llama 2	1.58	0.49

损失函数 / 训练策略¶

本文不涉及模型训练。核心分析工具是句子级困惑度：

\[PPL = \exp\left(-\frac{1}{N}\sum_{i=1}^{N}\log p(t_i | t_{<i})\right)\]

使用中位数（而非均值）报告困惑度，因为不同模型的 token 概率尺度差异大，中位数对异常值更鲁棒。

实验关键数据¶

主实验¶

各模型在四类句子上的中位困惑度：

句型	Mistral	Llama 2	Llama 3	Weblab	Swallow	Swallow-MS
(#) 不合法	2.0e+04	3.3e+04	6.9e+03	2.0e+06	1.2e+03	1.9e+03
(a) 合法-1st	3.6e+04	1.2e+05	9.1e+04	6.1e+05✅	1.9e+03❌	3.2e+03❌
(b) 合法-非心理	1.8e+03✅	5.9e+03✅	4.5e+03✅	7.3e+05✅	1.2e+03✅	2.9e+03❌
(c) 合法-证据	2.0e+04✅	4.9e+04❌	3.7e+04❌	1.3e+06✅	4.1e+03❌	3.3e+03❌

🔑 核心发现：只有 Weblab 在所有三种合法句型上的困惑度均低于不合法句型。

Weblab 的反直觉成功： Weblab 使用的是未修改的英语 tokenizer，导致： - 几乎每个日语字符都触发 byte fallback（率 0.66） - 连"食べる"（吃）、"買う"（买）等小学2年级学的基本字都无法正确 tokenize - 但正因为分词一致性地差，反而避免了语法特定的分词不一致问题！

消融实验¶

Llama 3 的分词一致性实验：

以"しい"结尾的心理谓词形容词（如"悲しい/kanashii"、"寂しい/sabishii"）在 Llama 3 中与证据表达结合时会触发 byte fallback，导致概率极低。但以"い"结尾的形容词（如"痛い/itai"、"寒い/samui"）则不会。

当限制测试句子为一致分词良好的句子时： - 合法句型 (c) 的困惑度：3.7e+04 → 1.3e+03（降低约28倍） - 不合法句型 (#) 的困惑度：6.9e+03 → 3.9e+03（仅降低约1.8倍）

结论：Llama 3 的模型权重已经学到了心理谓词限制，但不一致的分词掩盖了这一能力。

机器翻译实验（翻译 "My mother is {心理谓词}"）：

心理谓词	Weblab-证据✅	Weblab-合法✅	Llama3-证据✅	Llama3-不合法❌
cold	47%	53%	0%	69%
embarrassed	90%	10%	32%	39%
lonely	0%	0%	0%	100%
pain	0%	6%	0%	100%

Weblab 在"cold"和"embarrassed"上能一致地产生证据标记
Llama 3 几乎从不使用证据标记，在"lonely"和"pain"上100%产生不合法表达
Llama 3 还会产生误译（29%）和语法错误（31%），Weblab 则不会

关键发现¶

不一致分词是根因：同一语法结构在不同词汇上的分词行为不同，导致模型困惑度不反映真实语法知识
一致性地差 > 不一致地好：Weblab 用完全不适合日语的英语 tokenizer 反而表现最好
限制分词一致时，模型展示出已学到的语法知识：Llama 3 在一致分词子集上的表现改善了28倍
byte fallback 是关键干扰因素：它使特定字符的 token 概率降低数个数量级
指令微调不能修复此问题：Llama 3 的指令版在机器翻译任务中仍大量产生不合法表达

亮点与洞察¶

语言学驱动的 AI 分析：罕见地将严格的语言学最小对方法应用于 LLM 能力诊断
"一致性地坏比不一致地好更优"：这一反直觉发现对 tokenizer 设计有深远影响
将表面性能失败归因于底层工程决策：不是"LLM 不懂日语语法"，而是"tokenizer 阻止了它展示这一知识"
GPT-4o 也犯同样错误：即使是最先进的模型也受此问题影响，暗示这不是模型规模问题
对多语言 LLM 的 tokenizer 设计提出警示：追求更高效的日语 tokenizer 可能意外引入语法特定的分词不一致

局限与展望¶

仅研究一个语法现象：心理谓词限制虽然代表性强，但日语还有许多其他细微语法规则
模型规模限制：仅研究7-10B模型，更大模型是否有同样问题未知
混杂因素多：日语训练数据量、日语数据比例、tokenizer 与训练数据的交互效应难以分离
解决方案不明确：指出问题但未提出具体的 tokenizer 改进方案
韩语有类似现象，但未做跨语言对比验证
byte fallback 既是分析工具又是混杂因素，使因果关系难以完全确立

评分¶

创新性：⭐⭐⭐⭐⭐ — 精准定位tokenizer不一致性与语法能力的因果关系，极具原创性
实用性：⭐⭐⭐ — 揭示了重要问题但未提供完整解决方案
实验充分性：⭐⭐⭐⭐ — 困惑度+翻译双重验证，一致分词消融实验设计精巧
写作质量：⭐⭐⭐⭐⭐ — 语言学背景介绍清晰，实验叙事逻辑严密