Dictionaries to the Rescue: Cross-Lingual Vocabulary Transfer for Low-Resource Languages Using Bilingual Dictionaries¶
会议: ACL 2025
arXiv: 2506.01535
代码: GitHub
领域: 低资源语言 / 跨语言迁移
关键词: 词汇迁移, 双语词典, BPE, 嵌入初始化, 低资源语言
一句话总结¶
本文提出一种基于双语词典的跨语言词汇迁移方法,利用BPE分词器"删除子词后回退到更短子词"的特性,通过迭代删除-重分词-对齐的过程最大化目标语言子词的映射覆盖率,在低资源语言上显著优于依赖单语语料或平行语料的现有方法。
研究背景与动机¶
跨语言词汇迁移旨在将预训练语言模型适配到新语言,是解决token过度碎片化(over-fragmentation)问题的关键技术。现有方法面临以下困境:
Wechsel:需要大量单语语料和双语词典
Focus:依赖源语言和目标语言的子词重叠,对使用不同书写系统的语言无效
UniBridge:同样依赖子词重叠,对跨脚本语言有局限
Trans-Tokenizer:需要平行语料,低资源语言通常无法获取
核心洞察:对于许多低资源语言,虽然单语语料和平行语料稀缺,但双语词典往往是可用的——这要归功于描述语言学家在语言文档化工作中的产出。词典虽然体量小,但包含了精确的词汇对应关系,可以有效地建立跨语言的子词映射。
BPE分词器有一个关键特性:当一个子词从词表中删除时,包含该子词的词会回退到更短的子词组合。本文巧妙利用这一特性,通过迭代删除已映射的子词来逐步覆盖更短的子词。
方法详解¶
整体框架¶
方法分为三步:(1) 用词典数据训练目标语言的BPE分词器;(2) 迭代对齐源语言和目标语言的子词;(3) 用对齐结果初始化目标语言子词嵌入。之后可选进行语言自适应预训练(LAPT)。
关键设计¶
-
分词器训练: 使用词典条目(目标语言词汇)训练byte-level BPE分词器。采用byte-level确保即使在有限资源下也不会出现OOV(out of vocabulary)问题。
-
迭代子词映射算法(核心创新): 重复以下四个步骤直到无新子词被映射:
- (1) 分词(Tokenization):分别用目标语言分词器和源模型分词器对词典的条目(entry)和定义(definition)进行分词
- (2) 对齐(Alignment):将条目-定义对视为平行语料,使用fast_align(基于IBM Model 2)进行子词级对齐
- (3) 映射(Mapping):基于对齐结果创建目标子词→源子词的一对多映射(type级别),记录映射计数
- (4) 删除(Removal):从目标分词器词表中删除已映射的子词及包含它们的合并规则
删除步骤的关键作用:BPE分词器默认只映射最长子词,其组成子词不会被映射。删除长子词后,BPE回退到更短片段,使得下一轮迭代可以映射这些更短的子词。
-
嵌入初始化: 对于目标子词t,其嵌入初始化为对应源子词嵌入的加权平均:
\(\boldsymbol{e}_t^T = \sum_{s \in \mathcal{M}_t} c(s|t) \cdot \boldsymbol{e}_s^S\)
其中 \(c(s|t)\) 是子词s在映射中的相对频次。特殊token、数字和标点直接从源模型复制。未映射的子词使用UNK token嵌入(Llama 3则随机初始化)。
-
与现有方法的差异:
- 与Trans-Tokenizer的区别:使用子词级对齐(因为词典条目短),而非词级对齐;通过迭代删除估计更短子词的映射
- 与Focus的区别:使用词典训练的映射,而非子词重叠+FastText静态嵌入
- 与Wechsel的区别:不需要大量单语语料
损失函数 / 训练策略¶
- MLM(掩码语言模型):微调所有层用于NER下游任务
- CLM(因果语言模型):训练顶部和底部各两层,使用LoRA
- 采用multi-token prediction提升训练效率
- LAPT最多使用3000个样本
实验关键数据¶
NER性能——Micro F1(表3)¶
| 模型 | 德语 | 日语 | 古英语 | 维吾尔语 | 梵语 | 高棉语 | 满语 |
|---|---|---|---|---|---|---|---|
| RoBERTa | 89.61 | 75.33 | 62.39 | 38.73 | 51.48 | 27.58 | 73.52 |
| XLM-R | 90.27 | 81.28 | 37.59 | 28.30 | 48.85 | 34.78 | 65.32 |
| Focus(XLM-R)+LAPT | 90.00 | 77.46 | 37.57 | 37.16 | 12.33 | 12.33 | 28.03 |
| Ours(RoBERTa)+LAPT | 76.43 | 73.60 | 52.71 | 64.52 | 42.08 | 62.96 | 92.87 |
| Ours(XLM-R)+LAPT | 75.98 | 74.73 | 40.94 | 59.41 | 56.99 | 58.37 | 91.39 |
困惑度——Llama 3.1(表4,节选)¶
| 模型 | 德语 | 维吾尔语 | 高棉语 | 满语 |
|---|---|---|---|---|
| Llama 3.1 | 655 | 2.07×10²⁴ | ∞ | 2.30×10¹⁹ |
| Focus+LAPT | 2376 | 7.53×10²⁰ | ∞ | 1.29×10⁶ |
| Ours | 444877 | 18053 | 64508 | 144818 |
| Ours+LAPT | 88.61 | 168.43 | 4.32 | 502.02 |
数据效率对比(表5)¶
| 语言 | Focus所需词数 | 本方法所需词数 |
|---|---|---|
| 德语 | 21,582,818 | 101,997 |
| 维吾尔语 | 2,771,058 | 1,131 |
| 梵语 | 2,812,121 | 5,282 |
| 高棉语 | 1,937,229 | 5,656 |
| 满语 | 397,659 | 21,620 |
关键发现¶
- 低资源语言上大幅领先:在维吾尔语(+27.36 F1)、高棉语(+50.63 F1)、满语(+64.84 F1)上,本方法远超Focus
- 极致数据效率:仅用Focus不到10%的数据量就实现了更好的性能。维吾尔语仅需1131个词典条目
- 高资源语言上不占优:德语和日语上Focus表现更好,因为这些语言有充足的单语语料和子词重叠
- 映射覆盖率高:大多数语言的子词映射率超过85%(梵语97.27%),只有满语较低(77.35%)
- 困惑度改善惊人:高棉语从∞降到4.32,满语从10¹⁹降到502——说明嵌入初始化质量极高
- 适用语言特性:在谱系上远离英语、具有孤立语或黏着语特征的语言(维吾尔语、高棉语、满语)上效果最佳
亮点与洞察¶
- 巧妙利用BPE特性:删除子词→回退到更短子词→迭代映射的思路极为精巧,将BPE的"缺陷"变为优势
- 描述语言学的NLP价值:词典数据通常被NLP社区忽视,本文展示了即使很小的词典(如维吾尔语仅1131条)也能产生巨大价值
- 数据效率的极端体现:用几千个词典条目替代数百万词语料,对真正的低资源场景意义重大
- 方法的通用性:适用于MLM和CLM两种架构(RoBERTa、XLM-R、Llama 3.1、Gemma 2),证明了方法的架构无关性
局限与展望¶
- 高资源语言上不如Focus,说明词典信息量终究有限,不能完全替代大规模语料
- 未映射的子词使用UNK嵌入(或随机初始化),可能影响极低覆盖率的语言
- 词典质量和覆盖范围直接影响性能,不同词典来源(Wiktionary vs 专业词典)的影响未探究
- 仅评估了NER和困惑度,更多下游任务(如MT、QA)的验证将更有说服力
- LAPT的数据量上限为3000样本,更大规模LAPT的影响未知
- 对多义词的处理可能不够精细(一对多映射取加权平均)
相关工作与启发¶
- Trans-Tokenizer (Remy et al., 2024):使用平行语料的词级对齐进行词汇迁移,本文的词典方法是其在低资源场景的替代方案
- Focus (Dobler & de Melo, 2023):依赖子词重叠的经典方法,本文在跨脚本语言上大幅超越
- Wechsel (Minixhofer et al., 2022):需要大量单语语料和双语词典,本文仅需词典
- ZeTT (Minixhofer et al., 2024):训练超网络零样本预测嵌入,与词典方法互补
- 启发:自然语言处理不应局限于大规模数据范式,小而精确的语言学资源在特定场景下可能更有效
评分¶
- 新颖性: 9/10 — BPE删除-回退的迭代映射策略是原创性很强的技术贡献,词典在词汇迁移中的应用也很新颖
- 实验充分度: 8/10 — 7种语言、4种模型架构、NER和困惑度双指标,覆盖面广。但下游任务种类可以更多
- 写作质量: 8/10 — 算法描述清晰,图示直观,消融分析到位
- 价值: 9/10 — 对低资源语言社区有极大实用价值,方法简洁优雅且易于实现