On the Acquisition of Shared Grammatical Representations in Bilingual Language Models¶

会议: ACL 2025
arXiv: 2503.03962
代码: 无
领域: LLM / NLP理解
关键词: 跨语言迁移、双语模型、结构启动、语法表征共享、语言类型学

一句话总结¶

本文通过训练受控的小型双语语言模型，使用心理语言学中的结构启动方法（structural priming）研究跨语言语法表征的共享机制，发现跨语言结构启动效应在语言对之间呈不对称性，且对类型学距离较远的语言对（如英语-希腊语）明显减弱。

研究背景与动机¶

领域现状：跨语言迁移是当代多语言语言模型的核心能力之一——模型在英语上训练后，常常能在法语、德语等语言上也表现良好。但这种迁移是如何发生的？模型是否真的建立了跨语言共享的语法表征？这些基本问题尚不清楚。

现有痛点：现有研究多使用已经训练好的大规模多语言模型（如 mBERT、XLM-R），无法控制每种语言的数据量、接触顺序等关键变量。这使得我们无法分离出影响共享表征形成的具体因素。此外，先前的跨语言结构启动研究虽然发现了共享表征的证据，但未能控制训练数据量和语言暴露顺序这两个混淆变量。

核心矛盾：要理解跨语言迁移机制，需要严格控制的实验条件（语言数据量、暴露顺序、语言对选择），但大规模预训练模型天然缺乏这种控制。同时，需要一种能够检测"共享语法表征"的方法论，而简单的下游任务评测无法直接定位语法层面的共享。

本文目标：(1) 在严格控制条件下训练双语模型，系统研究共享语法表征的形成过程；(2) 探索语言相似性如何影响跨语言语法共享；(3) 为跨语言迁移的实际应用提供机制层面的指导。

切入角度：作者从认知心理语言学借鉴了"结构启动"（structural priming）方法。在人类研究中，如果一个人在处理被动句后更倾向于产出被动句，就说明被动句的语法结构被"启动"了。如果用语言 A 的被动句能启动语言 B 的被动句偏好，就说明两种语言共享了被动结构的表征。

核心 idea：训练受控的小型双语 GPT-2 模型，操控语言对（英-荷、英-法、英-希腊）和训练数据比例，用跨语言结构启动实验来检测共享语法表征的存在与强度。

方法详解¶

整体框架¶

实验流程：(1) 从零训练小型双语 GPT-2 模型（约 125M 参数），控制两种语言的数据比例（50:50、80:20 等）和暴露顺序（同时学习 vs 先 L1 后 L2）；(2) 构造主动/被动句对作为启动刺激和目标刺激（如英语启动句→荷兰语目标句）；(3) 比较模型在不同启动条件下对目标句被动/主动格式的概率偏好；(4) 如果心理语言学的结构启动效应在模型中被复现，则说明模型形成了跨语言共享的语法表征。

关键设计¶

受控双语模型训练方案:
- 功能：消除大规模预训练模型中的混淆因素，隔离特定自变量的影响
- 核心思路：为每个语言对（英-荷兰语、英-法语、英-希腊语）训练多个 GPT-2 模型。操控三个自变量：(a) 两种语言的数据比例（从 50:50 到 80:20）；(b) 语言暴露顺序（同时暴露 vs 先学 L1 再学 L2）；(c) 总数据量保持一致作为控制。每个条件训练多个随机种子的模型做统计检验
- 设计动机：大模型的多语言数据混合比例未知、暴露顺序不可控。只有从零训练小模型才能严格控制这些变量，获得因果性结论
跨语言结构启动范式:
- 功能：检测语言模型是否形成了跨语言共享的抽象语法表征
- 核心思路：借用心理语言学的经典范式。构造句子对：启动句（prime）是语言 A 的被动句（如英语"The cake was eaten by the girl"），目标句（target）是语言 B 的句子，观测模型是否对语言 B 的被动格式赋予更高概率。通过计算启动效应量——被动启动后目标句被动比主动的概率差值——来量化共享表征的强度。启动方向双向测试（A→B 和 B→A）
- 设计动机：结构启动是认知科学中检测共享语法表征的"金标准"方法。如果模型展现跨语言启动效应，就直接证明了语法表征的跨语言共享
三语言对的类型学梯度设计:
- 功能：研究语言类型学相似性对共享表征形成的影响
- 核心思路：选择三个与英语类型学距离递增的语言对——英语-荷兰语（同日耳曼语族，非常相似）、英语-法语（同印欧语系但不同分支）、英语-希腊语（同印欧语系但使用不同书写系统）。荷兰语与英语词序接近且文字系统相同，希腊语则使用完全不同的字母系统，词汇共享极少
- 设计动机：如果共享表征强度随类型学距离增加而减弱，就说明语言相似性是跨语言迁移的关键因素，对低资源语言的模型开发有直接指导意义

损失函数 / 训练策略¶

使用标准的自回归语言建模损失（next-token prediction）训练 GPT-2。数据来自各语言的 Wikipedia，经过清洗和 tokenization。双语数据通过简单拼接混合，使用 BPE tokenizer 为每个语言对单独训练。

实验关键数据¶

主实验 — 跨语言结构启动效应¶

语言对方向	启动效应强度	是否显著	说明
英→荷兰语	强	✅ p<0.001	最强启动效应，语言最相似
荷兰语→英	更强	✅ p<0.001	英语作为目标时效应更强
英→法语	中等	✅ p<0.01	类型学距离中等
法语→英	较强	✅ p<0.001	同样英语作为目标时更强
英→希腊语	弱	❌ 不总是显著	类型学距离最大
希腊语→英	中等	✅ p<0.05	不同书写系统影响共享

消融实验 — 数据比例和暴露顺序的影响¶

条件	英→荷启动效应	荷→英启动效应	说明
50:50 同时暴露	强	更强	基线条件
80:20（英语多）	稍弱	强	英语数据多不等于更好的共享
先英语后荷兰语	中等	强	灾难性遗忘下仍保留部分共享
80:20（荷兰语多）	较强	中等	少数语言数据比例影响有限

关键发现¶

启动效应的不对称性：所有语言对中，英语作为目标语言时的启动效应都更强。这一不对称性在控制了数据量和暴露顺序后仍然存在，暗示这可能是语法表征组织方式的固有特征，而非数据量偏差导致
语言类型学距离的关键作用：英-荷兰语的启动效应最强，英-法语次之，英-希腊语最弱。这直接证明类型学相似性——包括语法结构和正字法——决定了共享表征的形成程度
灾难性遗忘不完全消除共享表征：即使模型在先学 L1 后大量训练 L2 导致 L1 性能剧烈下降，跨语言启动效应仍可能保留，尤其在相似语言对中。这说明语法层面的共享表征比词汇层面更加稳固
对人类心理语言学的启示：模型中的不对称启动效应可以帮助解释人类双语者中观察到的类似不对称——先前解释这种不对称时无法排除数据量/接触量的混淆，控制模型实验则能排除

亮点与洞察¶

认知科学方法论引入 NLP 的典范：用结构启动这种认知科学"探针"来检测模型内部表征，比粗糙的下游任务评测更加精确和有针对性。这种方法论的跨学科移植值得广泛推广
受控小模型的因果推断优势：大模型无法控制的变量，小模型可以。虽然小模型性能弱，但它提供的因果证据比大模型的相关性证据更有科学价值。这种"用小模型做机制研究"的范式值得学习
对低资源语言模型开发的实用建议：结果表明，为低资源语言做 continual pre-training 时，选择类型学上更相似的源语言基座模型比选择最大的英语模型更有效

局限与展望¶

只检测了一种语法结构：仅用主动/被动交替来检测共享表征，其他语法结构（如双宾语交替、关系从句嵌套）未涉及
模型规模很小：125M 参数的 GPT-2 远小于实际使用的多语言模型，大模型中的跨语言表征可能有不同的动态
语言对有限：只测试了三个印欧语系语言，对于语系差异更大的语言对（如英语-中文、英语-日语）结论是否成立未知
未来可以将此方法扩展到更多语法结构和语言对，尤其是非印欧语系语言，来全面绘制跨语言共享表征的图景

评分¶

新颖性: ⭐⭐⭐⭐ 将结构启动范式引入 LM 分析是新颖的跨学科贡献
实验充分度: ⭐⭐⭐⭐ 三个语言对、多种条件、统计检验充分，但仅限一种语法结构
写作质量: ⭐⭐⭐⭐ 跨学科工作写得清晰易懂，背景交代充分
价值: ⭐⭐⭐⭐ 对多语言模型的机制理解有重要贡献，对低资源语言实践有指导意义