Anything Goes? A Crosslinguistic Study of (Im)possible Language Learning in LMs¶

会议: ACL 2025
arXiv: 2502.18795
代码: GitHub
领域: 计算语言学 / 认知科学
关键词: 不可能语言, 语言类型学, 语言模型认知, GPT-2, Greenberg Universal 20

一句话总结¶

在12种语言上训练GPT-2 small，系统性测试语言模型是否能区分可能语言(自然语言)与不可能语言(打乱词序等)，发现LM展现出部分类人的学习偏向但并非完美——能在单语言内区分但无法跨语言完全分离，而名词短语词序实验中泛化测试(而非困惑度)能反映类型学偏好。

研究背景与动机¶

领域现状：关于LLM能否作为人类语言习得的认知模型，学界争论激烈。支持者认为LLM的语言能力可以反映人类语言理论，反对者(如Chomsky等)认为LLM与人类认知机制根本不同，能学习任何任意输入，因此其成功对理解人类语言毫无意义。

现有痛点：Kallini等(2024)首次在英语上证明GPT-2能区分可能与不可能语言，但研究仅限于英语，结论能否跨语言泛化未知。此外，对类型学上未证实(但可能存在)的语言的学习行为也未探索。

核心矛盾："anything goes"假说（LLM对所有语言一视同仁）vs LM实际展现的偏好是否与人类一致。

本文目标：(1) LM是否能跨语言区分可能vs不可能语言？(2) LM是否展现类型学偏好，即是否更容易学习类型学上常见的词序？

切入角度：构建了两个平行语料库(OPUS12: 12种语言10M词，OPUS30: 30种语言0.7M词)，确保跨语言可比性，同时引入Greenberg Universal 20的NP词序测试。

方法详解¶

整体框架¶

三组实验：(1) 单语言内比较：每种自然语言vs其不可能变体；(2) 跨语言比较：所有自然语言vs所有不可能语言是否可分离；(3) 已证实vs未证实NP词序的学习差异。

关键设计¶

平行语料库构建 (OPUS12/OPUS30):
- 功能：从5个OPUS来源构建句子对齐的多语言平行语料库
- 核心思路：OPUS12包含12种语言(4个语族)，英语部分约10M词(相当于儿童2-5岁的输入量)。OPUS30包含30种语言，用于测试集。平行语料确保不同语言的内容(信息量)一致，从而隔离语言形式特征对可学习性的影响
- 设计动机：现有研究多用非平行语料，不同语言文本的信息量差异会混淆可学习性的比较
不可能语言构造:
- 功能：对每种自然语言生成多种"不可能"变体——确定性打乱(3种seed)、局部窗口打乱(w=2,3,5,10)、完全逆序、奇偶重排
- 核心思路：打乱操作是确定性的，即原始语言可通过逆变换恢复。如果LM只是通用模式匹配器(如反对者所声称)，应能同样好地学习这些变体
- 设计动机：选择打乱操作因为(a)它们被Kallini等认定为"最不可能"的语言类型；(b)人类研究也表明人类对规则化有强烈偏好
NP词序泛化测试 (ΔGenScore):
- 功能：提出ΔGenScore指标，测试在不同NP词序上训练的模型的泛化能力
- 核心思路：\(\Delta\text{GenScore} = \text{GenScore}_{\checkmark} - \text{GenScore}_{\times}\)，比较在自然语言上训练的模型与在非自然词序上训练的模型，哪个能更好地泛化到对方的测试数据。ΔGenScore > 0 表示自然语言模型有更好的泛化能力
- 设计动机：困惑度在NP词序实验中无法区分自然vs非自然（因为规范化的NP实际上更规则、熵更低），但泛化测试可以揭示模型的内在偏好

损失函数 / 训练策略¶

每种语言独立训练GPT-2 small，使用各语言预训练的BPE tokenizer(约50k词表)。每种配置3个随机种子，最大1200训练步，120步warmup。评估使用几何均值困惑度(在10K句子平行测试集上)。

实验关键数据¶

主实验¶

实验1(单语言内)：12种语言中除意大利语外，所有自然语言的困惑度均低于其不可能变体。

语言	自然语言困惑度	最近不可能变体困惑度	差异显著？
英语	~15	~17 (shuffle_local w=2)	是
中文	~8	~10 (shuffle_local w=2)	是
阿拉伯语	~35	~37 (shuffle_local w=2)	是
意大利语	~20	~19.5 (shuffle_local w=2)	否(p=0.353)

实验2(跨语言)：线性SVM分类器的macro F1 = 0.75，说明无法完全分离。

消融实验¶

实验3(NP词序)——ΔGenScore分析：

NP词序变体	类型学状态	英语ΔGenScore	中文ΔGenScore
Nnda	未证实	+正向(一致)	+正向(一致)
anNd	未证实	+正向(一致)	+正向(一致)
daNn	少量证实	+正向	+正向
dnaN(≈英语)	大量证实	+正向	+正向
dnNa(≈意大利语)	大量证实	混合	+正向

关键发现¶

局部打乱(小窗口)比全局打乱更难区分：shuffle_local(w=2)的困惑度最接近自然语言，某些语言(意大利语)甚至无法区分
跨语言无法完全分离：部分不可能语言(如英语shuffle_local w=3)的困惑度低于某些自然语言(如俄语、阿拉伯语)
困惑度与TCW(每词token数)的相关性不显著(ρ=0.564, p=0.076)，说明形态复杂度不是困惑度差异的主要原因
ΔGenScore能区分类型学偏好：未证实词序(Nnda, anNd)一致产生正向ΔGenScore，说明模型在自然词序上训练后泛化更好

亮点与洞察¶

温和立场的实证支持：LM既不是"anything goes"的万能学习器，也不完全具备类人的学习偏向——它们在连续体中某处
困惑度vs泛化测试的分离现象：困惑度作为衡量标准可能不够敏感（受文本熵影响），泛化测试(minimal pair)更能揭示内在偏好
constituency保持假说：保持短语结构的打乱比破坏短语结构的打乱更容易学习，解释了NP内部打乱困惑度低于全局打乱的原因
多语言平行语料方法论：通过构建内容一致的平行语料控制了信息量变量，是跨语言可学习性比较的方法论贡献

局限与展望¶

仅使用GPT-2 small，更大模型可能表现不同
训练数据仅10M词，相对较小
NP词序实验仅覆盖4种有constituency parser的语言
平行语料可能包含噪声，未做人工检查
未探索count-based grammar等其他不可能语言类型

评分¶

新颖性: ⭐⭐⭐⭐ 首次将不可能语言研究扩展到12种语言，引入NP词序测试和ΔGenScore指标
实验充分度: ⭐⭐⭐⭐ 12种语言、多种打乱方式、多个分析维度，但受限于GPT-2 small
写作质量: ⭐⭐⭐⭐ 研究问题清晰，方法论严谨，讨论深入
价值: ⭐⭐⭐⭐ 对LLM作为认知模型的争论提供了重要实证，ΔGenScore方法有方法论贡献