A Systematic Study of Compositional Syntactic Transformer Language Models¶

会议: ACL 2025
arXiv: 2506.22978
代码: GitHub
领域: 自然语言处理 / 语言建模
关键词: 句法语言模型, 组合性, 成分句法树, Transformer, 句法泛化

一句话总结¶

本文提出了一个统一框架，系统性地研究组合句法Transformer语言模型（SLM）的四个关键设计维度（树的形式、线性化策略、组合函数、子成分遮掩），涵盖了已有模型和13个新变体，并通过语言建模、句法泛化、摘要、对话和推理效率五个维度的全方位实验，得出了SLM设计的多条推荐建议。

领域现状: Transformer语言模型虽然强大，但缺乏句法结构的归纳偏置。句法语言模型（SLM）通过将句法解析树与表面句子联合建模来引入句法偏置，在句法泛化和下游任务上展现了潜力。

现有痛点: 现有的组合SLM（如Transformer Grammars、GPST等）在树的形式、线性化方法、组合函数和注意力遮掩方案上有不同选择，但这些设计维度对SLM性能的具体影响缺乏系统性研究。

核心矛盾: 不同的组合SLM在各自的实验设置下报告性能，缺乏公平可比的统一评估，研究者无法清楚哪些设计选择真正关键。

本文目标: 系统识别组合SLM的关键设计维度，构建统一框架，并在统一条件下全面评估16个变体的表现，给出设计建议。

切入角度: 将四个二选一的设计维度（二叉/非二叉树、自顶向下/自底向上线性化、内部/外部组合函数、遮掩/不遮掩子成分）组合为2⁴=16个变体，并在相同数据/参数规模下训练评估。

核心 idea: 通过统一框架对16个组合SLM变体进行系统实验比较，揭示了各设计维度的独立和交互效应，提出了"不建议子成分遮掩、推荐外部组合函数+二叉树"等设计准则。

组合SLM将句子x和成分句法树y联合建模，通过动作序列a自回归地生成线性化的(x,y)。框架在四个维度上提供两种选择，共产生16个变体，统一用Transformer实现。

解析树二叉化（Binary vs Non-binary）
- 功能：决定建模的树是原始非二叉树还是经Chomsky标准形式转化的二叉树
- 核心思路：非二叉树保留语言学结构但组合困难，二叉树简化组合但增加树深度
- 设计动机：二叉树在实践中更便于学习有效的组合表示
线性化策略（Top-down vs Bottom-up）
- 功能：确定如何将树结构转换为动作序列
- 核心思路：自顶向下用前序遍历，自底向上用后序遍历。自底向上序列更短（无需"("动作）
- 设计动机：自底向上对非二叉树引入了新的起始位置预测问题，是本文首次研究的组合
组合函数（Internal vs External）
- 功能：决定如何计算成分的组合表示
- 核心思路：内部组合（In）复用Transformer自身参数，通过注意力遮掩实现；外部组合（Ex）用独立的小Transformer模块
- 设计动机：内部组合实现简单但存在感受野限制，外部组合有额外参数但表达力更强

模型	PPL†(↓)	句法泛化SG(↑)	Xsum R-AVG(↑)	DailyDialog R-AVG(↑)
GPT2-token	17.31	64.1	18.82	10.38
GPT2-tree	19.97	73.1	20.88	11.04
Bi-Up-Ex-Nm	20.51	80.1	20.33	10.59
Bi-Up-Ex-M	24.15	82.4	16.02	9.04
Bi-Up-In-Nm	19.99	77.5	20.29	9.51
Nb-Dn-In-Nm	18.11	78.1	20.81	10.40

设计维度	语言建模偏好	句法泛化偏好	下游生成偏好
遮掩 vs 不遮掩	Nm >> M	Bi: M > Nm; Nb: Nm > M	Nm >> M
内部 vs 外部	In > Ex	Bi-Ex > Bi-In	差异不大
二叉 vs 非二叉	Nb-In略优	Bi >> Nb(外部组合时)	差异不大