Contrastive Learning on LLM Back Generation Treebank for Cross-domain Constituency Parsing¶

会议: ACL 2025
arXiv: 2505.20976
代码: GitHub
领域: 句法分析 / 跨领域迁移
关键词: Constituency Parsing, Cross-domain, LLM Back Generation, Contrastive Learning, Treebank Generation

一句话总结¶

提出 LLM 反向生成 (LLM Back Generation) 方法，将不完整的跨领域句法树作为输入让 LLM 补全缺失词生成 treebank，并设计 span 级别对比学习预训练策略，实现跨领域成分句法分析的 SOTA 性能。

研究背景与动机¶

研究问题： 跨领域成分句法分析因缺乏多领域标注 treebank 仍是未解决的挑战。现有的新闻领域 treebank (PTB) 训练的 parser 在其他领域上性能显著下降。

现有方法的不足： (1) LLM 直接进行句法分析性能很差（ChatGPT 仅 22.99% F1），因其自回归生成难以保证有效树结构；(2) Li et al. (2023) 用 LLM 生成原始文本再用 parser 标注伪 treebank，这种两阶段流水线间接利用 LLM，引入噪声和误差传播。

核心动机： 虽然 LLM 做正向句法分析（句子→树）很差，但如果反转这个过程——给定树的骨架和领域关键词，让 LLM 补全缺失的词——就能利用 LLM 的语言生成能力同时保证句法结构的有效性。

方法详解¶

整体框架¶

整体分为两个阶段：(1) LLM 反向生成 从目标领域句子中提取句法树骨架和领域关键词，掩码非关键词后让 LLM 补全生成跨领域 treebank；(2) 对比学习预训练 在生成的 treebank 上进行 span 级对比学习，训练 constituent span 表示模型，再 fine-tune 到跨领域句法分析。

关键设计¶

跨领域句法树准备： 首先用基础 chart-based parser 解析目标领域无标注句子的句法树（获取领域句法结构），然后用 KeyBERT 提取与原句最相似的 25% 词作为领域关键词保留，掩码其余词。掩码树同时携带领域句法结构和领域词汇两个跨领域关键要素。
LLM 反向生成： 将掩码句法树与少量示例 (ICL demonstrations) 输入 LLM (GPT-4)，让 LLM 在保持树结构不变的前提下补全缺失词，生成 \((\hat{X}, Y)\) 对。这从输入端保证了句法树的有效性，避免了 LLM 直接解析时生成无效括号结构的问题。
Span 级对比学习预训练： 为每个 constituent span \((i,j)\)，以其左子、右子、父节点和兄弟节点作为正例（4 个），以边界相邻的无效 span 作为负例（15 个）。对比目标拉近有效 constituent span 的表示、推远无效 span，显著扩展预训练数据量（平均每棵树约 25 个 span，10K 树 → 250K 预训练样本）。

损失函数¶

对比学习损失：

\[\mathcal{L} = -\sum_{m \in (i,j)^+} \log \frac{e^{f(\boldsymbol{r}, \boldsymbol{r}_m^+)}}{\sum_{n \in (i,j)^-} e^{f(\boldsymbol{r}, \boldsymbol{r}_m^+)} + e^{f(\boldsymbol{r}, \boldsymbol{r}_n^-)}}\]

其中 \(f\) 为余弦相似度除以温度因子 \(\tau\)。Fine-tune 阶段使用标准 tree-based max-margin loss。

实验¶

主实验结果¶

在 MCTB 五个目标领域上的 F1 分数：

方法	Dia	For	Law	Lit	Rev	Avg
ChatGPT (valid)	70.38	70.36	80.70	74.74	69.08	73.05
GPT-4 (valid)	77.64	76.27	84.49	79.58	75.63	78.72
Kitaev & Klein (2018)	86.10	86.92	92.07	86.28	84.32	87.14
Li et al. (2023)	87.59	87.55	93.29	87.54	85.58	88.31
Natural Corpus + CTPT	87.33	87.80	92.54	86.91	84.35	87.79
LLM Back Gen + CTPT	87.92	88.13	93.22	87.50	85.86	88.52

消融实验¶

掩码率	DAPT	NOPT	CTPT
0% (自然语料)	87.15	87.38	87.79
25% (最佳)	87.39	87.81	88.52
50%	—	—	88.2 (约)
100%	—	—	87.8 (约)

预训练策略	Avg F1
DAPT (Domain Adaptive)	87.15
NOPT (No Pre-training)	87.38
CTPT (Contrastive)	87.79

关键发现¶

LLM 反向生成的 treebank 在所有预训练策略下均显著优于自然语料 treebank，表明反向生成有效引入了目标领域句法多样性。
25% 掩码率效果最佳——保留足够领域关键词引导 LLM，同时给予足够自由度引入变化。掩码率过高会导致生成偏离目标领域。
对比学习预训练 (CTPT) 收敛速度显著快于 DAPT 和 NOPT（600 步 vs 1000 步），且最终性能最高。
仅需 8K 棵树即可达到性能饱和，span 级对比学习有效放大了有限数据的价值。

亮点¶

巧妙地反转了句法分析任务方向：利用 LLM 的语言生成优势而非其不擅长的结构预测能力。
首次将对比学习引入成分句法分析，span 级设计显著放大训练数据量。
正/负例的构造紧密结合句法树的层次结构特性，语言学动机清晰。

局限性¶

仅在英语 MCTB 数据集上验证，缺乏其他语言的跨领域句法 treebank 进行多语言验证。
依赖 GPT-4 进行反向生成，其他 LLM（ChatGPT、LLaMA-3）多数无法生成有效句法树或错误率高。
在法律和文学等长句/正式领域表现略弱于 Li et al. (2023)，可能因单一 parser 处理全部领域需要平衡不同分布。

评分¶

维度	分数 (1-10)
创新性	8
实用性	7
实验充分度	8
写作质量	8
总体评分	7.5