Contrastive Learning on LLM Back Generation Treebank for Cross-domain Constituency Parsing¶
会议: ACL 2025
arXiv: 2505.20976
代码: GitHub
领域: 句法分析 / 跨领域迁移
关键词: Constituency Parsing, Cross-domain, LLM Back Generation, Contrastive Learning, Treebank Generation
一句话总结¶
提出 LLM 反向生成 (LLM Back Generation) 方法,将不完整的跨领域句法树作为输入让 LLM 补全缺失词生成 treebank,并设计 span 级别对比学习预训练策略,实现跨领域成分句法分析的 SOTA 性能。
研究背景与动机¶
研究问题: 跨领域成分句法分析因缺乏多领域标注 treebank 仍是未解决的挑战。现有的新闻领域 treebank (PTB) 训练的 parser 在其他领域上性能显著下降。
现有方法的不足: (1) LLM 直接进行句法分析性能很差(ChatGPT 仅 22.99% F1),因其自回归生成难以保证有效树结构;(2) Li et al. (2023) 用 LLM 生成原始文本再用 parser 标注伪 treebank,这种两阶段流水线间接利用 LLM,引入噪声和误差传播。
核心动机: 虽然 LLM 做正向句法分析(句子→树)很差,但如果反转这个过程——给定树的骨架和领域关键词,让 LLM 补全缺失的词——就能利用 LLM 的语言生成能力同时保证句法结构的有效性。
方法详解¶
整体框架¶
整体分为两个阶段:(1) LLM 反向生成 从目标领域句子中提取句法树骨架和领域关键词,掩码非关键词后让 LLM 补全生成跨领域 treebank;(2) 对比学习预训练 在生成的 treebank 上进行 span 级对比学习,训练 constituent span 表示模型,再 fine-tune 到跨领域句法分析。
关键设计¶
-
跨领域句法树准备: 首先用基础 chart-based parser 解析目标领域无标注句子的句法树(获取领域句法结构),然后用 KeyBERT 提取与原句最相似的 25% 词作为领域关键词保留,掩码其余词。掩码树同时携带领域句法结构和领域词汇两个跨领域关键要素。
-
LLM 反向生成: 将掩码句法树与少量示例 (ICL demonstrations) 输入 LLM (GPT-4),让 LLM 在保持树结构不变的前提下补全缺失词,生成 \((\hat{X}, Y)\) 对。这从输入端保证了句法树的有效性,避免了 LLM 直接解析时生成无效括号结构的问题。
-
Span 级对比学习预训练: 为每个 constituent span \((i,j)\),以其左子、右子、父节点和兄弟节点作为正例(4 个),以边界相邻的无效 span 作为负例(15 个)。对比目标拉近有效 constituent span 的表示、推远无效 span,显著扩展预训练数据量(平均每棵树约 25 个 span,10K 树 → 250K 预训练样本)。
损失函数¶
对比学习损失:
其中 \(f\) 为余弦相似度除以温度因子 \(\tau\)。Fine-tune 阶段使用标准 tree-based max-margin loss。
实验¶
主实验结果¶
在 MCTB 五个目标领域上的 F1 分数:
| 方法 | Dia | For | Law | Lit | Rev | Avg |
|---|---|---|---|---|---|---|
| ChatGPT (valid) | 70.38 | 70.36 | 80.70 | 74.74 | 69.08 | 73.05 |
| GPT-4 (valid) | 77.64 | 76.27 | 84.49 | 79.58 | 75.63 | 78.72 |
| Kitaev & Klein (2018) | 86.10 | 86.92 | 92.07 | 86.28 | 84.32 | 87.14 |
| Li et al. (2023) | 87.59 | 87.55 | 93.29 | 87.54 | 85.58 | 88.31 |
| Natural Corpus + CTPT | 87.33 | 87.80 | 92.54 | 86.91 | 84.35 | 87.79 |
| LLM Back Gen + CTPT | 87.92 | 88.13 | 93.22 | 87.50 | 85.86 | 88.52 |
消融实验¶
| 掩码率 | DAPT | NOPT | CTPT |
|---|---|---|---|
| 0% (自然语料) | 87.15 | 87.38 | 87.79 |
| 25% (最佳) | 87.39 | 87.81 | 88.52 |
| 50% | — | — | 88.2 (约) |
| 100% | — | — | 87.8 (约) |
| 预训练策略 | Avg F1 |
|---|---|
| DAPT (Domain Adaptive) | 87.15 |
| NOPT (No Pre-training) | 87.38 |
| CTPT (Contrastive) | 87.79 |
关键发现¶
- LLM 反向生成的 treebank 在所有预训练策略下均显著优于自然语料 treebank,表明反向生成有效引入了目标领域句法多样性。
- 25% 掩码率效果最佳——保留足够领域关键词引导 LLM,同时给予足够自由度引入变化。掩码率过高会导致生成偏离目标领域。
- 对比学习预训练 (CTPT) 收敛速度显著快于 DAPT 和 NOPT(600 步 vs 1000 步),且最终性能最高。
- 仅需 8K 棵树即可达到性能饱和,span 级对比学习有效放大了有限数据的价值。
亮点¶
- 巧妙地反转了句法分析任务方向:利用 LLM 的语言生成优势而非其不擅长的结构预测能力。
- 首次将对比学习引入成分句法分析,span 级设计显著放大训练数据量。
- 正/负例的构造紧密结合句法树的层次结构特性,语言学动机清晰。
局限性¶
- 仅在英语 MCTB 数据集上验证,缺乏其他语言的跨领域句法 treebank 进行多语言验证。
- 依赖 GPT-4 进行反向生成,其他 LLM(ChatGPT、LLaMA-3)多数无法生成有效句法树或错误率高。
- 在法律和文学等长句/正式领域表现略弱于 Li et al. (2023),可能因单一 parser 处理全部领域需要平衡不同分布。
相关工作¶
- 跨领域句法分析: Yang et al. (2022) 标注了多领域 treebank MCTB;Li et al. (2023) 用 LLM 生成目标领域原始文本再伪标注。
- LLM 用于句法分析: Bai et al. (2023) 全面评估了 ChatGPT/GPT-4/LLaMA 的句法分析能力,证明直接标注效果差。
- 对比学习: SimCSE (Gao et al., 2021) 在句子表示中引入对比学习;本文首次将其移植到 span 级别的句法分析任务。
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 8 |
| 实用性 | 7 |
| 实验充分度 | 8 |
| 写作质量 | 8 |
| 总体评分 | 7.5 |