Can LLMs Interpret and Leverage Structured Linguistic Representations? A Case Study with AMRs¶
会议: ACL 2025
arXiv: 无
代码: 无
领域: LLM / NLP
一句话总结¶
本文系统评估了 LLM 利用抽象语义表示(AMR)进行下游任务的能力,发现 AMR 增强的 prompt 在长上下文任务(如对话摘要)中显著提升 Llama 3.1 零样本性能(余弦相似度从 66% 提升至 76%),但在短上下文任务中通常会降低性能。
背景与动机¶
- LLM 在 NLP 任务中表现突出但理解深度存疑:LLM 在翻译、摘要等任务上表现优异,但其是否能从结构化语义表示中提取和利用信息仍不明确。
- AMR 在传统方法中的有效性已被验证:抽象语义表示(AMR)在结构感知 NLP 任务中已被证明能有效增强推理能力,尤其在长上下文场景中。
- 现有方法依赖架构修改:先前利用 AMR 的工作大多通过修改模型架构(如 text-graph attention、图 Transformer),增加了复杂度且难以泛化。
- 直接评估 LLM 理解 AMR 的研究缺失:尚无工作系统地评估通用 LLM 直接解读线性化 AMR 的能力,以及这种能力在不同任务类型中的变化。
- Prompt 工程的新方向:将结构化语义信息融入 prompt 是一种低成本、无需修改模型的增强策略,但其效果边界尚未被系统探索。
- 长短上下文任务的差异化需求:不同长度上下文的任务可能从结构化表示中获益不同,需要细粒度的实验分析。
方法详解¶
AMR 构建与线性化¶
- 使用 IBM 的 transition-based neural parser(AMR3-structbart-L 和 doc-sen-conll-amr-seed42 模型)将文本解析为文档级 AMR 结构。
- AMR 被线性化为扁平文本表示后送入 LLM。
三种 Prompting 策略¶
- Context-only(基线):仅提供原始文本上下文。
- AMR-augmented:同时提供原始文本和其对应的线性化 AMR,测试 AMR 能否辅助上下文理解。
- AMR-only:仅提供线性化 AMR 而不提供原始文本,测试 LLM 从 AMR 中直接推理的能力。
任务设置¶
覆盖 6 类任务:上下文再生(AMR-to-text)、单跳问答(SQuAD 2.0)、双跳推理(HotpotQA)、对话摘要(SAMSum)、句子级 NLI(SNLI)、文档级 NLI(DocNLI)。每个任务均进行零样本、3-shot 和 5-shot 实验。
模型¶
使用 8-bit 量化的指令微调模型:Llama 3.1 (8B)、Phi-3、Mistral 7B。对 SAMSum 还进行了 Llama 3.1 的 rank-32 LoRA 微调。
实验结果¶
AMR-to-text 再生能力(LDC2020T02)¶
| 模型 | 样本数 | 余弦相似度 |
|---|---|---|
| Llama 3.1 | 0-shot | 73% |
| Llama 3.1 | 3-shot | 80% |
| Llama 3.1 | 5-shot | 81% |
| Phi-3 | 0-shot | 74% |
| Phi-3 | 5-shot | 76% |
| Mistral | 5-shot | 76% |
LLM 能有效从线性化 AMR 重建原始文本,Llama 3.1 五样本达到 81% 余弦相似度。
SAMSum 对话摘要(Llama 3.1 余弦相似度)¶
| Prompting 策略 | 0-shot | 3-shot | 5-shot |
|---|---|---|---|
| Context-only | 66% | ~74% | ~74% |
| AMR-augmented | 76% | ~75% | ~75% |
| AMR-only | ~60% | ~70% | ~68% |
- AMR 增强在零样本场景下带来 10 个百分点的显著提升。
- 少样本设置下 AMR 增强的优势缩小但仍存在。
短上下文任务(SQuAD 2.0,Llama 3.1 F1)¶
AMR 增强在单跳 QA 中反而降低性能:3-shot 从 59% 降至 52%。AMR-only 在 3-shot 下达到 48% F1,但 5-shot 时急剧下降至 26%,表明过多 AMR 示例会干扰推理。
NLI 任务¶
Phi-3 在 SNLI 上表现最佳,AMR 增强在零样本下显著提升 macro F1(27%→39%),但少样本时 context-only 更优(82%)。
亮点¶
- 系统且全面的评估框架:覆盖 6 种任务 × 3 种 prompt 策略 × 3 种模型 × 3 种 shot 设置,实验矩阵完整。
- 关键发现具有指导意义:AMR 对长上下文有帮助、对短上下文有害的结论清晰实用,可直接指导 prompt 设计。
- LLM 确实能理解 AMR:81% 的文本重建相似度证明 LLM 对结构化语义表示有较强的解读能力。
- 可扩展到其他结构化表示:方法论框架可推广至知识图谱、话语表示结构等其他结构化形式。
局限性¶
- 未进行全量微调实验:仅做了 LoRA 微调,且效果不如少样本 prompt,缺乏全量微调的系统对比。
- 长上下文有利的解释不够深入:AMR 在长上下文中有效的根本原因(信息压缩?关键信息保留?)未做深入分析。
- 模型规模受限:所用模型均为 7-8B 级别,未探索更大模型(如 70B)上的表现。
- HotpotQA 未使用 CoT prompting:这限制了双跳推理实验的公平性和说服力。
- DocNLI 仅在部分测试集上评估:需要完整测试集验证才能得出可靠结论。
相关工作¶
- AMR-to-text 生成:Zhu et al. (2019) 利用图结构改进 Transformer 的 AMR 生成质量;Koncel-Kedziorski et al. (2022) 使用图 Transformer 从知识图谱生成文本。
- AMR 增强的 NLP 任务:Hua et al. (2023) 通过 text-graph attention 融合 AMR 改进长对话摘要;Yang et al. (2024) 在对话评估中通过门控机制融入 AMR。
- LLM prompting 技术:Wei et al. (2023) 的 Chain-of-Thought prompting;Lester et al. (2021) 的 soft prompt tuning 为未来方向。
- 参数高效微调:Hu et al. (2021) 的 LoRA 和 Houlsby et al. (2019) 的 Adapter 为结构化表示与 LLM 集成提供了可能路径。
评分¶
- ⭐⭐⭐ 新颖性:评估框架系统但不涉及新模型或新方法,更偏实证分析
- ⭐⭐⭐⭐ 实用性:结论直接可用于指导 prompt 设计和结构化信息利用策略
- ⭐⭐⭐⭐ 实验充分度:6 种任务 × 多变量的全面实验矩阵,置信区间完整
- ⭐⭐⭐⭐ 写作清晰度:结构规范,可视化丰富,方法描述明确