跳转至

Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context

信息 内容
会议 ACL 2025
arXiv 2410.16069
代码 github.com/mi-m1/dice
领域 NLP Understanding
关键词 习语理解, 对比评估, 上下文消歧, LLM 评测, DICE

一句话总结

提出 DICE 数据集(2066 句,402 个习语),通过严格控制习语形式一致的对比评测,揭示 LLM 在需要上下文理解才能消歧习语(字面 vs 比喻义)时存在系统性缺陷。

研究背景与动机

研究问题: LLM 在习语检测基准上表现优秀,但这种成功是否来自真正的上下文理解,还是仅仅利用了数据集中的表面捷径?

现有局限: 现有习语消歧数据集(如 MAGPIE)中,字面用法往往通过修改习语的语法结构(如被动化、插入修饰语)来实现,导致模型可以通过表面线索(语法变化)而非上下文理解来判断。例如"kick the bucket"的字面用法通常写成"The bucket was kicked by him",模型只需检测被动语态即可判断为字面义。

核心假设: 如果模型真正依赖上下文理解,它应该在同一个习语的字面和比喻用法上表现一致;如果模型依赖记忆,则会偏向比喻义。

方法详解

整体框架

DICE (Dataset for Idiomatic Contrastive Evaluation) 的核心设计原则:保持习语形式完全一致,仅通过改变上下文来切换字面和比喻含义,迫使模型必须依赖上下文理解来消歧。

关键设计

1. 表达式选择: 从 MAGPIE 和 SLIDE(短语习语)以及 NCTTI 和 AStitchInLanguageModels(复合名词习语)中交叉匹配,选出 402 个习语(299 个短语表达 + 103 个复合名词),覆盖范围远超以往单一类型数据集。

2. 句子生成与质量保证: - 用 GPT-4 生成习语在字面上下文中的句子(抑制比喻义),每个习语 3 句 - 经 4 位语言学专家标注验证(Cohen's κ = 0.95),仅保留字面义被准确抑制的样本 - 比喻义句子直接从 MAGPIE/AStitchInLanguageModels 中提取 - 严格平衡:每个习语的字面和比喻句子数量相等

3. 三层评估体系: - Accuracy:分别计算字面和比喻子集上的分类准确率 - Lenient Consistency:模型是否能对同一习语的所有字面/比喻实例做出一致正确预测 - Strict Consistency:最严格——模型必须同时正确分类同一习语在两种上下文中的所有变体

4. 频率与似然分析: 使用 enTenTen 语料库(520 亿词)估计习语频率,同时考察模型对句子的似然度,探索这些因素对模型表现的影响。

实验

主实验结果(Zero-shot)

模型 比喻准确率 字面准确率 整体准确率 Strict Consistency
Llama 3.1 (405B) 88.63% 88.25% 88.45% 60.36%
GPT-4o 87.05% 87.30% 84.33% 48.59%
Llama 3 (70B) 87.72% 86.13% 87.00% 57.55%
Llama 3 (8B) 79.27% 74.01% 76.91% 33.83%
GPT-3.5 Turbo 79.05% 70.02% 75.54% 32.84%
Flan-T5-XXL (11B) 77.18% 74.91% 76.40% 32.92%
Flan-T5-Small (80M) 0.51% 66.72% 50.13% 0.00%

One-shot 结果对比

模型 Zero-shot 整体 One-shot 整体 Strict (0-shot) Strict (1-shot)
GPT-4o 84.33% 89.72% 48.59% 63.52%
Llama 3.1 (405B) 88.45% 89.53% 60.36% 63.27%
Flan-T5-XXL 76.40% 52.79% 32.92% 1.49%

关键发现

  • 从准确率到严格一致性的剧烈下降: 即使最强模型 Llama 3.1 (405B) 的严格一致性也仅 60.36%,说明模型不能可靠地同时处理同一习语的两种用法
  • 系统性偏向比喻义: 多数模型在 Lenient Consistency 中,比喻一致性显著高于字面一致性,说明模型倾向于将遇到的习语默认判断为比喻用法
  • GPT-4o 的高准确率是虚假的: 其 84.33% 的准确率掩盖了仅 48.59% 的严格一致性,说明其成功更多来自广覆盖而非深理解
  • One-shot 帮助有限且不一致: GPT-4o 和 Llama 3.1 受益于 one-shot,但 Flan-T5 系列反而退步严重
  • 频率非万能: 高频习语更可能被正确识别,但在字面和比喻设置之间存在性能权衡
  • 句子似然度与性能正相关: 模型认为更"可能"的句子上表现更好,暗示依赖分布匹配而非理解

亮点

  • 首个严格控制习语形式一致性的对比评测数据集,彻底堵住了表面线索捷径
  • 同时覆盖短语习语和复合名词习语,范围远超既有数据集
  • 三层评估体系(Accuracy → Lenient → Strict)逐步剥离模型的虚假能力
  • 引入频率和似然度分析,从多角度解释模型成败原因

局限性

  • 字面义句子由 GPT-4 生成,可能存在分布偏差(GPT-4 在该数据集上的表现需谨慎解读)
  • 比喻义句子来自已有数据集,平均长度(28.1 词)显著长于字面义句子(15.4 词),长度差异本身可能影响模型判断
  • 仅评估了英语习语,其他语言的泛化性未知
  • 未探索模型在习语理解上的改进方法(如针对性微调)

相关工作

  • 习语消歧数据集: MAGPIE(56K 样本,允许形式变化)、VNC-Tokens、IDIX、SemEval-2013、AStitchInLanguageModels、IdioTS
  • 对比评测范式: 通过最小对比对来隔离特定语言能力(如语法判断、语义理解)
  • LLM 与记忆化: Li et al. (2022) 和 Coil & Shwartz (2023) 发现 GPT-3 对习语的处理主要依赖记忆而非推理
  • 上下文 vs 记忆: Cheng & Bhat (2024) 发现移除上下文信息反而提升模型习语推理表现

评分

维度 评分
创新性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐
实验充分度 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
总分 8/10