Pragmatics in the Era of Large Language Models: A Survey on Datasets, Evaluation, Opportunities and Challenges¶
会议: ACL 2025
arXiv: 2502.12378
领域: 自然语言处理 / 语用学
关键词: 语用学, LLM 评估, 隐含义, 言语行为, 话语连贯, 数据集综述
一句话总结¶
系统综述 58 篇文献中评估 NLP 模型语用能力的资源,按语用现象(上下文/指示语、隐含义/预设、言语行为、话语连贯、社会语用)分类,梳理任务设计(MCQ/QA/NLI/参照游戏等)和数据构建方法(自底向上/自顶向下),揭示当前评估的核心差距(英语中心偏置、单模态局限、细粒度评估不足),为 LLM 时代的语用评估提供路线图。
研究背景与动机¶
领域现状:语用学研究语言在上下文中的使用方式,是语言学的核心分支。NLP 模型从规则系统→统计模型→Transformer 一路发展,但理解非字面意义(隐含义、讽刺、间接请求等)仍是挑战。
现有痛点:(1) LLM 展现了强大的文本生成能力,但其语用推理能力(如理解会话隐含义、上下文依赖指代)评估不充分;(2) 现有评估资源分散,缺乏统一框架把不同语用现象的数据集纳入体系;(3) 随着 LLM 在真实场景部署增多,验证其语用能力对于可信人机交互至关重要。
本文目标 三个核心问题:(a) 有哪些资源可以评估 NLP 模型的语用能力?(b) 如何利用语用学指导 LLM 进步?(c) LLM 如何反过来促进语言学中语用学的研究?
切入角度:从语用现象分类→任务类型→数据构建方法→评估指标四个维度全面梳理。
核心 idea:建立语用现象-NLP任务-数据集-评估方法的多层次映射,识别关键差距并提出未来方向。
方法详解¶
整体框架¶
综述按五大语用现象组织,每个现象下梳理对应的 NLP 任务、数据集和评估方法:
- 上下文与指示语 (Context & Deixis):评估模型根据情景/语言上下文解释输入的能力
- 隐含义与预设 (Implicature & Presupposition):测试模型超越字面意义进行推理的能力
- 言语行为与意图识别 (Speech Acts & Intent):考察模型识别请求/命令/承诺等交际意图的能力
- 话语与连贯 (Discourse & Coherence):分析模型理解篇章结构和连贯关系的能力
- 社会语用 (Social Pragmatics):探索社会规范、权力关系和文化因素对语言使用的影响
关键设计¶
-
任务类型分类体系
- 功能:将现有任务归为 7 类:MCQ、QA、NLI、情感分析、图像描述、参照游戏、其他
- 核心发现:MCQ 和 QA 是最常用的评估形式;参照游戏是独特的语用评估范式(说者描述目标物,听者识别),天然测试上下文依赖交际;NLI 常用于隐含义测试(如标量隐含义的前提-假设对)
- 映射关系:语用现象与任务类型无严格一对一映射,一个现象可通过多种任务评估
-
数据构建方法学
- 功能:总结自底向上(先收集数据再标注)与自顶向下(先确定语言学标签再扩展数据)两种范式
- 自底向上:数据源包括数据库(网页/访谈)、人工收集(如参照游戏)、已有数据集;标注方式包括众包、专家和 LLM 辅助
- 自顶向下:由语言学理论驱动,如从标量对
出发用 GPT-4 生成 NLI 样本 - 关键洞察:混合方法(LLM 生成 + 人工验证)是有前景的方向,但 LLM 直接生成隐含义推理尚不可靠
-
差距分析与未来方向
- 功能:识别四大核心差距并提出解决路线
- 英语中心偏置:58 篇论文中仅 19% 涉及非英语资源
- 数据类型单一:多数数据集为纯文本或纯语音,缺少视觉/手势等多模态信息
- 任务设计局限:任务通常只评估单一语用现象,无法测试模型的整体语用能力
- 评估指标不足:自动指标(F1/BLEU/ROUGE)难以捕捉语用细微差别,需结合人工评估和心理测量方法
实验关键数据¶
语用现象覆盖分布(58 篇论文统计)¶
| 语用现象 | 涉及论文数 | 主要任务类型 | 代表数据集 |
|---|---|---|---|
| 上下文与指示语 | 17 | QA、MCQ、参照游戏 | AmbigQA, DIPLOMAT, GuessWhat |
| 隐含义与预设 | 18 | NLI、QA、MCQ | IMPPRES, PragmatiCQA, GRICE |
| 言语行为 | 11 | QA、参照游戏 | DIPLOMAT, Codenames, STAC |
| 话语与连贯 | 13 | 篇章关系解析、QA | PDTB, TED-Q, GCDC |
| 社会语用 | 8 | 情感分析、QA | Social IQa, SBF, EmoBank |
评估方法使用情况¶
| 评估方式 | 使用比例 | 适用场景 | 局限 |
|---|---|---|---|
| 自动指标(F1/Acc) | ~70% | 分类/选择任务 | 难以捕捉语用细微差别 |
| 生成指标(ROUGE/BLEU) | ~20% | 生成任务 | 无法评估语用恰当性 |
| 人工评估 | ~15% | 开放式任务 | 成本高、难以规模化 |
| 混合评估 | <5% | 综合评估 | 仍缺乏标准流程 |
亮点与洞察¶
- 首次建立语用现象-NLP 任务的系统映射:清晰展示哪些现象被充分评估、哪些存在空白
- 语用学可反哺 LLM 对齐:言语行为理论强调意义来自交互而非孤立句子,与 LLM 的交际目标高度一致;通过融入语用约束可改善 LLM 的指令跟随和歧义消解
- LLM 可促进语用学实验研究:LLM 能辅助实验刺激材料设计、数据标注预标注和假设生成,但需人工验证保证质量
- 多智能体系统需语用推理:多个 LLM agent 交互时,因缺乏真实信念状态推理,通信质量下降,语用推理能力是关键
局限与展望¶
- 综述范围主要限于 ACL Anthology,可能遗漏其他领域(如认知科学、心理学)的相关资源
- 多模态语用评估几乎空白——缺少结合语音语调、面部表情、手势的数据集
- 跨语言/跨文化视角严重不足,限制了研究的普适性
- 内在语用任务(如话语建模)未纳入讨论
- 未提供统一的语用能力评测框架或基准,仅为综述性总结
相关工作与启发¶
- 语用评估可借鉴心理测量学(如 Likert 量表、人类标注变异性分析)设计更精细的指标
- 参照游戏(Reference Games)是独特的语用评估范式,值得在更多 LLM 评估中推广
- 自顶向下的数据构建方法(从语言学理论出发 + LLM 生成 + 人工验证)可能是规模化语用数据集构建的最佳路径
- 人口统计因素对标注的影响被忽视,未来工作应在收集和评估阶段考虑标注者多样性
评分¶
⭐⭐⭐⭐
- 新颖性 ⭐⭐⭐:综述性质,贡献在系统性整理而非方法创新
- 覆盖全面度 ⭐⭐⭐⭐⭐:58 篇论文、五大语用现象、七种任务类型全面覆盖
- 写作质量 ⭐⭐⭐⭐:分类清晰、图表丰富,未来方向务实可行
- 价值 ⭐⭐⭐⭐:为 LLM 语用评估提供了重要的资源地图和研究路线图