Pragmatics in the Era of Large Language Models: A Survey on Datasets, Evaluation, Opportunities and Challenges¶

会议: ACL 2025
arXiv: 2502.12378
领域: 自然语言处理 / 语用学
关键词: 语用学, LLM 评估, 隐含义, 言语行为, 话语连贯, 数据集综述

一句话总结¶

系统综述 58 篇文献中评估 NLP 模型语用能力的资源，按语用现象（上下文/指示语、隐含义/预设、言语行为、话语连贯、社会语用）分类，梳理任务设计（MCQ/QA/NLI/参照游戏等）和数据构建方法（自底向上/自顶向下），揭示当前评估的核心差距（英语中心偏置、单模态局限、细粒度评估不足），为 LLM 时代的语用评估提供路线图。

研究背景与动机¶

领域现状：语用学研究语言在上下文中的使用方式，是语言学的核心分支。NLP 模型从规则系统→统计模型→Transformer 一路发展，但理解非字面意义（隐含义、讽刺、间接请求等）仍是挑战。

现有痛点：(1) LLM 展现了强大的文本生成能力，但其语用推理能力（如理解会话隐含义、上下文依赖指代）评估不充分；(2) 现有评估资源分散，缺乏统一框架把不同语用现象的数据集纳入体系；(3) 随着 LLM 在真实场景部署增多，验证其语用能力对于可信人机交互至关重要。

本文目标 三个核心问题：(a) 有哪些资源可以评估 NLP 模型的语用能力？(b) 如何利用语用学指导 LLM 进步？(c) LLM 如何反过来促进语言学中语用学的研究？

切入角度：从语用现象分类→任务类型→数据构建方法→评估指标四个维度全面梳理。

核心 idea：建立语用现象-NLP任务-数据集-评估方法的多层次映射，识别关键差距并提出未来方向。

方法详解¶

整体框架¶

综述按五大语用现象组织，每个现象下梳理对应的 NLP 任务、数据集和评估方法：

上下文与指示语 (Context & Deixis)：评估模型根据情景/语言上下文解释输入的能力
隐含义与预设 (Implicature & Presupposition)：测试模型超越字面意义进行推理的能力
言语行为与意图识别 (Speech Acts & Intent)：考察模型识别请求/命令/承诺等交际意图的能力
话语与连贯 (Discourse & Coherence)：分析模型理解篇章结构和连贯关系的能力
社会语用 (Social Pragmatics)：探索社会规范、权力关系和文化因素对语言使用的影响

关键设计¶

任务类型分类体系
- 功能：将现有任务归为 7 类：MCQ、QA、NLI、情感分析、图像描述、参照游戏、其他
- 核心发现：MCQ 和 QA 是最常用的评估形式；参照游戏是独特的语用评估范式（说者描述目标物，听者识别），天然测试上下文依赖交际；NLI 常用于隐含义测试（如标量隐含义的前提-假设对）
- 映射关系：语用现象与任务类型无严格一对一映射，一个现象可通过多种任务评估
数据构建方法学
- 功能：总结自底向上（先收集数据再标注）与自顶向下（先确定语言学标签再扩展数据）两种范式
- 自底向上：数据源包括数据库（网页/访谈）、人工收集（如参照游戏）、已有数据集；标注方式包括众包、专家和 LLM 辅助
- 自顶向下：由语言学理论驱动，如从标量对出发用 GPT-4 生成 NLI 样本
- 关键洞察：混合方法（LLM 生成 + 人工验证）是有前景的方向，但 LLM 直接生成隐含义推理尚不可靠
差距分析与未来方向
- 功能：识别四大核心差距并提出解决路线
- 英语中心偏置：58 篇论文中仅 19% 涉及非英语资源
- 数据类型单一：多数数据集为纯文本或纯语音，缺少视觉/手势等多模态信息
- 任务设计局限：任务通常只评估单一语用现象，无法测试模型的整体语用能力
- 评估指标不足：自动指标（F1/BLEU/ROUGE）难以捕捉语用细微差别，需结合人工评估和心理测量方法

实验关键数据¶

语用现象覆盖分布（58 篇论文统计）¶

语用现象	涉及论文数	主要任务类型	代表数据集
上下文与指示语	17	QA、MCQ、参照游戏	AmbigQA, DIPLOMAT, GuessWhat
隐含义与预设	18	NLI、QA、MCQ	IMPPRES, PragmatiCQA, GRICE
言语行为	11	QA、参照游戏	DIPLOMAT, Codenames, STAC
话语与连贯	13	篇章关系解析、QA	PDTB, TED-Q, GCDC
社会语用	8	情感分析、QA	Social IQa, SBF, EmoBank

评估方法使用情况¶

评估方式	使用比例	适用场景	局限
自动指标（F1/Acc）	~70%	分类/选择任务	难以捕捉语用细微差别
生成指标（ROUGE/BLEU）	~20%	生成任务	无法评估语用恰当性
人工评估	~15%	开放式任务	成本高、难以规模化
混合评估	<5%	综合评估	仍缺乏标准流程

亮点与洞察¶

首次建立语用现象-NLP 任务的系统映射：清晰展示哪些现象被充分评估、哪些存在空白
语用学可反哺 LLM 对齐：言语行为理论强调意义来自交互而非孤立句子，与 LLM 的交际目标高度一致；通过融入语用约束可改善 LLM 的指令跟随和歧义消解
LLM 可促进语用学实验研究：LLM 能辅助实验刺激材料设计、数据标注预标注和假设生成，但需人工验证保证质量
多智能体系统需语用推理：多个 LLM agent 交互时，因缺乏真实信念状态推理，通信质量下降，语用推理能力是关键

局限与展望¶

综述范围主要限于 ACL Anthology，可能遗漏其他领域（如认知科学、心理学）的相关资源
多模态语用评估几乎空白——缺少结合语音语调、面部表情、手势的数据集
跨语言/跨文化视角严重不足，限制了研究的普适性
内在语用任务（如话语建模）未纳入讨论
未提供统一的语用能力评测框架或基准，仅为综述性总结

评分¶

⭐⭐⭐⭐

新颖性 ⭐⭐⭐：综述性质，贡献在系统性整理而非方法创新
覆盖全面度 ⭐⭐⭐⭐⭐：58 篇论文、五大语用现象、七种任务类型全面覆盖
写作质量 ⭐⭐⭐⭐：分类清晰、图表丰富，未来方向务实可行
价值 ⭐⭐⭐⭐：为 LLM 语用评估提供了重要的资源地图和研究路线图