Comparing Human and Large Language Model Interpretation of Implicit Information¶
会议: ACL 2026
arXiv: 2604.17085
代码: 有(论文中提供链接)
领域: 知识图谱 / 隐含信息理解
关键词: 隐含信息提取, 知识图谱, 人机理解对比, 推理验证, 时序分析
一句话总结¶
本文提出隐含信息提取(IIE)任务和基于 LLM 的三阶段提取管道(信息提取→推理验证→时序分析),构建结构化知识图谱来表示文本的隐含含义,并通过众包人类判断对比发现 LLM 在社交丰富语境中比人类更保守,但在短事实语境中人类更保守。
研究背景与动机¶
领域现状:LLM 在 NLP 各任务上表现出色,但人类交流基于"解释合作"框架——文本意义由作者和读者协作创造,读者主动解释文本的隐含含义。这一框架是否适用于人与 LLM 生成文本的交互尚不清楚。
现有痛点:(1) 现有信息提取研究集中于显式信息,缺乏对隐含信息提取的关注;(2) 开放信息提取(OIE)不区分显式和隐式三元组;(3) 缺乏系统性的人-LLM 隐含信息理解对比框架。
核心矛盾:LLM 生成的文本在表面上与人类文本难以区分,但 LLM 是否像人类一样理解和推断隐含信息?如果不同,差异在哪里?
本文目标:(1) 设计自动化的隐含信息提取管道;(2) 系统对比人类和 LLM 在隐含信息推断上的异同;(3) 分析驱动推理的主要因素和语境依赖性。
切入角度:将隐含信息理解建模为知识图谱构建任务——从文本中提取关系三元组、验证推理有效性、分析时序关系,然后与人类众包判断进行定量对比。
核心 idea:LLM 和人类在隐含推理上的差异是语境依赖的——LLM 在社交场景中更保守,人类在事实场景中更保守。
方法详解¶
整体框架¶
三阶段管道:(1) 信息提取——提取实体和关系三元组(显式+隐式),用嵌套三元组处理从属子句和体态动词;(2) 推理验证——模型自我批评过滤不合理的隐含推理,失败的三元组可修正后重新验证(最多 3 轮);(3) 时序分析——提取事件并分析时序关系(如发生在前/后/同时)、极性和持续时间。
关键设计¶
-
基于 ATOMIC 分类的隐含推理类型:
- 功能:指导 LLM 系统性地推断隐含信息
- 核心思路:基于 ATOMIC 分类法定义推理类型:前置条件、后置条件、参与者意图、情感反应、感知属性等。每种类型对应一类可从文本推断的隐含三元组
- 设计动机:开放式"推断所有隐含信息"过于模糊,结构化的推理类型引导 LLM 更系统地覆盖隐含含义
-
推理验证(自我批评+修正):
- 功能:提高隐含三元组的精确度
- 核心思路:模型作为自己的批评者审查每个隐含三元组是否有文本支撑。被丢弃的三元组附带丢弃理由,模型尝试修正(在保持原意的前提下)。修正后的三元组再次接受验证,最多 3 轮循环
- 设计动机:第一阶段侧重覆盖率(recall),第二阶段补充精确度(precision)
-
嵌套三元组(RDF 具象化启发):
- 功能:处理从属子句和体态动词等复杂语法结构
- 核心思路:三元组的 object 可以是另一个完整三元组,形成递归嵌套结构。如"Jordan heard Bob was looking for her"编码为 (JORDAN, HEARD, (BOB, WASLOOKINGFOR, JORDAN))
- 设计动机:不是所有信息都能用简单的(主语、关系、宾语)三元组表示,嵌套结构提高了表达力
损失函数 / 训练策略¶
全部基于少样本提示(few-shot prompting),无需微调。管道适用于黑箱 LLM。评估使用两个数据集和众包人类判断,通过直接比较和一致性问题进行定量分析。
实验关键数据¶
主实验¶
LLM vs 人类隐含信息提取对比
| 指标 | GPT-4o | Claude 3.5 | 人类 |
|---|---|---|---|
| 显式三元组覆盖 | 高 | 高 | 基准 |
| 隐式三元组覆盖 | 有限 | 有限 | 显著更多 |
| 人类对模型三元组的认同率 | 高 | 高 | - |
| 人类建议的额外三元组数 | 多 | 多 | - |
消融实验¶
| 语境类型 | LLM 保守性 | 人类保守性 | 说明 |
|---|---|---|---|
| 社交丰富语境 | 更保守 | 较开放 | LLM 不擅长社交推理 |
| 短事实语境 | 较开放 | 更保守 | 人类对事实推断更谨慎 |
关键发现¶
- 人类同意大多数 LLM 提取的三元组,但一致性地建议大量补充——说明 LLM 的隐含推理覆盖面有限
- LLM 在社交丰富语境中比人类保守,反映了社交推理能力的不足
- 人类在短事实语境中比 LLM 保守,可能因为人类意识到有限信息下推断的风险
- 人类之间在隐含信息判断上的共识度中等,说明隐含含义本身具有主观性
- 时序推理是 LLM 的薄弱环节,模型在事件时序关系判断上准确率较低
亮点与洞察¶
- 将隐含信息理解形式化为知识图谱构建任务,提供了可量化比较的框架
- "LLM 在社交场景保守、人类在事实场景保守"的发现为理解人机差异提供了新视角
- 嵌套三元组处理复杂语法结构的设计兼顾了表达力和形式化
局限与展望¶
- 三元组形式无法完全表达所有隐含含义(如反讽、暗示、文化背景)
- 推理验证依赖模型自我批评,可能存在系统性偏差
- 众包人类标注可能不代表专业语言学家的判断
- 仅在英语文本上评估,跨语言隐含信息理解差异未探索
相关工作与启发¶
- vs ATOMIC: ATOMIC 提供结构化常识推理分类法,本文将其适配为隐含信息提取的引导框架
- vs 开放信息提取(OIE): OIE 不区分显式/隐式信息,本文专注于隐含层面
- vs NLI: NLI 判断蕴含关系(离散标签),本文提取开放集合的结构化三元组
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统定义和评估 LLM 的隐含信息提取能力
- 实验充分度: ⭐⭐⭐⭐ 两个数据集、众包评估、多维度分析
- 写作质量: ⭐⭐⭐⭐ 管道设计清晰,研究问题明确
- 价值: ⭐⭐⭐⭐ 为理解 LLM 的语言理解深度提供了实证证据