Comparing Human and Large Language Model Interpretation of Implicit Information¶

会议: ACL 2026
arXiv: 2604.17085
代码: 有（论文中提供链接）
领域: 知识图谱 / 隐含信息理解
关键词: 隐含信息提取, 知识图谱, 人机理解对比, 推理验证, 时序分析

一句话总结¶

本文提出隐含信息提取（IIE）任务和基于 LLM 的三阶段提取管道（信息提取→推理验证→时序分析），构建结构化知识图谱来表示文本的隐含含义，并通过众包人类判断对比发现 LLM 在社交丰富语境中比人类更保守，但在短事实语境中人类更保守。

领域现状：LLM 在 NLP 各任务上表现出色，但人类交流基于"解释合作"框架——文本意义由作者和读者协作创造，读者主动解释文本的隐含含义。这一框架是否适用于人与 LLM 生成文本的交互尚不清楚。

现有痛点：(1) 现有信息提取研究集中于显式信息，缺乏对隐含信息提取的关注；(2) 开放信息提取（OIE）不区分显式和隐式三元组；(3) 缺乏系统性的人-LLM 隐含信息理解对比框架。

核心矛盾：LLM 生成的文本在表面上与人类文本难以区分，但 LLM 是否像人类一样理解和推断隐含信息？如果不同，差异在哪里？

本文目标：(1) 设计自动化的隐含信息提取管道；(2) 系统对比人类和 LLM 在隐含信息推断上的异同；(3) 分析驱动推理的主要因素和语境依赖性。

切入角度：将隐含信息理解建模为知识图谱构建任务——从文本中提取关系三元组、验证推理有效性、分析时序关系，然后与人类众包判断进行定量对比。

核心 idea：LLM 和人类在隐含推理上的差异是语境依赖的——LLM 在社交场景中更保守，人类在事实场景中更保守。

三阶段管道：(1) 信息提取——提取实体和关系三元组（显式+隐式），用嵌套三元组处理从属子句和体态动词；(2) 推理验证——模型自我批评过滤不合理的隐含推理，失败的三元组可修正后重新验证（最多 3 轮）；(3) 时序分析——提取事件并分析时序关系（如发生在前/后/同时）、极性和持续时间。

基于 ATOMIC 分类的隐含推理类型:
- 功能：指导 LLM 系统性地推断隐含信息
- 核心思路：基于 ATOMIC 分类法定义推理类型：前置条件、后置条件、参与者意图、情感反应、感知属性等。每种类型对应一类可从文本推断的隐含三元组
- 设计动机：开放式"推断所有隐含信息"过于模糊，结构化的推理类型引导 LLM 更系统地覆盖隐含含义
推理验证（自我批评+修正）:
- 功能：提高隐含三元组的精确度
- 核心思路：模型作为自己的批评者审查每个隐含三元组是否有文本支撑。被丢弃的三元组附带丢弃理由，模型尝试修正（在保持原意的前提下）。修正后的三元组再次接受验证，最多 3 轮循环
- 设计动机：第一阶段侧重覆盖率（recall），第二阶段补充精确度（precision）
嵌套三元组（RDF 具象化启发）:
- 功能：处理从属子句和体态动词等复杂语法结构
- 核心思路：三元组的 object 可以是另一个完整三元组，形成递归嵌套结构。如"Jordan heard Bob was looking for her"编码为 (JORDAN, HEARD, (BOB, WASLOOKINGFOR, JORDAN))
- 设计动机：不是所有信息都能用简单的（主语、关系、宾语）三元组表示，嵌套结构提高了表达力

全部基于少样本提示（few-shot prompting），无需微调。管道适用于黑箱 LLM。评估使用两个数据集和众包人类判断，通过直接比较和一致性问题进行定量分析。

LLM vs 人类隐含信息提取对比

指标	GPT-4o	Claude 3.5	人类
显式三元组覆盖	高	高	基准
隐式三元组覆盖	有限	有限	显著更多
人类对模型三元组的认同率	高	高	-
人类建议的额外三元组数	多	多	-

语境类型	LLM 保守性	人类保守性	说明
社交丰富语境	更保守	较开放	LLM 不擅长社交推理
短事实语境	较开放	更保守	人类对事实推断更谨慎