跳转至

Comparing Human and Large Language Model Interpretation of Implicit Information

会议: ACL 2026 Findings
arXiv: 2604.17085
代码: 有(论文中提供链接)
领域: 知识图谱 / 隐含信息理解
关键词: 隐含信息提取, 知识图谱, 人机理解对比, 推理验证, 时序分析

一句话总结

本文提出隐含信息提取(IIE)任务和基于 LLM 的三阶段提取管道(信息提取→推理验证→时序分析),构建结构化知识图谱来表示文本的隐含含义,并通过众包人类判断对比发现 LLM 在社交丰富语境中比人类更保守,但在短事实语境中人类更保守。

研究背景与动机

领域现状:LLM 在 NLP 各任务上表现出色,但人类交流基于"解释合作"框架——文本意义由作者和读者协作创造,读者主动解释文本的隐含含义。这一框架是否适用于人与 LLM 生成文本的交互尚不清楚。

现有痛点:(1) 现有信息提取研究集中于显式信息,缺乏对隐含信息提取的关注;(2) 开放信息提取(OIE)不区分显式和隐式三元组;(3) 缺乏系统性的人-LLM 隐含信息理解对比框架。

核心矛盾:LLM 生成的文本在表面上与人类文本难以区分,但 LLM 是否像人类一样理解和推断隐含信息?如果不同,差异在哪里?

本文目标:(1) 设计自动化的隐含信息提取管道;(2) 系统对比人类和 LLM 在隐含信息推断上的异同;(3) 分析驱动推理的主要因素和语境依赖性。

切入角度:将隐含信息理解建模为知识图谱构建任务——从文本中提取关系三元组、验证推理有效性、分析时序关系,然后与人类众包判断进行定量对比。

核心 idea:LLM 和人类在隐含推理上的差异是语境依赖的——LLM 在社交场景中更保守,人类在事实场景中更保守。

方法详解

整体框架

本文把"理解一段文本的隐含含义"形式化为知识图谱构建问题:输入一段文本,输出一组结构化三元组,既包含字面写出的显式关系,也包含读者需要推断的隐含关系。围绕这个目标设计了一条三阶段 LLM 管道——信息提取阶段尽量多地抽取实体和关系三元组(覆盖率优先),推理验证阶段让模型自我批评、过滤掉缺乏文本支撑的隐含推理(精确度补偿),时序分析阶段专门判断事件之间的先后结构。最终图谱被分成"常规图 + 时序图"两部分输出,随后与众包人类标注对齐,做定量的人机差异比较。整条管道全部用少样本提示驱动,不做任何微调,因此可直接套用在黑箱 LLM 上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["输入:一段文本"] --> S1
    subgraph S1["信息提取(覆盖率优先)"]
        direction TB
        A["显式三元组抽取"] --> B["隐式三元组抽取<br/>按 ATOMIC 推理类型逐类推断"]
        B --> C["嵌套三元组<br/>RDF 具象化表达从属/体态"]
    end
    S1 --> S2
    subgraph S2["推理验证(精确度补偿)"]
        direction TB
        D["去重"] --> E["推理质疑<br/>模型自我批评,否决无依据三元组"]
        E -->|"被否决+理由"| F["推理修正<br/>循环至多 3 轮"]
        F --> E
        E -->|"通过"| G["推理解释"]
    end
    S2 --> S3
    subgraph S3["时序分析"]
        direction TB
        H["事件/状态分类<br/>+ 绝对时间锚定"] --> I["成对时序关系<br/>before/after/while,双序一致才采纳"]
    end
    S3 --> OUT["知识图谱<br/>常规图 + 时序图"]
    OUT --> CMP["与众包人类标注对齐<br/>定量人机差异比较"]

关键设计

1. 用 ATOMIC 推理类型把"推断隐含信息"结构化。 直接让模型"推断所有隐含含义"太模糊,覆盖面完全靠运气。本文借用 ATOMIC 常识推理分类法,把可推断的隐含关系拆成前置条件、后置条件、参与者意图、情感反应、感知属性等若干固定类型,每种类型对应一类隐含三元组。模型被引导着逐类去想"这段话还隐含了哪些前提/后果/意图",从而更系统地把隐含层覆盖到位,而不是零散地碰运气。这一步发生在信息提取阶段,决定了整张图谱隐含层的召回上限。

2. 嵌套三元组表达复杂语法。 不是所有信息都能塞进扁平的(主语,关系,宾语)结构,从属子句和体态动词尤其如此。受 RDF 具象化(reification)启发,本文允许三元组的宾语本身又是一条完整三元组,形成递归嵌套——例如 "Jordan heard Bob was looking for her" 被编码为 (JORDAN, HEARD, (BOB, WASLOOKINGFOR, JORDAN))。嵌套出的内层三元组本身被当作一条独立的隐含关系看待,从而在不牺牲形式化的前提下显著提高了表达力。

3. 推理验证:让模型当自己的批评者,循环修正。 第一阶段为了召回会过度生成,里面混了不少没有文本依据的臆测。验证阶段先去重(删掉与显式三元组语义重复的条目),再让同一个模型逐条质疑每条隐含三元组是否真有文本支撑——被否决的三元组会附上否决理由交还给模型,模型在不彻底篡改原意的前提下尝试修正,修正后的版本重新送审;为避免"质疑—否决—修正"无限循环,同一条被否决 3 次后直接丢弃。通过验证的三元组还会被要求给出支撑它的显式前提(推理解释),以窥探模型的推断依据。这样把流程拆成"第一阶段抓召回、第二阶段补精度",用自我批评把臆测过滤掉。

4. 时序分析:区分事件/状态,校验成对时序关系。 前两阶段刻意忽略时间信息,让三元组形式上更同构;但一段话里的多个三元组之间往往有先后关系,需要单独一阶段补回。本文先逐条判断三元组属于事件(会发生的情境)还是状态(持续成立的条件),并为带时间标记的条目抽取绝对时间锚点;再两两判断时序关系,类型限定为 before / after / while / none,由此拼出事件时间线。为对抗幻觉与输出抖动,每对三元组以正反两种顺序各问一次,只有两次判断一致(before-after 或 while-while)才采纳该关系,否则视为无关。这正是实验中暴露 LLM 时序推理薄弱的那一环。

损失函数 / 训练策略

全程基于少样本提示,不做微调,因此适用于任意黑箱 LLM。评估在两个数据集上进行,用众包人类判断作为对照,通过直接三元组比对和一致性问题两种方式做定量分析。

实验关键数据

主实验

LLM vs 人类隐含信息提取对比

指标 GPT-4o Claude 3.5 人类
显式三元组覆盖 基准
隐式三元组覆盖 有限 有限 显著更多
人类对模型三元组的认同率 -
人类建议的额外三元组数 -

消融实验

语境类型 LLM 保守性 人类保守性 说明
社交丰富语境 更保守 较开放 LLM 不擅长社交推理
短事实语境 较开放 更保守 人类对事实推断更谨慎

关键发现

  • 人类同意大多数 LLM 提取的三元组,但一致性地建议大量补充——说明 LLM 的隐含推理覆盖面有限
  • LLM 在社交丰富语境中比人类保守,反映了社交推理能力的不足
  • 人类在短事实语境中比 LLM 保守,可能因为人类意识到有限信息下推断的风险
  • 人类之间在隐含信息判断上的共识度中等,说明隐含含义本身具有主观性
  • 时序推理是 LLM 的薄弱环节,模型在事件时序关系判断上准确率较低

亮点与洞察

  • 将隐含信息理解形式化为知识图谱构建任务,提供了可量化比较的框架
  • "LLM 在社交场景保守、人类在事实场景保守"的发现为理解人机差异提供了新视角
  • 嵌套三元组处理复杂语法结构的设计兼顾了表达力和形式化

局限与展望

  • 三元组形式无法完全表达所有隐含含义(如反讽、暗示、文化背景)
  • 推理验证依赖模型自我批评,可能存在系统性偏差
  • 众包人类标注可能不代表专业语言学家的判断
  • 仅在英语文本上评估,跨语言隐含信息理解差异未探索

相关工作与启发

  • vs ATOMIC: ATOMIC 提供结构化常识推理分类法,本文将其适配为隐含信息提取的引导框架
  • vs 开放信息提取(OIE): OIE 不区分显式/隐式信息,本文专注于隐含层面
  • vs NLI: NLI 判断蕴含关系(离散标签),本文提取开放集合的结构化三元组

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统定义和评估 LLM 的隐含信息提取能力
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集、众包评估、多维度分析
  • 写作质量: ⭐⭐⭐⭐ 管道设计清晰,研究问题明确
  • 价值: ⭐⭐⭐⭐ 为理解 LLM 的语言理解深度提供了实证证据