ClimateCause: Complex and Implicit Causal Structures in Climate Reports¶

会议: ACL 2026 Findings
arXiv: 2604.14856
代码: GitHub
领域: 因果推理 / 数据集
关键词: 因果发现, 气候变化, 隐式因果, 嵌套因果, IPCC报告

一句话总结¶

ClimateCause 构建了首个针对气候报告中复杂和隐式因果结构的专家标注数据集（874 条因果关系），支持嵌套因果、多事件拆解、相关性方向和时空语境标注，并提出基于因果图语义复杂度的可读性度量，LLM 基准测试显示因果链推理仍是重要挑战。

研究背景与动机¶

领域现状：文本因果发现数据集（如 BioCause、BECauSE、CNC）主要来自新闻和社交媒体，以显式、直接的因果关系为主。现有数据集缺乏对隐式因果（通过语义推断而非显式触发词）、嵌套因果（因果关系嵌入另一个因/果中）和多事件拆解的标注。

现有痛点：气候变化领域的因果关系天然复杂——因果网络多层嵌套、受时空语境限制、存在不确定性和混杂因素。但现有数据集无法表达这种复杂性，特别是像 CO2-FFI（化石燃料燃烧和工业过程导致的二氧化碳排放）这样的缩写中嵌套了多重因果关系。

核心矛盾：科学报告的因果结构复杂度远超现有 NLP 资源的表达能力，导致 LLM 在因果推理任务上的评估不充分。

本文目标：构建覆盖隐式、嵌套和复杂因果结构的高质量标注数据集，并探索其在可读性度量和 LLM 因果推理基准测试中的应用。

切入角度：从 IPCC 第六次评估报告中提取陈述，由语言学和论辩学专家标注因果关系。

核心 idea：名词短语重构 + 多事件拆解 + 嵌套因果和时空语境标注 → 构建语义丰富的因果图。

方法详解¶

整体框架¶

ClimateCause 是一套围绕"如何把气候科学报告里那些缠绕的因果关系标准化地标出来"的标注方法学。从 IPCC AR6 综合报告里抽出 75 条陈述，两名语言学／论辩学专家按详细指南逐条加工：先判断有没有因果、识别触发词并分显式／隐式，再把因和果都重构成规范名词短语、对含多事件的部分做拆解、标出嵌套结构，最后补上相关性方向、关系类型和时空语境。一条原始陈述经这条流水线展开后，最终产出 874 条结构化因果关系，可直接拼成语义丰富的因果图。下面三个设计分别解决"表示怎么规范""隐藏的因果怎么挖出来"和"复杂度怎么量化"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["IPCC AR6 综合报告<br/>抽取 75 条陈述"] --> B["因果判断 + 触发词识别<br/>分显式 / 隐式"]
    B --> C["名词短语重构与多事件拆解<br/>因/果重写为规范名词短语，多事件拆成原子因果对"]
    C --> D["隐式和嵌套因果标注<br/>挖出术语里暗含的因果，嵌套关系提取为独立对"]
    D --> E["补标相关性方向 + 关系类型 + 时空语境"]
    E --> F["874 条结构化因果关系<br/>拼成语义丰富的因果图"]
    F --> G["基于因果图语义复杂度的可读性度量<br/>五维复杂度归一加和得 C(s)"]

关键设计¶

1. 名词短语重构与多事件拆解：把因果两端化成可逐对比对的规范形式

现有数据集往往保留原句的混合表述，导致因果图里的事件无法精确匹配、也没法逐对验证。本文要求把每个因和果都重写成名词短语，例如"Unsustainable agricultural expansion increases ecosystem vulnerability"被拆成 cause: unsustainable agricultural expansion、effect: increased ecosystem vulnerability。当一端裹着多个事件时（如"damages in terrestrial, freshwater, cryospheric ecosystems"），进一步拆成多条独立因果对，并用 Belongs_to 和 Combined 两个字段区分"只是举例并列"还是"联合共同作用"。这样每条关系都成了原子化、可比对的单元，因果图的节点匹配才有可能。

2. 隐式和嵌套因果标注：把术语里藏着的因果挖出来

科学报告里大量因果并不靠"because"这类触发词，而是埋在术语和领域知识里，忽略它们会严重低估因果网络的真实复杂度。隐式因果如"anthropogenic greenhouse gas emissions"，没有触发词，但语义上暗含 humans → greenhouse gas emissions；嵌套因果如缩写 CO2-FFI，内部其实压着 fossil fuel combustion → CO2 emissions 和 industrial processes → CO2 emissions 两条关系。本文用 Nested 字段标记这类结构，并把嵌套出来的关系也提取为独立因果对，让原本隐藏的层级在数据集中显式可见。

3. 基于因果图语义复杂度的可读性度量：量化一条陈述的因果认知负担

传统可读性指标（如 Flesch Reading Ease）只看词长句长，根本测不出读懂一段因果推理要花多少脑力。本文据此提出从因果图语义结构出发的五维复杂度：共同原因／效果结构复杂度 \(C^{com}\)、举例展开复杂度 \(C^{ex}\)、嵌套因果复杂度 \(C^{nest}\)（带 \(T_i \log T_i\) 项惩罚多层嵌套）、相关性方向复杂度 \(C^{corr}\)、关系类型复杂度 \(C^{pol}\)，各维度经 min-max 归一化后等权加和得到陈述总复杂度 \(C(s)\)。这一度量可用来评估 IPCC 这类报告对非专家读者的可理解程度，进而指导报告该往哪里简化。

实验关键数据¶

主实验¶

指标	数值
标注陈述	75 条（63 条含因果关系）
因果关系数	874 条
唯一关系数	653 条（去量词后）
唯一触发词	95 个
显式 vs 隐式	显式为主，但隐式比例显著高于现有数据集
正向 vs 负向关系	正向为主

消融实验¶

LLM 任务	挑战	说明
相关性推断	中等	LLM 在正/负相关判断上表现尚可
因果链推理	困难	多跳因果推理是 LLM 的关键瓶颈

关键发现¶

57.33% 的陈述包含语义复杂的因果结构（\(C(s)>0\)），最高复杂度达 1.821
陈述长度与因果复杂度显著正相关（\(r=0.590, p<0.01\)）
嵌套因果关系全部为正相关，负相关仅出现在显式关系中（\(\chi^2=26.53, p<0.01\)）
LLM 在因果链推理上表现远差于相关性推断，说明多跳因果推理是当前 LLM 的重要能力缺陷

亮点与洞察¶

因果结构的可读性度量是一个新颖且有实用价值的思路——可以帮助 IPCC 等组织评估其报告对政策制定者的可理解性，指导报告简化
数据集的标注设计非常周到，特别是 Belongs_to/Combined 的区分和时空语境标注，展示了因果标注如何超越简单的 (cause, effect) 二元组
嵌套因果的概念可以推广到其他专业领域（如医学报告、法律文件），它们中同样充满术语级的隐式因果

局限与展望¶

数据集规模较小（75 条陈述、874 条因果关系），限制了 LLM 微调的可能性
仅来源于 IPCC AR6 综合报告，覆盖的气候主题有限
标注严重依赖领域知识，第一轮标注者间一致性很低（触发词识别 \(\kappa=-0.075\)），说明标注难度极高
可读性度量中各维度等权加和是简化假设，未经认知验证

评分¶

新颖性: ⭐⭐⭐⭐ 隐式/嵌套因果标注和因果可读性度量都是新贡献
实验充分度: ⭐⭐⭐ 数据集分析充分但规模小，LLM 基准测试较初步
写作质量: ⭐⭐⭐⭐ 标注设计描述清晰详细，但可读性度量部分符号较重