METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models¶
会议: ACL 2026
arXiv: 2604.11502
代码: https://github.com/SCUNLP/METER (有)
领域: 因果推理评测 / 机制可解释性
关键词: 上下文因果推理, 因果阶梯, 信息流分析, 显著性分数, LLM 评测
一句话总结¶
METER 是首个在统一上下文下系统评测 LLM 三层因果推理(discovery / intervention / counterfactual)的 benchmark(4145 条人审 + LLM 协同构造样本),通过显著性信息流分析发现 LLM 在因果阶梯上升时性能从 93% 跌到 73%——根因是 discovery 阶段被无关事实干扰、higher-level 阶段对上下文 faithfulness 显著下降。
研究背景与动机¶
领域现状:因果推理被视为 AGI 的必备能力,尤其在医疗诊断这种高风险领域,临床报告往往需要同时回答:(1) 为什么会缺血(discovery);(2) 如果做 PCI 会怎样(intervention);(3) 如果当初没堵塞会怎样(counterfactual)。Judea Pearl 的"因果阶梯"把这三类按难度分了三层。已有 benchmark 如 ExpliCa / CRASS / WIKIWHY / CausalQA / IfQA 都在评 LLM 的因果能力,但各自只覆盖一层。
现有痛点: 1. 覆盖不全:现有 benchmark 要么只评 discovery(WIKIWHY、CausalQA、RECESS、CRAB),要么只评 counterfactual(CRASS、IfQA),没有任何一个把三层放在同一 benchmark 里。 2. 上下文不一致:即便偶有跨层评测(CalQuest、CLADDER、CausalBench),不同问题用的是不同 context,无法严格对比同一段事实下三层能力的差距。 3. 缺乏机制分析:没有 benchmark 配套"为什么错"的内部机制研究——只看分数不知道模型到底是哪里坏了。 4. 混合 paradigm:现有工作混用 commonsense(用常识)、formal(符号规则)、contextual(基于文档)三种 paradigm,contextual causal reasoning(严格依证据文本)这一类没单独评。
核心矛盾:要做"公平的多层评测"必须保证每个 context 同时配三层问题,但人工标注成本极高,且需要严格 de-contamination 防止 LLM 已经背过答案。
本文目标:(i) 在统一 context 下系统评测三层因果推理;(ii) 提供大规模 (4K+)、高质量、去污染的人审样本;(iii) 用 mechanistic interpretability(信息流分析)解释 LLM 失败模式。
切入角度:把 Pearl 的因果阶梯(数值概率域)翻译到 textual paradigm,并用"human-LLM 协同 + 三阶段质检"流水线构造 benchmark;用 Wang et al. 2023 的 saliency-based information flow 来 trace LLM 内部到底关注什么。
核心 idea:(1) 同一 context 派生三层问题,控制变量做公平对比;(2) 设计四类 distractor(contradictory / unfounded / causal-reversal / irrelevant-fact)系统检测不同失败模式;(3) 在错误样本上做信息流分析,把"行为层失败" → "机制层失败"打通。
方法详解¶
整体框架¶
METER 包含两大块:(A) Benchmark 构造 —— 从 4 个源数据集(ESL/MAVEN-ERE/MECI/WIKIWHY)抽取 cause-effect pair,用 Gemini-2.5-Pro 扩展事件描述、生成问题 + 答案 + 4 类 distractor,经 9 名 NLP 背景标注员的三阶段人审,最终得到 4145 个 entry(每个 entry 一个 context + 三层 multiple-choice 问题,5 选项)。(B) 评测 + 机制分析 —— 用 12 个 LLM(GPT-4o/GPT-5/Gemini-3 系列/Qwen3 全尺寸/Llama-3.3-70B)在 4 种 prompting 策略下评测三层 accuracy,并对 Qwen3-4B/8B 和 Llama-3.2-3B 做基于 Wang et al. 2023 saliency-based 的层级信息流分析。
关键设计¶
-
三层因果定义的 linguistic 翻译(benchmark 理论基础):
- 功能:把 Pearl 因果阶梯三层从概率域映射到自然语言任务,让每层都有清晰、可操作的判定标准。
- 核心思路:(L1) Causal Discovery:从文本中识别已存在的因果关系,靠显式词汇("caused/because")或隐式语义。例:从临床报告中识别"thrombotic occlusion → myocardial ischemia"。(L2) Intervention:预测在 context 中"引入新动作"会带来什么后果,需多步因果链推理。例:"如果做 PCI 会怎样" 要求 perform PCI → clear occlusion → restore blood flow。(L3) Counterfactual:反事实——反转已知条件推测如果当初不同会怎样。例:"如果当初没堵塞,伤害本来不会发生"。
- 设计动机:直接套 Pearl 的数学定义到 LLM 评测无法操作;这种"基于动词 / 时序 / 修改维度"的语言化定义让每层问题模板都能被批量生成。L2 vs L3 关键区别在于:L2 在现实事实上 forward 推理;L3 在与现实冲突的假设上推理,这要求 LLM 真正"模拟反事实世界"而非死记现实。
-
统一 context + 四类 distractor 的可控数据构造(数据集核心):
- 功能:让同一段 context 同时挑战 LLM 在三层上的能力,并通过精心设计的错误选项暴露不同失败模式。
-
核心思路:每个 entry 严格保证 "1 context + 3 question (L1/L2/L3)" 结构;context 平均 228.91 token;每题 5 个选项中含 1 正答 + 4 distractor,distractor 来自四个预定义类别:
- Contradictory Statement:与 context 事实直接冲突;
- Unfounded Statement:context 里没提到也推不出来(典型幻觉);
- Causal Reversal:因果方向反了("果"当成"因");
- Irrelevant Fact:context 里的真实陈述但与因果链无关。
构造流水线四阶段:(i) data preparation——用三个 LLM (Gemini-2.5-Pro、GPT-5、Qwen3-235B) 一致同意 "无上下文也能答对" 的 pair 全部 de-contaminate 掉;(ii) 人工三标注 (Fleiss κ=0.78) 过滤;(iii) Gemini-2.5-Pro 按预设 template 生成问题 + 答案 + distractor;(iv) 9 名标注员两阶段人工编辑 + 过滤 (Fleiss κ=0.71/0.75)。 - 设计动机:(1) 统一 context 排除"题目难度差异"的混淆,把三层差距归因到 model 能力本身;(2) 四类 distractor 是精心针对常见失败模式设计的"诊断探针"——比如选 Irrelevant Fact 就暴露"被无关细节干扰",选 Unfounded 就暴露"幻觉",使错误分布可解释;(3) 三 LLM ensemble + 90% 过滤率 + 三人独立标注最大化防数据污染与质量噪声。
-
基于 Saliency 的层级信息流分析(机制核心创新):
- 功能:从"行为层 accuracy" 钻到"机制层信息流",揭示 LLM 在不同因果层失败的内部原因。
- 核心思路:基于 Wang et al. 2023,对每个 token-pair \((i,j)\) 计算 saliency \(I_l(i,j) = \sum_h |A_{h,l}^\top \frac{\partial \mathcal{L}}{\partial A_{h,l}}|\),并定义"段→段"的平均信息流 \(S_{X \to Y} = \frac{\sum_{(i,j) \in \mathcal{C}_{X \to Y}} I_l(i,j)}{|\mathcal{C}_{XY}|}\)。把 prompt 分成 5 个段:E(evidence span,人标)、N(non-evidence)、Q(question)、O(selected option)、T(target final token)。重点跟踪五个指标 \(S_{E\to O}, S_{N\to O}, S_{Q\to O}, S_{O\to T}, S_{rest}\) 在层数上的变化,并比较 Correct vs Error 子集的差异。验证手段:attention masking——把 shallow layers (1-24) 的 \(E\to O\) flow 屏蔽,看 accuracy 是否下降(确实在 Discovery 任务上从 0.827 掉到 0.579,验证 evidence aggregation 主要发生在浅层)。
- 设计动机:accuracy 只能告诉"模型多差",不能解释"模型差在哪里"。Saliency-based information flow 把 attention 的 raw 数值变成"信号传递强度",配合人标 evidence span,可以严格定位"模型有没有真去看证据"。这套方法是当前 mechanistic interpretability 与 benchmark 评测的漂亮缝合。
损失函数 / 训练策略¶
纯评测项目,无训练。所有 closed-source LLM 走官方 API;open-source LLM 用 vLLM 在 4×A100 上推理;decoding temperature=0;Zero-shot/Zero-shot CoT/Few-shot/Few-shot CoT 四种 prompting;reasoning-optimized 模型 (GPT-5/Gemini-3-Pro/Qwen3-Next-Thinking) 只跑 Zero-shot 和 Few-shot;evaluation metric=accuracy;所有结果 3 次独立 run 取平均。
实验关键数据¶
主实验(4 种 prompting × 12 LLM × 3 因果层)¶
Zero-shot accuracy(%):
| 模型 | L1 Discovery | L2 Intervention | L3 Counterfactual | 跌幅 |
|---|---|---|---|---|
| Gemini3-Pro | 93.50 | 81.92 | 73.05 | -20.45 |
| GPT-5 | 92.96 | 82.17 | 72.14 | -20.82 |
| Gemini3-Flash | 91.02 | 78.09 | 70.51 | -20.51 |
| Qwen3-Next-Thinking | 90.36 | 77.52 | 70.57 | -19.79 |
| Qwen3-Next-Instruct | 89.56 | 75.13 | 64.47 | -25.09 |
| GPT-4o | 87.92 | 77.96 | 67.42 | -20.50 |
| Llama-3.3-70B | 87.24 | 78.17 | 62.08 | -25.16 |
| Qwen3-32B | 87.26 | 71.54 | 61.12 | -26.14 |
| Qwen3-14B | 87.95 | 67.54 | 52.05 | -35.90 |
| Qwen3-8B | 86.27 | 64.48 | 51.40 | -34.87 |
| Qwen3-4B | 87.03 | 53.47 | 43.26 | -43.77 |
| Qwen3-0.6B | 64.46 | 31.27 | 25.88 | -38.58 |
| Human | 95.80 | 92.80 | 91.00 | -4.80 |
两个核心发现:(1) 所有 LLM 都呈现因果阶梯上升 → accuracy 下降;最强 Gemini3-Pro 跌 20+ 个点;人类只跌 4.8 个点。(2) Reasoning-optimized 模型在高层上鲁棒性显著强于 instruction-tuned 模型:Qwen3-Next-Thinking 在 counterfactual 上比 Qwen3-Next-Instruct 高 6 分以上。
错误分布分析(Zero-shot 错误样本里各类 distractor 的比例)¶
| Distractor 类型 | Discovery (Qwen3-4B) | Intervention | Counterfactual |
|---|---|---|---|
| Irrelevant Fact | 55.41% | 26.87% | 24.15% |
| Unfounded | 22.20% | 39.43% | 36.77% |
| Contradictory | 5.69% | 20.96% | 33.87% |
| Causal Reversal | 16.70% | 12.74% | 5.22% |
核心规律: - Discovery 错误主要因被 irrelevant facts 干扰(55%)—— 模型选了"context 里的真陈述但和因果无关的细节"; - Higher-level 错误主要因 unfounded(幻觉)和 contradictory(自相矛盾)暴增 —— faithfulness 显著下降; - Counterfactual 的 Contradictory 高达 33.87% —— 模型选的选项直接和反事实假设的合理推论冲突,无法在 hypothetical 下保持逻辑一致。
信息流分析(Qwen3-4B 各层平均 saliency)¶
| 指标 | Discovery (Cor / Err) | Intervention | Counterfactual |
|---|---|---|---|
| \(S_{E\to O}\) (evidence→option) | 0.1690 / 0.1247 | 0.1144 / 0.0936 | 0.1095 / 0.0988 |
| \(S_{N\to O}\) (noise→option) | 0.0945 / 0.1262 | 0.0858 / 0.0858 | 0.0805 / 0.0884 |
| \(S_{Q\to O}\) (question→option) | 0.2508 / 0.2163 | 0.2657 / 0.2378 | 0.2666 / 0.2281 |
| \(S_{O\to T}\) (option→target) | 0.4685 / 0.4941 | 0.5039 / 0.5457 | 0.5071 / 0.5452 |
关键发现: - Discovery 错样本:evidence flow 显著下降 + noise flow 显著上升 —— 证实"被无关事实分心"是机制层根因; - Intervention/Counterfactual:无论对错,evidence flow 都很低(~0.10) —— 模型基本不看 context,靠 internal world knowledge 推理,所以幻觉率高; - 错样本里 \(S_{Q\to O}\) 普遍较低:模型连 question 都没充分利用。
Attention Masking 因果验证(Qwen3-4B)¶
| Mask 范围 | Discovery Acc | Intervention Acc | Counterfactual Acc |
|---|---|---|---|
| baseline | 0.827 | ~0.53 | ~0.43 |
| shallow 1-24 layer \(E\to O\) mask | 0.579 (-25 pt) | ~0.53 | ~0.43 |
| deep 25-end \(E\to O\) mask | 0.827 | ~0.53 | ~0.43 |
→ Discovery 的 evidence aggregation 只发生在前 24 层,再深的层不再用 evidence;intervention/counterfactual 屏蔽 evidence flow 几乎无影响,反证它们本就不依赖 evidence。
Lightweight 改进实验(显式把 evidence span 加进 prompt)¶
| 模型 | Discovery | Intervention | Counterfactual |
|---|---|---|---|
| Qwen3-8B (No Evidence) | 85.40 | 63.71 | 53.80 |
| Qwen3-8B (+Evidence) | 88.00 (+2.6) | 65.85 (+2.1) | 56.40 (+2.6) |
| Qwen3-4B (No Evidence) | 82.67 | 53.40 | 45.06 |
| Qwen3-4B (+Evidence) | 84.80 (+2.1) | 55.20 (+1.8) | 46.40 (+1.3) |
| Llama-3.2-3B | 72.60→75.00 (+2.4) | 57.40→57.83 | 42.03→44.60 (+2.6) |
关键发现:(1) 加 evidence span 后 \(S_{E\to O}\) 全面上升、accuracy 全面提升;(2) 副作用:causal reversal 错误反而增加(被强化的 entity 提示让模型选了方向反的选项),说明"加 evidence" 不是 silver bullet,需要配合"强化因果方向"的训练。
关键发现汇总¶
- 模型规模对三层因果有差异影响:Qwen3 系列 0.6B → 32B,discovery 早早饱和(4B≈32B),intervention/counterfactual 持续提升 +49% / +42%;说明高层因果需要 model scale 而 discovery 只需 reading comprehension。
- CoT prompting 在不同模型上有截然相反效果:Llama-3.3-70B 在 counterfactual 上 CoT 加 5 分;GPT-4o 反而掉 2 分。猜测 GPT-4o 已内化了高效推理路径,外加 CoT 反而引入噪声。
- Counterfactual 是终极拦路虎:所有模型在 L3 上都明显弱,且人类 vs LLM 的差距最大(91% vs 73%)。
亮点与洞察¶
- Unified-context 的严苛实验设计:把同一段事实拆成三层问题,第一次让"模型在因果阶梯上的能力衰减"成为一个可严格量化的现象。这种"控制变量法"在 LLM evaluation 上极少见。
- 行为层 + 机制层双视角:错误类型分布给出 "什么样的错";信息流分析给出 "为什么这样错";attention masking 给出 "因果验证"。三层证据互相印证形成完整 narrative,这种 evaluation paper 的写法应该成为新标准。
- 四类 distractor 是 transferable design:unfounded / contradictory / reversal / irrelevant fact 这四类几乎覆盖所有 LLM 选择题失败模式,可移植到其他 benchmark 构造中(如阅读理解、逻辑推理、commonsense)。
- "+evidence" 实验的现实意义:仅靠把 evidence span 显式加进 prompt 就能涨 2-3 分,提示我们 RAG / retrieval-augmented reasoning 的真正价值是 强化信息流,而不只是补全知识。
- 去污染流水线值得借鉴:用 3 个顶级 LLM ensemble 一致同意"无 context 也能答"作为 contamination 信号 —— 这种"用 LLM 自我证伪"是规模化反污染的可行办法。
局限与展望¶
- 作者承认:(1) 机制分析只能在 open-source 模型上做(无法 trace GPT/Gemini 内部);(2) 源数据是公开语料,无法完全排除预训练污染;(3) 去污染只能 black-box 验证。
- 自查:(1) Distractor 由 LLM 生成可能存在 generation bias(GPT 生成的 distractor 可能让 GPT 自己易/难答);(2) 信息流分析只对 Qwen / Llama 小模型做(4B/8B/3B),向 70B+ 的可扩展性未知;(3) 三层定义沿用 Pearl 范式,没有考虑跨层组合(如 intervention-on-counterfactual);(4) 评测全是 multiple-choice,open-ended generation 的因果推理能力未评;(5) 人类 baseline 只有 100 题,且都是 NLP 背景本科生,迁移到医学/法律真实场景的人类表现可能不同。
- 改进方向:(1) 把"+evidence" 的发现做成训练目标——设计 SFT/RL loss 强化 \(S_{E\to O}\);(2) 拓展到多语言 / 多领域;(3) 提出新的 mixed-level 任务(先 discovery 再 intervention);(4) 把信息流分析迁移到训练动态上,看 RLHF 如何重塑因果信息流;(5) 加入 free-form generation 的 counterfactual 任务,跳出 MCQ 范式的局限。
相关工作与启发¶
- vs ExpliCa / CRASS / CalQuest(commonsense paradigm):他们靠 LLM 内在 prior 推理;本文严格要求基于 textual evidence,因此能区分"理解 context"与"调动常识"。
- vs CLADDER / CausalBench(formal paradigm):他们靠 do-calculus、概率运算,与自然语言语义无关;本文 contextual paradigm 才贴近实际 NLP 应用。
- vs WIKIWHY / CausalQA / RECESS / CRAB(contextual but discovery-only):他们只评 L1,且不同问题不同 context;本文统一三层 + 统一 context。
- vs IfQA(contextual counterfactual-only):本文同时评 L1/L2/L3,三层对比才是真正的因果阶梯检验。
- vs Wang et al. 2023 (Label Words Are Anchors):本文借其 saliency-based information flow 方法应用到因果推理任务,是 mechanistic interpretability 应用到 benchmark evaluation 的典范。
- 启发:(1) 评测 paper 写法可以从"只报分数" 升级为"分数 + 错误分布 + 机制分析 + 因果验证 + 改进 sketch" 五位一体;(2) 用 LLM 自评 contamination 是可扩展的去污染思路;(3) information flow 分析配合人标 evidence 可以打开 LLM 黑盒;(4) 因果阶梯是个潜在的 universal axis ——其他任务(如规划、推理、辩论)也可以按这种 hierarchy 设计评测。
评分¶
- 新颖性: ⭐⭐⭐⭐ Unified-context 多层因果评测 + 信息流机制分析的组合是 evaluation paper 的清晰创新;distractor 四分类有原创性;个别模块(Pearl ladder、saliency analysis)非原创但合成精彩。
- 实验充分度: ⭐⭐⭐⭐⭐ 12 模型 × 4 prompting × 3 因果层 + 人类 baseline + 错误分类 + 多模型机制分析 + attention masking 因果验证 + +evidence lightweight 实验 + 跨模型迁移验证,覆盖度极高。
- 写作质量: ⭐⭐⭐⭐⭐ 三层因果定义清晰、benchmark 流水线一目了然、机制分析 narrative 完整;表格图清晰,case study 有说服力;几乎没有冗余。
- 价值: ⭐⭐⭐⭐⭐ 公开 code + dataset,提供 4145 高质量样本,对因果推理研究社区是 indispensable resource;揭示的"高层因果靠 internal knowledge 而非 context"是个对 RAG / agent 设计有直接指导意义的核心发现。
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评