跳转至

Zero-Shot Belief: A Hard Problem for LLMs

会议: ACL 2025
作者: John Murzaku, Owen Rambow (Stony Brook University) arXiv: 2502.08777
代码: 计划开源
领域: LLM / NLP

一句话总结

本文提出统一式(Unified)和混合式(Hybrid)两种零样本框架用于源-目标信念预测(source-and-target belief prediction),混合方法使用微调 DeBERTa 做事件检测 + LLM 做信念标注,在 FactBank 上以 72.0% Full F1 刷新 SOTA,同时首次报告嵌套信念指标(Nested F1 仅 25.3%),揭示该子任务对当前所有 LLM 仍是极大挑战。

研究背景与动机

  1. 信念/事件事实性是核心 NLP 任务:判断文本中作者或引用信源对事件的事实性承诺程度(如 Factual、Probable、Unknown 等),对信息抽取、假新闻检测、情报分析具有重要价值。FactBank (Saurí and Pustejovsky, 2009) 是该领域首个标注源-目标信念的标准语料库。
  2. 此前从未有零样本实验:虽然信念预测任务已研究多年,所有已有方法(包括 BERT、RoBERTa、Flan-T5 等)均依赖监督微调,从未评估过 LLM 在零样本设置下的表现,留下了重要的研究空白。
  3. 嵌套信念从未被单独评估:FactBank 不仅标注作者信念,还标注文本中嵌套信源(如"公司称…"中的"公司")对事件的信念。然而此前所有工作只报告整体 F1 或作者 F1,从未单独报告嵌套信念(Nested)的性能。
  4. 事件识别本身就很困难:FactBank 中事件定义复杂(包括报告动词、认知动词、事件名词、状态形容词等),即使微调专用生成模型也仅达 85.4% F1,LLM 在该子任务上表现更差。
  5. 任务需要深层语用推理:信念检测需要理解嵌套报告结构、否定语义、模态词和时态对事实性的影响,是检验 LLM 深层语言理解能力的理想测试场景。
  6. 跨语言迁移能力未知:信念检测方法在非英语语言(如意大利语 ModaFact 语料)上的零样本迁移能力尚未被系统检验。

方法详解

任务定义与标签体系

给定一段文本,需同时识别三个要素:(1) 事件(event)——动词、事件名词或状态形容词;(2) 信源(source)——包括作者(AUTHOR)和嵌套信源(如被引用的人或机构);(3) 事实性标签——每个信源对每个事件的信念程度。标签体系包含五类:true(确定事实)、false(确定反事实)、ptrue(可能为真)、pfalse(可能为假)、unknown(未承诺/不确定)。

例如句子 "Trurit Inc. said it is phasing out legacy routers": - 作者对 "said" 事件:true(作者确认说话事件发生了) - 作者对 "phasing" 事件:unknown(作者只是报告,未承诺真实性) - Trurit Inc. 对 "phasing" 事件:true(公司自身承诺该事件为真)

统一式(Unified)零样本方法

设计单一端到端零样本 prompt,将事件识别、信源分析和信念标注合并在一个指令中完成。Prompt 结构包含:

  • 任务描述:高层说明 FactBank 风格事件事实性标注任务
  • 三步标注流程:(1) 识别所有事件谓词(单 token) (2) 识别嵌套信源并规范化为 "AUTHOR_
  • 特殊情况处理指南:未来事件标为 unknown、否定句使用 false、模态词使用 ptrue 等
  • Chain-of-Thought (CoT) 输出格式:要求模型逐步解释推理过程,最后输出 JSON 格式的标注结果

混合式(Hybrid)零样本方法

核心思想是解耦事件检测与信念标注,将 LLM 不擅长的子任务交给专用模型:

  1. 事件检测(DeBERTa-large):将事件检测视为 token 级二分类任务(O vs. EVENT),使用 DeBERTa-large 微调。超参数:5 epoch、batch size 16、学习率 1e-4、最大序列长度 128。该模型在 FactBank 上达到 89.0% F1,大幅超越所有 LLM 的零样本/少样本事件检测性能。
  2. LLM 信念标注:将 DeBERTa 检测到的事件列表和原文一起输入 LLM,指示其识别嵌套信源并分配事实性标签。Prompt 省略事件识别步骤,直接从信源识别和标签分配开始,同样使用 CoT 格式。

信源归一化

FactBank 在 token 级标注信源(如 "Trurit Inc." 标注为 "Inc."),而 LLM 预测的信源格式往往不一致。使用 GPT-4o 进行少样本(10 个示例)后处理,将预测信源转换为 FactBank 兼容格式。消融实验显示:

归一化策略 Full F1 (%) Nested F1 (%)
无归一化 68.9 17.5
少样本归一化 72.0 25.3
Oracle 归一化 72.7 27.1

少样本归一化相比无归一化在 Full F1 上提升 3.1%,在 Nested F1 上大幅提升 7.8%,说明信源格式对嵌套信念评估影响巨大。

评估指标

采用三种 Micro F1 指标:Full——对所有(信源, 事件, 标签)三元组精确匹配;Author——仅评估作者信念;Nested——仅评估嵌套信源信念(本文首次提出)。

实验结果

FactBank 主要结果(Micro F1 %)

模型 类型 方法 Full F1 Author F1 Nested F1 Δ Full (vs SOTA) Δ Full (Hyb-Uni)
Flan-T5-XL 微调 SOTA Fine-tune 69.5 76.6
GPT-3 微调 Fine-tune 65.8 76.0
DeepSeek r1 推理+开源 Unified 66.1 71.1 24.1
DeepSeek r1 推理+开源 Hybrid 72.0 77.6 25.3 +2.5 +5.9
o1 推理 Unified 65.0 73.2 18.9
o1 推理 Hybrid 70.3 78.9 19.2 +0.8 +5.3
Claude 3.5 闭源 Unified 63.2 69.7 19.7
Claude 3.5 闭源 Hybrid 70.4 77.6 21.4 +0.9 +7.2
GPT-4o 闭源 Unified 60.2 65.9 20.2
GPT-4o 闭源 Hybrid 68.7 73.2 22.9 -0.8 +8.5
o3-mini 推理 Unified 62.4 70.9 15.6
o3-mini 推理 Hybrid 65.5 75.2 17.0 -4.0 +3.1
LLaMA 3.3-70B 开源 Unified 53.1 60.4 14.4
LLaMA 3.3-70B 开源 Hybrid 58.8 66.0 19.9 -10.7 +5.7
DeepSeek-v3 开源 Unified 56.3 61.4 17.1
DeepSeek-v3 开源 Hybrid 60.5 65.3 18.2 -9.0 +4.2

关键发现: - DeepSeek r1 Hybrid 以 72.0% Full F1 刷新 FactBank SOTA,超越微调 Flan-T5-XL 2.5% - Hybrid 平均比 Unified 提升 5.7%(Full)、5.9%(Author)、2.0%(Nested) - 推理型模型(r1、o1)总体优于非推理型模型,CoT 推理在信念预测任务中确实有效 - 所有模型在 Nested F1 上表现极差,最佳仅 25.3%,说明嵌套信念推理是当前 LLM 的显著瓶颈

事件检测性能对比(F1 %)

模型 方法 F1
DeBERTa-large Fine-tuned 89.0
Claude 3.5 Zero-shot 83.3
DeepSeek r1 Zero-shot 82.0
Claude 3.5 Few-shot (5 例) 81.8
GPT-4o Few-shot (5 例) 81.1
GPT-4o Zero-shot 78.2
DeepSeek r1 Few-shot (5 例) 76.4

微调 DeBERTa 在事件检测上全面超越所有 LLM 5.7–12.6%,充分证实了混合策略的必要性——将事件检测这一 LLM 短板交给专用模型处理。值得注意的是,Few-shot 并未一致提升 LLM 的事件检测性能(DeepSeek r1 反而下降了 5.6%)。

ModaFact 跨语言验证(意大利语 Belief+Polarity F1 %)

模型 方法 Bel.+Pol. F1
mT5-XXL Fine-tune 64.4
DeepSeek r1 Hybrid 63.6†
o3-mini Hybrid 62.6†
GPT-4o Hybrid 61.2
GPT-4o Unified 42.9
o3-mini Unified 40.8
DeepSeek r1 Unified 38.6

在意大利语 ModaFact 上,Hybrid 方法虽未超越微调 mT5-XXL(差 0.8%),但考虑到这些 LLM 并非专门针对多语言优化(r1 仅针对英语和中文),零样本即接近 SOTA 的表现令人印象深刻。Unified 和 Hybrid 的差距在跨语言场景下更大(约 20%+),进一步凸显了事件检测解耦的重要性。

嵌套信念错误分析

对最佳模型(r1 Hybrid, Nested F1 25.3%)的嵌套信念预测进行详细错误分析,共 326 个错误分为四类:

错误类型 数量 占比 典型错误
信源错配(Source) 123 37.7% 将嵌套信源预测为 AUTHOR(50 例);代词"it"信源识别失败(13 例)
事件漏检(FN) 77 23.6% 遗漏事件名词(38 例),如"acquisition"、"construction";遗漏事件动词(30 例)
标签错误(Label) 73 22.4% 将 UU (unknown) 预测为 CT+ (true)(28 例);将 UU 预测为 PR+ (ptrue)(22 例)
事件过检(FP) 53 16.3% 过度预测事件名词(33 例);过度预测事件动词(10 例)

关键洞察:最大错误来源是信源错配——LLM 倾向于将所有事件的信源标为作者,而忽略文本中的嵌套引用关系。标签错误主要集中在未来/报告事件:FactBank 规定嵌套信源报告的未来事件(如"Mary said it will happen")应标为 unknown,但 LLM 系统性地预测为 true 或 ptrue。

亮点与创新

  • 首个零样本信念预测基准:填补了该任务在零样本设置下的研究空白,系统评估了 7 个主流 LLM 的表现,为后续研究建立了基线
  • 混合策略设计精妙:将事件检测与信念推理解耦,让各组件发挥所长,平均提升近 6% Full F1,思路简洁但高效
  • 首次提出 Nested F1 指标:揭示了一个此前被完全忽略的关键维度——嵌套信念检测(F1 仅 25.3%),为社区指明了重要的未来方向
  • 详尽的错误分析:对 326 个嵌套信念错误进行四类分类,定量揭示了 LLM 的具体失败模式
  • 实验规模大:7 个模型 × 2 种方法 × 2 个语料(英语 + 意大利语),结论可靠

局限性

  • 嵌套信念性能极低:最佳 Nested F1 仅 25.3%,距离实用有巨大差距,说明当前 LLM 在多层信源归属推理上能力不足
  • 整体流程未完全开源:虽然主模型使用开源 DeepSeek r1,但信源归一化依赖 GPT-4o API 调用,影响完全复现性
  • 单次运行报告:由于 API 成本高昂(o1 单次运行高达 $75),FactBank 实验仅报告单次运行结果,缺少方差估计
  • 未探索微调 LLM:所有 LLM 实验均为零样本,未与微调 LLM 方案做对比,无法判断零样本的性能天花板
  • 跨语言结果未超 SOTA:在意大利语 ModaFact 上零样本 Hybrid(63.6%)略低于微调 mT5-XXL(64.4%),但差距不大
  • 数据集规模有限:FactBank 测试集仅 280 句 1326 个标注实例,评估数据较小

相关工作

  • 事件事实性语料:FactBank (Saurí and Pustejovsky, 2009) 首创源-目标信念标注;MAVEN-Fact (Li et al., 2024) 提供大规模事件事实性标注;ModaFact (Rovera et al., 2025) 为意大利语信念检测提供多模态标注
  • 信念预测方法:Pouran Ben Veyseh et al. (2019) 使用 GCN + BERT 表示;Jiang and de Marneffe (2021) 使用 RoBERTa + span 表示;Murzaku and Rambow (2024) 的 BeLeaf 系统用 Flan-T5 以树生成方式建模,是此前 FactBank SOTA
  • LLM 推理能力:Wei et al. (2022) 的 CoT prompting 在此任务中被证明有效;Li et al. (2024) 在 MAVEN-Fact 上尝试 LLM few-shot 但效果有限
  • 跨语言信念检测:Rovera et al. (2025) 的 ModaFact 使用 mT5-XXL 和 Aya-23-8B 微调,为多语言信念检测建立基线

评分

  • ⭐⭐⭐⭐ 新颖性:首个零样本信念预测评估,混合策略设计出色,首次提出 Nested F1 指标
  • ⭐⭐⭐ 实用性:揭示了 LLM 在信念理解上的系统性不足,但嵌套信念性能过低暂难应用
  • ⭐⭐⭐⭐ 实验充分度:7 个模型 × 2 种方法 × 跨语言验证 × 消融分析 × 详尽错误分析

title: >- [论文解读] Zero-Shot Belief: A Hard Problem for LLMs description: >- [ACL 2025][LLM/NLP] 本文提出了统一式和混合式两种零样本框架用于源-目标信念预测任务,使用 DeBERTa 事件标注器 + LLM 的混合方法在 FactBank 上达到新 SOTA(Full F1 72.0%),同时揭示了嵌套信念预测(Nested F1 仅 25.3%)对 LLM 而言仍是极大挑战。 tags: - ACL 2025 - LLM/NLP


Zero-Shot Belief: A Hard Problem for LLMs

会议: ACL 2025
arXiv: 无
代码: 无
领域: LLM / NLP

一句话总结

本文提出了统一式和混合式两种零样本框架用于源-目标信念预测任务,使用 DeBERTa 事件标注器 + LLM 的混合方法在 FactBank 上达到新 SOTA(Full F1 72.0%),同时揭示了嵌套信念预测(Nested F1 仅 25.3%)对 LLM 而言仍是极大挑战。

背景与动机

  1. 信念/事件事实性检测是核心 NLP 任务:判断文本中作者或引用源对事件的事实性承诺程度,对信息抽取、假新闻检测等有重要意义。
  2. 此前无零样本实验:虽然该任务已研究多年,但此前所有方法均依赖微调,从未有零样本实验评估 LLM 在此任务上的表现。
  3. 嵌套信念更具挑战:除作者信念外,还需识别文本中提到的嵌套信源(如"公司称...")对事件的信念,这一子任务从未被专门评估。
  4. LLM 推理能力的新测试场景:信念检测需要语用理解和多层推理,是检验 LLM 深层语言理解能力的良好切入点。
  5. 事件识别本身就很困难:FactBank 中事件的定义复杂,即使微调专用模型也仅达 85.4% F1,LLM 在此子任务上表现更差。
  6. 跨语言验证需求:信念检测方法的多语言迁移能力(如意大利语 ModaFact 语料)尚未被系统检验。

方法详解

任务定义

给定文本,需识别:(1) 事件(event)、(2) 信源(source,包括作者和嵌套信源)、(3) 每个信源对每个事件的事实性标签(如 Factual、Probable、Unknown 等)。

统一式(Unified)方法

设计单一端到端零样本 prompt,包含: - 输入文本和任务高层描述 - 三步注释流程的详细说明:(1) 标注所有事件 (2) 识别嵌套信源 (3) 为每个信源分配事实性标签 - 特殊情况处理指南和输出格式 - Chain-of-Thought (CoT) 推理步骤总结

混合式(Hybrid)方法

分解流水线,解耦事件检测与信念标注: 1. 事件检测:使用微调的 DeBERTa 模型进行事件 token 检测(F1 89.0%),避免让 LLM 处理其不擅长的子任务。 2. LLM 信念标注:将检测到的事件列表和原文一起送入 LLM prompt,指示其识别嵌套信源并分配事实性标签,同样使用 CoT 格式。

信源归一化

FactBank 在 token 级别标注信源(如 "Trurit Inc." 标注为 "Inc."),使用 GPT-4o 进行少样本后处理将 LLM 预测的信源转换为 FactBank 兼容格式。

评估模型

涵盖三类 LLM:开源(LLaMA-3.3-70B、DeepSeek-v3、DeepSeek-r1)、闭源(GPT-4o、o1、o3-mini、Claude 3.5 Sonnet)和推理型(r1、o1、o3-mini)。

实验结果

FactBank 主要结果(Micro F1 %)

模型 方法 Full F1 Author F1 Nested F1
Flan-T5-XL (微调 SOTA) Fine-tune 69.5 76.6
DeepSeek r1 Unified 66.1 71.1 24.1
DeepSeek r1 Hybrid 72.0 77.6 25.3
o1 Hybrid 70.3 78.9 19.2
GPT-4o Hybrid 68.7 73.2 22.9
Claude 3.5 Hybrid 70.4 77.6 21.4
LLaMA 3.3 Hybrid 58.8 66.0 19.9
  • Hybrid 方法平均比 Unified 提升 5.7%(Full)、5.9%(Author)、2.0%(Nested)。
  • DeepSeek r1 Hybrid 以 72.0% Full F1 刷新 SOTA,超越微调模型 2.5%。

事件检测性能

模型 方法 F1
DeBERTa Fine-tuned 89.0
DeepSeek r1 Zero-shot 82.0
Claude 3.5 Zero-shot 83.3
GPT-4o Zero-shot 78.2
GPT-4o Few-shot 81.1

微调 DeBERTa 在事件检测上全面超越所有 LLM,证实了混合策略的必要性。

ModaFact 跨语言验证(Belief+Polarity F1)

mT5-XXL 微调 SOTA 为 64.4%,DeepSeek r1 Hybrid 达 63.6%,o3-mini 达 62.6%,在未针对意大利语优化的情况下接近 SOTA。

亮点

  • 首个零样本信念预测系统评估:填补了该任务在零样本设置下的研究空白,并达到新 SOTA。
  • 混合策略设计精妙:将 LLM 不擅长的事件检测交给微调专用模型,让 LLM 专注信念推理,平均提升近 6%。
  • 首次报告 Nested F1 指标:揭示了嵌套信念检测(F1 仅 25.3%)是 LLM 的显著短板。
  • 详尽的错误分析:将嵌套信念错误分为信源错配(123 例)、事件漏检(77 例)、事件过检(73 例)和标签错误(53 例)四类。
  • 跨语言验证:在意大利语 ModaFact 上验证了方法的可迁移性。

局限性

  • 嵌套信念性能很低:最佳 Nested F1 仅 25.3%,距离实用还有很大差距。
  • 依赖 API 调用做信源归一化:整体方案并非完全开源可复现,信源归一化依赖 GPT-4o API。
  • 单次运行报告:由于 API 成本(o1 单次运行高达 $75),FactBank 实验仅报告单次运行结果。
  • 未探索微调 LLM 的上限:所有 LLM 实验均为零样本,未与微调 LLM 方案做对比。
  • 意大利语结果未超越 SOTA:跨语言验证中 Hybrid 方法略低于微调 mT5-XXL(63.6% vs 64.4%)。

相关工作

  • 事件事实性语料:FactBank (Saurí and Pustejovsky, 2009) 是首个标注源-目标信念的语料;MAVEN-Fact (Li et al., 2024) 提供大规模事件事实性标注。
  • 信念预测方法:Murzaku and Rambow (2024) 的 BeLeaf 系统用 Flan-T5 以树生成方式建模信念结构,是此前 SOTA。
  • 微调方法:Pouran Ben Veyseh et al. (2019) 用图卷积网络 + BERT 表示;Jiang and de Marneffe (2021) 用 RoBERTa + span 表示。
  • LLM 推理能力:Wei et al. (2022) 的 CoT prompting 在此任务中被证明有效;Li et al. (2024) 在 MAVEN-Fact 上尝试 LLM few-shot 学习。
  • 跨语言信念检测:Rovera et al. (2025) 的 ModaFact 语料为意大利语信念检测提供了评估基准。

评分

  • ⭐⭐⭐⭐ 新颖性:首个零样本信念预测评估,混合策略设计新颖,首次报告嵌套信念指标
  • ⭐⭐⭐ 实用性:揭示了 LLM 在信念理解上的不足,但嵌套信念性能过低难以直接应用
  • ⭐⭐⭐⭐ 实验充分度:7 个模型 × 2 种方法 × 跨语言验证,错误分析详尽
  • ⭐⭐⭐⭐ 写作清晰度:任务定义清晰,示例直观,结果呈现有条理