Zero-Shot Belief: A Hard Problem for LLMs¶

会议: ACL 2025
作者: John Murzaku, Owen Rambow (Stony Brook University) arXiv: 2502.08777
代码: 计划开源
领域: LLM / NLP

一句话总结¶

本文提出统一式（Unified）和混合式（Hybrid）两种零样本框架用于源-目标信念预测（source-and-target belief prediction），混合方法使用微调 DeBERTa 做事件检测 + LLM 做信念标注，在 FactBank 上以 72.0% Full F1 刷新 SOTA，同时首次报告嵌套信念指标（Nested F1 仅 25.3%），揭示该子任务对当前所有 LLM 仍是极大挑战。

研究背景与动机¶

信念/事件事实性是核心 NLP 任务：判断文本中作者或引用信源对事件的事实性承诺程度（如 Factual、Probable、Unknown 等），对信息抽取、假新闻检测、情报分析具有重要价值。FactBank (Saurí and Pustejovsky, 2009) 是该领域首个标注源-目标信念的标准语料库。
此前从未有零样本实验：虽然信念预测任务已研究多年，所有已有方法（包括 BERT、RoBERTa、Flan-T5 等）均依赖监督微调，从未评估过 LLM 在零样本设置下的表现，留下了重要的研究空白。
嵌套信念从未被单独评估：FactBank 不仅标注作者信念，还标注文本中嵌套信源（如"公司称…"中的"公司"）对事件的信念。然而此前所有工作只报告整体 F1 或作者 F1，从未单独报告嵌套信念（Nested）的性能。
事件识别本身就很困难：FactBank 中事件定义复杂（包括报告动词、认知动词、事件名词、状态形容词等），即使微调专用生成模型也仅达 85.4% F1，LLM 在该子任务上表现更差。
任务需要深层语用推理：信念检测需要理解嵌套报告结构、否定语义、模态词和时态对事实性的影响，是检验 LLM 深层语言理解能力的理想测试场景。
跨语言迁移能力未知：信念检测方法在非英语语言（如意大利语 ModaFact 语料）上的零样本迁移能力尚未被系统检验。

方法详解¶

任务定义与标签体系¶

给定一段文本，需同时识别三个要素：(1) 事件（event）——动词、事件名词或状态形容词；(2) 信源（source）——包括作者（AUTHOR）和嵌套信源（如被引用的人或机构）；(3) 事实性标签——每个信源对每个事件的信念程度。标签体系包含五类：true（确定事实）、false（确定反事实）、ptrue（可能为真）、pfalse（可能为假）、unknown（未承诺/不确定）。

例如句子 "Trurit Inc. said it is phasing out legacy routers"： - 作者对 "said" 事件：true（作者确认说话事件发生了） - 作者对 "phasing" 事件：unknown（作者只是报告，未承诺真实性） - Trurit Inc. 对 "phasing" 事件：true（公司自身承诺该事件为真）

统一式（Unified）零样本方法¶

设计单一端到端零样本 prompt，将事件识别、信源分析和信念标注合并在一个指令中完成。Prompt 结构包含：

任务描述：高层说明 FactBank 风格事件事实性标注任务
三步标注流程：(1) 识别所有事件谓词（单 token） (2) 识别嵌套信源并规范化为 "AUTHOR_" 格式 (3) 为每个（信源, 事件）对分配事实性标签
特殊情况处理指南：未来事件标为 unknown、否定句使用 false、模态词使用 ptrue 等
Chain-of-Thought (CoT) 输出格式：要求模型逐步解释推理过程，最后输出 JSON 格式的标注结果

混合式（Hybrid）零样本方法¶

核心思想是解耦事件检测与信念标注，将 LLM 不擅长的子任务交给专用模型：

事件检测（DeBERTa-large）：将事件检测视为 token 级二分类任务（O vs. EVENT），使用 DeBERTa-large 微调。超参数：5 epoch、batch size 16、学习率 1e-4、最大序列长度 128。该模型在 FactBank 上达到 89.0% F1，大幅超越所有 LLM 的零样本/少样本事件检测性能。
LLM 信念标注：将 DeBERTa 检测到的事件列表和原文一起输入 LLM，指示其识别嵌套信源并分配事实性标签。Prompt 省略事件识别步骤，直接从信源识别和标签分配开始，同样使用 CoT 格式。

信源归一化¶

FactBank 在 token 级标注信源（如 "Trurit Inc." 标注为 "Inc."），而 LLM 预测的信源格式往往不一致。使用 GPT-4o 进行少样本（10 个示例）后处理，将预测信源转换为 FactBank 兼容格式。消融实验显示：

归一化策略	Full F1 (%)	Nested F1 (%)
无归一化	68.9	17.5
少样本归一化	72.0	25.3
Oracle 归一化	72.7	27.1

少样本归一化相比无归一化在 Full F1 上提升 3.1%，在 Nested F1 上大幅提升 7.8%，说明信源格式对嵌套信念评估影响巨大。

评估指标¶

采用三种 Micro F1 指标：Full——对所有（信源, 事件, 标签）三元组精确匹配；Author——仅评估作者信念；Nested——仅评估嵌套信源信念（本文首次提出）。

实验结果¶

FactBank 主要结果（Micro F1 %）¶

模型	类型	方法	Full F1	Author F1	Nested F1	Δ Full (vs SOTA)	Δ Full (Hyb-Uni)
Flan-T5-XL	微调 SOTA	Fine-tune	69.5	76.6	—	—	—
GPT-3	微调	Fine-tune	65.8	76.0	—	—	—
DeepSeek r1	推理+开源	Unified	66.1	71.1	24.1	—	—
DeepSeek r1	推理+开源	Hybrid	72.0†	77.6	25.3†	+2.5	+5.9
o1	推理	Unified	65.0	73.2	18.9	—	—
o1	推理	Hybrid	70.3	78.9†	19.2	+0.8	+5.3
Claude 3.5	闭源	Unified	63.2	69.7	19.7	—	—
Claude 3.5	闭源	Hybrid	70.4	77.6	21.4	+0.9	+7.2
GPT-4o	闭源	Unified	60.2	65.9	20.2	—	—
GPT-4o	闭源	Hybrid	68.7	73.2	22.9	-0.8	+8.5
o3-mini	推理	Unified	62.4	70.9	15.6	—	—
o3-mini	推理	Hybrid	65.5	75.2	17.0	-4.0	+3.1
LLaMA 3.3-70B	开源	Unified	53.1	60.4	14.4	—	—
LLaMA 3.3-70B	开源	Hybrid	58.8	66.0	19.9	-10.7	+5.7
DeepSeek-v3	开源	Unified	56.3	61.4	17.1	—	—
DeepSeek-v3	开源	Hybrid	60.5	65.3	18.2	-9.0	+4.2

关键发现： - DeepSeek r1 Hybrid 以 72.0% Full F1 刷新 FactBank SOTA，超越微调 Flan-T5-XL 2.5% - Hybrid 平均比 Unified 提升 5.7%（Full）、5.9%（Author）、2.0%（Nested） - 推理型模型（r1、o1）总体优于非推理型模型，CoT 推理在信念预测任务中确实有效 - 所有模型在 Nested F1 上表现极差，最佳仅 25.3%，说明嵌套信念推理是当前 LLM 的显著瓶颈

事件检测性能对比（F1 %）¶

模型	方法	F1
DeBERTa-large	Fine-tuned	89.0
Claude 3.5	Zero-shot	83.3
DeepSeek r1	Zero-shot	82.0
Claude 3.5	Few-shot (5 例)	81.8
GPT-4o	Few-shot (5 例)	81.1
GPT-4o	Zero-shot	78.2
DeepSeek r1	Few-shot (5 例)	76.4

微调 DeBERTa 在事件检测上全面超越所有 LLM 5.7–12.6%，充分证实了混合策略的必要性——将事件检测这一 LLM 短板交给专用模型处理。值得注意的是，Few-shot 并未一致提升 LLM 的事件检测性能（DeepSeek r1 反而下降了 5.6%）。

ModaFact 跨语言验证（意大利语 Belief+Polarity F1 %）¶

模型	方法	Bel.+Pol. F1
mT5-XXL	Fine-tune	64.4
DeepSeek r1	Hybrid	63.6†
o3-mini	Hybrid	62.6†
GPT-4o	Hybrid	61.2
GPT-4o	Unified	42.9
o3-mini	Unified	40.8
DeepSeek r1	Unified	38.6

在意大利语 ModaFact 上，Hybrid 方法虽未超越微调 mT5-XXL（差 0.8%），但考虑到这些 LLM 并非专门针对多语言优化（r1 仅针对英语和中文），零样本即接近 SOTA 的表现令人印象深刻。Unified 和 Hybrid 的差距在跨语言场景下更大（约 20%+），进一步凸显了事件检测解耦的重要性。

嵌套信念错误分析¶

对最佳模型（r1 Hybrid, Nested F1 25.3%）的嵌套信念预测进行详细错误分析，共 326 个错误分为四类：

错误类型	数量	占比	典型错误
信源错配（Source）	123	37.7%	将嵌套信源预测为 AUTHOR（50 例）；代词"it"信源识别失败（13 例）
事件漏检（FN）	77	23.6%	遗漏事件名词（38 例），如"acquisition"、"construction"；遗漏事件动词（30 例）
标签错误（Label）	73	22.4%	将 UU (unknown) 预测为 CT+ (true)（28 例）；将 UU 预测为 PR+ (ptrue)（22 例）
事件过检（FP）	53	16.3%	过度预测事件名词（33 例）；过度预测事件动词（10 例）

关键洞察：最大错误来源是信源错配——LLM 倾向于将所有事件的信源标为作者，而忽略文本中的嵌套引用关系。标签错误主要集中在未来/报告事件：FactBank 规定嵌套信源报告的未来事件（如"Mary said it will happen"）应标为 unknown，但 LLM 系统性地预测为 true 或 ptrue。

亮点与创新¶

首个零样本信念预测基准：填补了该任务在零样本设置下的研究空白，系统评估了 7 个主流 LLM 的表现，为后续研究建立了基线
混合策略设计精妙：将事件检测与信念推理解耦，让各组件发挥所长，平均提升近 6% Full F1，思路简洁但高效
首次提出 Nested F1 指标：揭示了一个此前被完全忽略的关键维度——嵌套信念检测（F1 仅 25.3%），为社区指明了重要的未来方向
详尽的错误分析：对 326 个嵌套信念错误进行四类分类，定量揭示了 LLM 的具体失败模式
实验规模大：7 个模型 × 2 种方法 × 2 个语料（英语 + 意大利语），结论可靠

局限性¶

嵌套信念性能极低：最佳 Nested F1 仅 25.3%，距离实用有巨大差距，说明当前 LLM 在多层信源归属推理上能力不足
整体流程未完全开源：虽然主模型使用开源 DeepSeek r1，但信源归一化依赖 GPT-4o API 调用，影响完全复现性
单次运行报告：由于 API 成本高昂（o1 单次运行高达 $75），FactBank 实验仅报告单次运行结果，缺少方差估计
未探索微调 LLM：所有 LLM 实验均为零样本，未与微调 LLM 方案做对比，无法判断零样本的性能天花板
跨语言结果未超 SOTA：在意大利语 ModaFact 上零样本 Hybrid（63.6%）略低于微调 mT5-XXL（64.4%），但差距不大
数据集规模有限：FactBank 测试集仅 280 句 1326 个标注实例，评估数据较小

评分¶

⭐⭐⭐⭐ 新颖性：首个零样本信念预测评估，混合策略设计出色，首次提出 Nested F1 指标
⭐⭐⭐ 实用性：揭示了 LLM 在信念理解上的系统性不足，但嵌套信念性能过低暂难应用
⭐⭐⭐⭐ 实验充分度：7 个模型 × 2 种方法 × 跨语言验证 × 消融分析 × 详尽错误分析

title: >- [论文解读] Zero-Shot Belief: A Hard Problem for LLMs description: >- [ACL 2025][LLM/NLP] 本文提出了统一式和混合式两种零样本框架用于源-目标信念预测任务，使用 DeBERTa 事件标注器 + LLM 的混合方法在 FactBank 上达到新 SOTA（Full F1 72.0%），同时揭示了嵌套信念预测（Nested F1 仅 25.3%）对 LLM 而言仍是极大挑战。 tags: - ACL 2025 - LLM/NLP

Zero-Shot Belief: A Hard Problem for LLMs¶

会议: ACL 2025
arXiv: 无
代码: 无
领域: LLM / NLP

一句话总结¶

本文提出了统一式和混合式两种零样本框架用于源-目标信念预测任务，使用 DeBERTa 事件标注器 + LLM 的混合方法在 FactBank 上达到新 SOTA（Full F1 72.0%），同时揭示了嵌套信念预测（Nested F1 仅 25.3%）对 LLM 而言仍是极大挑战。

背景与动机¶

信念/事件事实性检测是核心 NLP 任务：判断文本中作者或引用源对事件的事实性承诺程度，对信息抽取、假新闻检测等有重要意义。
此前无零样本实验：虽然该任务已研究多年，但此前所有方法均依赖微调，从未有零样本实验评估 LLM 在此任务上的表现。
嵌套信念更具挑战：除作者信念外，还需识别文本中提到的嵌套信源（如"公司称..."）对事件的信念，这一子任务从未被专门评估。
LLM 推理能力的新测试场景：信念检测需要语用理解和多层推理，是检验 LLM 深层语言理解能力的良好切入点。
事件识别本身就很困难：FactBank 中事件的定义复杂，即使微调专用模型也仅达 85.4% F1，LLM 在此子任务上表现更差。
跨语言验证需求：信念检测方法的多语言迁移能力（如意大利语 ModaFact 语料）尚未被系统检验。

方法详解¶

任务定义¶

给定文本，需识别：(1) 事件（event）、(2) 信源（source，包括作者和嵌套信源）、(3) 每个信源对每个事件的事实性标签（如 Factual、Probable、Unknown 等）。

统一式（Unified）方法¶

设计单一端到端零样本 prompt，包含： - 输入文本和任务高层描述 - 三步注释流程的详细说明：(1) 标注所有事件 (2) 识别嵌套信源 (3) 为每个信源分配事实性标签 - 特殊情况处理指南和输出格式 - Chain-of-Thought (CoT) 推理步骤总结

混合式（Hybrid）方法¶

分解流水线，解耦事件检测与信念标注： 1. 事件检测：使用微调的 DeBERTa 模型进行事件 token 检测（F1 89.0%），避免让 LLM 处理其不擅长的子任务。 2. LLM 信念标注：将检测到的事件列表和原文一起送入 LLM prompt，指示其识别嵌套信源并分配事实性标签，同样使用 CoT 格式。

信源归一化¶

FactBank 在 token 级别标注信源（如 "Trurit Inc." 标注为 "Inc."），使用 GPT-4o 进行少样本后处理将 LLM 预测的信源转换为 FactBank 兼容格式。

评估模型¶

涵盖三类 LLM：开源（LLaMA-3.3-70B、DeepSeek-v3、DeepSeek-r1）、闭源（GPT-4o、o1、o3-mini、Claude 3.5 Sonnet）和推理型（r1、o1、o3-mini）。

实验结果¶

FactBank 主要结果（Micro F1 %）¶

模型	方法	Full F1	Author F1	Nested F1
Flan-T5-XL (微调 SOTA)	Fine-tune	69.5	76.6	—
DeepSeek r1	Unified	66.1	71.1	24.1
DeepSeek r1	Hybrid	72.0	77.6	25.3
o1	Hybrid	70.3	78.9	19.2
GPT-4o	Hybrid	68.7	73.2	22.9
Claude 3.5	Hybrid	70.4	77.6	21.4
LLaMA 3.3	Hybrid	58.8	66.0	19.9

Hybrid 方法平均比 Unified 提升 5.7%（Full）、5.9%（Author）、2.0%（Nested）。
DeepSeek r1 Hybrid 以 72.0% Full F1 刷新 SOTA，超越微调模型 2.5%。

事件检测性能¶

模型	方法	F1
DeBERTa	Fine-tuned	89.0
DeepSeek r1	Zero-shot	82.0
Claude 3.5	Zero-shot	83.3
GPT-4o	Zero-shot	78.2
GPT-4o	Few-shot	81.1

微调 DeBERTa 在事件检测上全面超越所有 LLM，证实了混合策略的必要性。

ModaFact 跨语言验证（Belief+Polarity F1）¶

mT5-XXL 微调 SOTA 为 64.4%，DeepSeek r1 Hybrid 达 63.6%，o3-mini 达 62.6%，在未针对意大利语优化的情况下接近 SOTA。

亮点¶

首个零样本信念预测系统评估：填补了该任务在零样本设置下的研究空白，并达到新 SOTA。
混合策略设计精妙：将 LLM 不擅长的事件检测交给微调专用模型，让 LLM 专注信念推理，平均提升近 6%。
首次报告 Nested F1 指标：揭示了嵌套信念检测（F1 仅 25.3%）是 LLM 的显著短板。
详尽的错误分析：将嵌套信念错误分为信源错配（123 例）、事件漏检（77 例）、事件过检（73 例）和标签错误（53 例）四类。
跨语言验证：在意大利语 ModaFact 上验证了方法的可迁移性。

局限性¶

嵌套信念性能很低：最佳 Nested F1 仅 25.3%，距离实用还有很大差距。
依赖 API 调用做信源归一化：整体方案并非完全开源可复现，信源归一化依赖 GPT-4o API。
单次运行报告：由于 API 成本（o1 单次运行高达 $75），FactBank 实验仅报告单次运行结果。
未探索微调 LLM 的上限：所有 LLM 实验均为零样本，未与微调 LLM 方案做对比。
意大利语结果未超越 SOTA：跨语言验证中 Hybrid 方法略低于微调 mT5-XXL（63.6% vs 64.4%）。

评分¶

⭐⭐⭐⭐ 新颖性：首个零样本信念预测评估，混合策略设计新颖，首次报告嵌套信念指标
⭐⭐⭐ 实用性：揭示了 LLM 在信念理解上的不足，但嵌套信念性能过低难以直接应用
⭐⭐⭐⭐ 实验充分度：7 个模型 × 2 种方法 × 跨语言验证，错误分析详尽
⭐⭐⭐⭐ 写作清晰度：任务定义清晰，示例直观，结果呈现有条理

Zero-Shot Belief: A Hard Problem for LLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

任务定义与标签体系¶

统一式（Unified）零样本方法¶

混合式（Hybrid）零样本方法¶

信源归一化¶

评估指标¶

实验结果¶

FactBank 主要结果（Micro F1 %）¶

事件检测性能对比（F1 %）¶

ModaFact 跨语言验证（意大利语 Belief+Polarity F1 %）¶

嵌套信念错误分析¶

亮点与创新¶

局限性¶

相关工作¶

评分¶

Zero-Shot Belief: A Hard Problem for LLMs¶

一句话总结¶

背景与动机¶

方法详解¶

任务定义¶

统一式（Unified）方法¶

混合式（Hybrid）方法¶

信源归一化¶

评估模型¶

实验结果¶

FactBank 主要结果（Micro F1 %）¶

事件检测性能¶

ModaFact 跨语言验证（Belief+Polarity F1）¶

亮点¶

局限性¶

相关工作¶

评分¶

Zero-Shot Belief: A Hard Problem for LLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

任务定义与标签体系¶

统一式（Unified）零样本方法¶

混合式（Hybrid）零样本方法¶

信源归一化¶

评估指标¶

实验结果¶

FactBank 主要结果（Micro F1 %）¶

事件检测性能对比（F1 %）¶

ModaFact 跨语言验证（意大利语 Belief+Polarity F1 %）¶

嵌套信念错误分析¶

亮点与创新¶

局限性¶

相关工作¶

评分¶

Zero-Shot Belief: A Hard Problem for LLMs¶

一句话总结¶

背景与动机¶

方法详解¶

任务定义¶

统一式（Unified）方法¶

混合式（Hybrid）方法¶

信源归一化¶

评估模型¶

实验结果¶

FactBank 主要结果（Micro F1 %）¶

事件检测性能¶

ModaFact 跨语言验证（Belief+Polarity F1）¶

亮点¶

局限性¶

相关工作¶

评分¶

相关论文¶