跳转至

LiveFact: A Dynamic, Time-Aware Benchmark for LLM-Driven Fake News Detection

会议: ACL 2026
arXiv: 2604.04815
代码: https://github.com/bebxy/livefact
领域: 社会计算 / 假新闻检测 / LLM 评测
关键词: 动态基准、时间感知、benchmark 污染、认知谦逊、Fog of War

一句话总结

LiveFact 把"假新闻检测"从静态二分类升级成一个按月更新、按时间切片证据的动态推理基准,用 Classification + Inference 双模式同时考察 LLM 的事实判断和"该说不知道就说不知道"的认知谦逊,并用 SSA 实体替换显式监控基准污染。

研究背景与动机

领域现状:LLM 把假新闻检测从"特征+分类器"推到"基于多跳证据的复杂推理",但评测端基本停留在 LIAR / FEVER / FakeNewsNet 这类静态数据集——给 LLM 一锅煮熟的证据,让它输出 Real/Fake。

现有痛点:第一,静态数据被反复用作预训练语料,存在严重的 Benchmark Data Contamination(BDC),LLM 可能只是"背答案"而非真推理;第二,所有证据"一次性给齐"的 god-view 设定完全脱离真实世界——记者拿到的就是不完整、随时间演化的碎片;第三,模型表现高低难以区分是真懂事实还是只是"自信地猜"。

核心矛盾:评测的静态本质(一次性快照)和 LLM 的持续预训练 + 新闻的持续产生这两个动态过程根本对不上号,导致排行榜数字越好可能越说明背得越熟而不是推得越好。

本文目标:构造一个能持续更新、能模拟"信息迷雾"、能量化 BDC 风险的评测体系,使分数同时反映 (a) 推理能力 和 (b) 在证据不足时承认"不知道"的能力。

切入角度:把每条新闻的证据按发生日 \(T\) 切成 \(E^{(-3)}\)\(E^{(0)}\)\(E^{(+3)}\) 三个时间片,强迫模型在不同信息密度下回答;并用 Classification(绝对事实)和 Inference("在当下证据下能否判断")双模式对照,区分真推理与硬猜。

核心 idea:用月度更新 + 时间切片证据 + 双模式评估 + 实体替换污染监控,把静态分类基准重塑为动态、时间感知、反污染的推理基准。

方法详解

整体框架

LiveFact 是一条"五阶段月度流水线 + 双模式评测": 1. 事件抓取:Google News API 每日 00:00 GMT 抓 World 板块,2025/11 一个月聚出 737 个去重事件; 2. 时间证据构造:以事件头条日期 \(T\) 为锚,按 \(\delta\in\{-3,0,+3\}\) 三档拉证据,共 25,064 条; 3. claim 与背景生成:o4-mini 读事件+证据,生成中性背景 context 与三标签 claim(Real/Fake/Ambiguous)共 4,392 条; 4. 人审:作者团队三轮独立校对,对 Inference 模式还要根据"当下证据是否足够判定"动态调整 ground truth; 5. BDC 监控:用 Qwen3-235B-A22B 跑 SSA 框架的实体替换(Trump → Wannetta),生成平行 shifted 数据集。

形式化上,对每个 claim \(c_i\) 给出 LLM \(f_\theta\) 输入三元组 \((c_i, E_i^{(\delta)}, k_i)\),输出 \(\hat y_i^{(\delta)} \in \{\text{Real},\text{Fake},\text{Ambiguous}\}\);评测在两种模式下计算 Acc 与 Macro-F1。

关键设计

  1. 时间切片证据(Fog of War):

    • 功能:用 \(E^{(-3)}\)(事发前 3 天)、\(E^{(0)}\)(当日)、\(E^{(+3)}\)(事发后 3 天)三档证据模拟真实"信息逐步显形"的过程。
    • 核心思路:3 天窗是基于实证的信息速率分析——证据密度在 \(T\pm 48{\sim}72\)h 达峰,扩到 \(\pm 7\)\(\pm 15\) 天收益递减,缩到 \(\pm 1\) 天又抓不到首发报道;窗口越早,能"硬判定"的 claim 越少,Inference 模式下 Ambiguous 占比飙到 85%。
    • 设计动机:把"证据完备"和"证据不足"分离,从而能单独考察模型在信息真空里能不能克制住乱猜。
  2. 双模式评测(Classification + Inference):

    • 功能:同一份 claim 上同时给两套 ground truth——CLS 给绝对事实标签(时间无关),INF 给"当下证据是否足够支持该结论"标签(时间相关)。
    • 核心思路:在 \(\delta=-3\) 时把绝大多数 claim 的 INF 标签改成 Ambiguous(85% 都是 Ambiguous,详见 Table 2 的 3,698/4,392);CLS 在 \(\delta=-3\) 上的高分意味着"幻觉自信",只有同一模型在 INF 上也高才说明真的会判断"信息不够"。
    • 设计动机:单看 CLS 容易被参数化记忆"撞对";引入 INF 后才能定义"Reasoning Gap = INF Acc − CLS Acc",从而把"过度自信"和"认知谦逊"两种行为分开。
  3. SSA 实体替换 + Overturn Rate(BDC 监控):

    • 功能:用 Qwen3-235B-A22B 做 Entity Shift,把命名实体替换为同结构但虚构的名字,得到 shifted 数据集 \((c_i', E_i'^{(\delta)}, k_i')\),对比模型在原与 shifted 上的预测差异。
    • 核心思路:定义 Overturn Rate \(\text{OTR}=\frac{1}{N}\sum_i \mathbb{1}[\hat y_i^{(\delta)}\neq \hat y_i'^{(\delta)}]\),再乘以指标差 \(\Delta=\text{Metric}-\text{Metric}_{\text{shift}}\) 得到 SSA Factor \(=\Delta\times\text{OTR}\times 100\);分越高说明模型越依赖"记住了 Trump"这种具体实体,而非证据。
    • 设计动机:避免用 OpenAI 系评估 OpenAI 系的"偏好泄漏",同时把 BDC 风险量化成可追踪的月度指标,配合每月更新的数据集做长期监测。

损失函数 / 训练策略

LiveFact 是评测基准,不做训练。评测时 TEMPERATURE=0.0TOP_P=1.0MAX_NEW_TOKENS=128(reasoning 类如 Kimi-K2-Thinking、GPT-OSS 放宽到 1024),强制输出 [[LABEL]] 形式以便机器解析。

实验关键数据

主实验

18 个 LLM 在 2025/11 数据集上的综合分数(Avg 为 12 项均值,节选自 Table 3):

模型 Acc\(_0^{cls}\) Acc\(_{-3}^{inf}\) Acc\(_{+3}^{cls}\) Avg
Qwen3-235B-A22B-Instruct-2507 79.76 66.67 82.08 72.40
gpt-oss-120b⋆ 79.94 62.23 81.81 72.13
gpt-5.1-2025-11-13 78.60 68.44 81.01 72.02
gpt-5.2-2025-12-11 76.34 80.71 77.32 71.52
Qwen3-30B-A3B-Instruct-2507 75.05 64.55 77.00 69.46
gpt-4o-2024-08-06 72.29 74.61 73.98 67.11
DeepSeek-V3.1 64.44 78.03 63.73 61.48
Llama-3.1-70B (base) 33.45 7.90 33.47 22.16

最显著的发现:开源 MoE 旗舰 Qwen3-235B-A22B 平均分超过 GPT-5.1/5.2 等闭源模型;纯 dense base 模型(Llama-3.1-70B 等)因为不遵守输出格式直接崩到 22 分左右。

消融实验(Reasoning Gap:INF Acc − CLS Acc at \(\delta=-3\)

模型类型 代表模型 Reasoning Gap 行为类型
Uncertainty Aware Llama-3.1-8B-Instruct +38% 证据不足时正确说 Ambiguous
Uncertainty Aware Qwen3-32B +37% 同上
Overconfident(指令模型) Llama-3.3-70B-Instruct 约 −20% 硬猜 Real/Fake
Overconfident(指令模型) Qwen3-4B-Instruct 负 / 接近 0 同上
Format-Failed(base 模型) Llama-3.1-70B 格式不合规、近随机

成本对比也很有意思:Qwen3-30B-A3B-Instruct 一轮 $0.64,比 gpt-5.2 的 $9.27 便宜约 14×,平均分却只低 3 个点。

关键发现

  • \(\delta=-3\) 的 CLS 高分不是推理强,是"幻觉压力测试"——模型在没证据的时候被迫二选一,越自信越掉坑。
  • MoE 架构(Qwen3-235B、DeepSeek-V3.1、gpt-oss-120b)在这种"知识检索 + 推理"任务上系统性强于 dense,作者认为是稀疏路由更适合多面任务。
  • "Thinking Mode"模型(Kimi-K2、GPT-OSS)在 128 token 上限下几乎全废,放宽到 1024 后立刻反弹到一线水平——说明 reasoning 不是可选项而是结构必需。
  • Base 模型集体崩盘的原因不是不会推理,而是不会按 [[LABEL]] 模板输出;评测 base 模型必须先做指令对齐。

亮点与洞察

  • 把"benchmark 必须静态"这条隐式假设打破,给出可持续的月度更新方案。这对所有"测知识/事实"的基准都有借鉴意义——只要任务有时效性,就该考虑动态化。
  • Reasoning Gap 这个单一标量把"过度自信"和"认知谦逊"分得很清楚,比单看 Acc 信息量大得多,可以直接迁移到 QA、code、agent 评测里去衡量"会不会说我不知道"。
  • SSA Factor 给"模型在偷背答案吗"提供了一个能放进 leaderboard 列的数字,这比目前 contamination 分析多停留在事后审计要实用。
  • 14× 成本优势的 Qwen3-30B-A3B-Instruct 说明对实时假新闻检测这种高频任务,MoE 中型模型才是落地最优解,不是越大越好。

局限与展望

  • 当前仅英文,且来自全球英文新闻源;非英文区域的本地化造谣模式(如方言、地缘语境)完全没覆盖,作者承诺扩多语。
  • 仅文本模态;深度伪造、被剪辑的图视频这些当代假新闻主力没纳入,需要扩到 multimodal RAG。
  • 人工审核 + Ambiguous 标签判定是吞吐瓶颈,4,392 条/月的规模相对纯合成数据偏小;作者打算训校准过的 judge 模型半自动化。
  • 我自己想到一个隐忧:实体替换在低概率事件上可能破坏 commonsense 一致性(虚构总统替真总统可能让某些证据反而成 Fake),SSA Factor 的解释需要谨慎;另外 3 天窗虽然实证最优,但对持续多周展开的事件(战争、选举)可能切得过细。

相关工作与启发

  • vs LIAR / FEVER / FakeNewsNet:那些是一次性快照,无法对抗污染也无法测时间推理;LiveFact 是连续的、时间锚定的。
  • vs LiveBench:思想最接近(持续更新对抗污染),但 LiveBench 评 coding/math/data,不为假新闻设计,缺证据链结构。
  • vs TripleFact / AdvFake:都尝试动态化,但 TripleFact 因版权无法公开、缺时间切片,AdvFake 侧重对抗 RAG 而不是认知谦逊;LiveFact 是第一个同时做月更新 + 时间切片 + BDC 监控的。
  • vs SSA 原工作:本文把 SSA 从独立工作整合进流水线,作为月度污染监控的一环,给 SSA 找到了最合适的工程化场景。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个把动态更新、时间切片、双模式评测、BDC 监控四件事一次性做齐的假新闻基准。
  • 实验充分度: ⭐⭐⭐⭐ 18 个 LLM 覆盖 1B 到 1T 参数与开源/闭源,但只跑了一个月(11/2025),长期趋势还要等几期。
  • 写作质量: ⭐⭐⭐⭐ 动机推导清晰、Reasoning Gap 概念可视化好,公式略密。
  • 价值: ⭐⭐⭐⭐⭐ 如果月度更新真坚持下去,这会成为 LLM 事实推理类评测的事实标准。