跳转至

Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

会议: ACL 2025
arXiv: 2502.01220
代码: https://github.com/Orange-OpenSource/TimeStress
领域: LLM/NLP
关键词: temporal robustness, factual knowledge, TimeStress, temporal context, knowledge representation

一句话总结

发布 TimeStress 数据集(521K 陈述,2003 条时间事实),评估 18 个 LLM 在时间上下文变化下的事实知识鲁棒性,发现最好的模型仅对 11% 的事实实现完美鲁棒,且存在人类不会犯的关键错误。

研究背景与动机

领域现状:LLM 存储了大量事实知识,但这些知识在面对文本扰动(释义、拼写错误、否定等)时不够鲁棒。时间维度的鲁棒性研究相对不足。

现有痛点:现有时间推理工作(TimeBench、TempReason 等)测试时间逻辑运算能力,但未系统测试同一事实在不同时间上下文下的鲁棒性。

核心矛盾:LLM 能否正确地将一个时间上下文(如"在2011年")与一个有明确效力期的过去事实关联?能否在所有正确/错误的时间上下文间保持一致?

本文目标 量化 LLM 时间表示的鲁棒性和异常。

切入角度:构造"比赛"——让 LLM 在同一事实的正确和错误时间上下文的陈述间做偏好判断,沿两个维度变化:错误上下文到效力期的距离、时间粒度(年/月/日)。

核心 idea:LLM 的时间表示存在基本缺陷——即使对"已知"事实,也无法在所有时间上下文变体中保持一致,且会犯人类绝不会犯的远距离时间错误。

方法详解

整体框架

从 Wikidata 收集 2003 条有效力期的时间事实 -> 用 GPT-4o 生成高质量 QA 文本化 -> 采样正确/错误/过渡时间上下文 -> 构造配对比赛 -> 用 18 个 LLM 的条件概率评估偏好 -> 计算胜率和鲁棒性。

关键设计

  1. 时间事实形式化

    • 五元组 (s, r, o, a, b),如 (Obama, president, USA, 2009-01-20, 2017-01-20)
    • 时间上下文分正确(完全在 [a,b] 内)、错误(完全在 [a,b] 外)、过渡(部分重叠)
    • 设计动机:严格定义正确/错误,避免歧义
  2. 相对距离 α 指标

    • \(\alpha\) = 上下文中点到效力期中点的距离 / 效力期长度
    • |α| < 0.5 为正确,|α| > 0.5 为错误
    • 设计动机:允许分析距离效应——远处的错误上下文应该更容易区分
  3. 三种时间粒度

    • Y(年)、YM(年月)、YMD(年月日)
    • 从粗到细的层级结构
    • 设计动机:测试知识在不同粒度间的传递能力
  4. 两个核心指标

    • 胜率 W(M,f):模型在事实 f 上正确偏好正确上下文的比率
    • 鲁棒性 R(M,f) = 1[W(M,f) = 1]:仅当 100% 正确才算鲁棒
    • 设计动机:鲁棒性是更严格的指标,一个错误就算不鲁棒

数据集构建

  • 2003 条时间事实 × 多个时间上下文 = 521K 陈述
  • 平均每个事实 11 个正确上下文 + 74 个错误上下文
  • 覆盖 86 种关系,1883 个不同实体

实验关键数据

主实验 — 平均胜率和鲁棒性(Top 5 模型)

模型 平均胜率 (Y) 平均鲁棒性 (Y) 全部粒度鲁棒性
Llama-3.1-70B-Instruct 87% 14% 9%
gemma-2-27b-it 85% 17% 11%
gemma-2-9b-it 83% 12% 7%
Mistral-Nemo 80% 8% 4%
Llama-3.1-8B-Instruct 78% 5% 3%

远距离错误分析(胜率 >95% 的"已知"事实中)

| 错误上下文距离 |α| | 仍犯错的比例 (Raw Text) | 仍犯错的比例 (Instruction) | |--------------|------------------------|--------------------------| | ≥ 1 | 19% | 25% | | ≥ 2 | 9% | 13% | | ≥ 3 | 6% | 8% | | ≥ 4 | 4% | 5% |

粒度间知识传递

从→到 成功率 说明
Y → YM 74% 从粗到细传递困难
Y → YMD 68% 更细粒度更难
YM → Y 88% 从细到粗较容易
平均失败率 28% 近三分之一事实无法跨粒度传递

关键发现

  • 最好的模型(gemma-2-27b-it)也仅对 11% 的事实完全鲁棒——绝大多数事实至少有一个时间上下文被错判
  • 远距离错误是系统性的:即使在"几乎确定知道"的事实上,19% 的错误来自距离效力期 1 倍以上的上下文——人类不会犯这种错误
  • 粒度间传递失败率 28%:知道年级别的正确上下文不保证知道月级别的
  • Instruction 格式反而增加了关键错误:与 raw text 相比,instruction 格式下远距离错误更多
  • 过渡期上下文概率更高:可能因为训练数据中开始/结束年份比效力期内的年份更常与事实共现
  • 指令微调提升鲁棒性:Llama-3.1-70B-Instruct 比 base 版本鲁棒性高 3.6 倍

亮点与洞察

  • "胜率高但鲁棒性低"的巨大鸿沟是论文最重要的发现——87% 平均胜率看似不错,但只有 11% 完美鲁棒,说明 LLM 的时间知识"大致对但细节不可靠"。
  • 远距离关键错误直接挑战了 LLM 作为知识存储的可靠性——如果一个知道 Obama 2009-2017 年是总统的模型,在 1998 年的上下文中仍然赋予较高概率,这说明其时间表示存在根本性缺陷。
  • 粒度传递实验揭示了一个被忽视的问题——LLM 没有真正理解"包含"关系(2018年1月 包含在 2018年 内)。

局限与展望

  • 事实选择偏向高人气实体,低频知识的时间鲁棒性可能更差
  • 仅限过去的事实(2021年前结束),未来事实处理未测试
  • 效力期 >3 年的限制排除了短期事实
  • 改进方向:时间感知的微调数据构建、时间表示增强方法、多跳时间推理鲁棒性

相关工作与启发

  • vs ChronoSense:ChronoSense 测试 Allen 区间关系的推理能力,TimeStress 测试同一事实在不同时间上下文下的鲁棒性——互补方向
  • vs TempReason (Tan et al.):TempReason 用平均性能评估,TimeStress 用鲁棒性(100% 正确率)评估——后者更严格
  • vs 知识编辑工作:TimeStress 不是要更新知识,而是测试现有知识在时间维度的一致性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 LLM 时间知识鲁棒性,远距离异常发现新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 18 个模型,521K 陈述,多维度分析
  • 写作质量: ⭐⭐⭐⭐⭐ 形式化严谨,可视化优秀
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 知识表示和 RAG 系统可靠性有重要启示