Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations¶

会议: ACL 2025
arXiv: 2502.01220
代码: https://github.com/Orange-OpenSource/TimeStress
领域: LLM/NLP
关键词: temporal robustness, factual knowledge, TimeStress, temporal context, knowledge representation

一句话总结¶

发布 TimeStress 数据集（521K 陈述，2003 条时间事实），评估 18 个 LLM 在时间上下文变化下的事实知识鲁棒性，发现最好的模型仅对 11% 的事实实现完美鲁棒，且存在人类不会犯的关键错误。

研究背景与动机¶

领域现状：LLM 存储了大量事实知识，但这些知识在面对文本扰动（释义、拼写错误、否定等）时不够鲁棒。时间维度的鲁棒性研究相对不足。

现有痛点：现有时间推理工作（TimeBench、TempReason 等）测试时间逻辑运算能力，但未系统测试同一事实在不同时间上下文下的鲁棒性。

核心矛盾：LLM 能否正确地将一个时间上下文（如"在2011年"）与一个有明确效力期的过去事实关联？能否在所有正确/错误的时间上下文间保持一致？

本文目标 量化 LLM 时间表示的鲁棒性和异常。

切入角度：构造"比赛"——让 LLM 在同一事实的正确和错误时间上下文的陈述间做偏好判断，沿两个维度变化：错误上下文到效力期的距离、时间粒度（年/月/日）。

核心 idea：LLM 的时间表示存在基本缺陷——即使对"已知"事实，也无法在所有时间上下文变体中保持一致，且会犯人类绝不会犯的远距离时间错误。

方法详解¶

整体框架¶

从 Wikidata 收集 2003 条有效力期的时间事实 -> 用 GPT-4o 生成高质量 QA 文本化 -> 采样正确/错误/过渡时间上下文 -> 构造配对比赛 -> 用 18 个 LLM 的条件概率评估偏好 -> 计算胜率和鲁棒性。

关键设计¶

时间事实形式化
- 五元组 (s, r, o, a, b)，如 (Obama, president, USA, 2009-01-20, 2017-01-20)
- 时间上下文分正确（完全在 [a,b] 内）、错误（完全在 [a,b] 外）、过渡（部分重叠）
- 设计动机：严格定义正确/错误，避免歧义
相对距离 α 指标
- \(\alpha\) = 上下文中点到效力期中点的距离 / 效力期长度
- |α| < 0.5 为正确，|α| > 0.5 为错误
- 设计动机：允许分析距离效应——远处的错误上下文应该更容易区分
三种时间粒度
- Y（年）、YM（年月）、YMD（年月日）
- 从粗到细的层级结构
- 设计动机：测试知识在不同粒度间的传递能力
两个核心指标
- 胜率 W(M,f)：模型在事实 f 上正确偏好正确上下文的比率
- 鲁棒性 R(M,f) = 1[W(M,f) = 1]：仅当 100% 正确才算鲁棒
- 设计动机：鲁棒性是更严格的指标，一个错误就算不鲁棒

数据集构建¶

2003 条时间事实 × 多个时间上下文 = 521K 陈述
平均每个事实 11 个正确上下文 + 74 个错误上下文
覆盖 86 种关系，1883 个不同实体

实验关键数据¶

主实验 — 平均胜率和鲁棒性（Top 5 模型）¶

模型	平均胜率 (Y)	平均鲁棒性 (Y)	全部粒度鲁棒性
Llama-3.1-70B-Instruct	87%	14%	9%
gemma-2-27b-it	85%	17%	11%
gemma-2-9b-it	83%	12%	7%
Mistral-Nemo	80%	8%	4%
Llama-3.1-8B-Instruct	78%	5%	3%

远距离错误分析（胜率 >95% 的"已知"事实中）¶

| 错误上下文距离 |α| | 仍犯错的比例 (Raw Text) | 仍犯错的比例 (Instruction) | |--------------|------------------------|--------------------------| | ≥ 1 | 19% | 25% | | ≥ 2 | 9% | 13% | | ≥ 3 | 6% | 8% | | ≥ 4 | 4% | 5% |

粒度间知识传递¶

从→到	成功率	说明
Y → YM	74%	从粗到细传递困难
Y → YMD	68%	更细粒度更难
YM → Y	88%	从细到粗较容易
平均失败率	28%	近三分之一事实无法跨粒度传递

关键发现¶

最好的模型（gemma-2-27b-it）也仅对 11% 的事实完全鲁棒——绝大多数事实至少有一个时间上下文被错判
远距离错误是系统性的：即使在"几乎确定知道"的事实上，19% 的错误来自距离效力期 1 倍以上的上下文——人类不会犯这种错误
粒度间传递失败率 28%：知道年级别的正确上下文不保证知道月级别的
Instruction 格式反而增加了关键错误：与 raw text 相比，instruction 格式下远距离错误更多
过渡期上下文概率更高：可能因为训练数据中开始/结束年份比效力期内的年份更常与事实共现
指令微调提升鲁棒性：Llama-3.1-70B-Instruct 比 base 版本鲁棒性高 3.6 倍

亮点与洞察¶

"胜率高但鲁棒性低"的巨大鸿沟是论文最重要的发现——87% 平均胜率看似不错，但只有 11% 完美鲁棒，说明 LLM 的时间知识"大致对但细节不可靠"。
远距离关键错误直接挑战了 LLM 作为知识存储的可靠性——如果一个知道 Obama 2009-2017 年是总统的模型，在 1998 年的上下文中仍然赋予较高概率，这说明其时间表示存在根本性缺陷。
粒度传递实验揭示了一个被忽视的问题——LLM 没有真正理解"包含"关系（2018年1月包含在 2018年内）。

局限与展望¶

事实选择偏向高人气实体，低频知识的时间鲁棒性可能更差
仅限过去的事实（2021年前结束），未来事实处理未测试
效力期 >3 年的限制排除了短期事实
改进方向：时间感知的微调数据构建、时间表示增强方法、多跳时间推理鲁棒性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 LLM 时间知识鲁棒性，远距离异常发现新颖
实验充分度: ⭐⭐⭐⭐⭐ 18 个模型，521K 陈述，多维度分析
写作质量: ⭐⭐⭐⭐⭐ 形式化严谨，可视化优秀
价值: ⭐⭐⭐⭐⭐ 对 LLM 知识表示和 RAG 系统可靠性有重要启示