Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations¶
会议: ACL 2025
arXiv: 2502.01220
代码: https://github.com/Orange-OpenSource/TimeStress
领域: LLM/NLP
关键词: temporal robustness, factual knowledge, TimeStress, temporal context, knowledge representation
一句话总结¶
发布 TimeStress 数据集(521K 陈述,2003 条时间事实),评估 18 个 LLM 在时间上下文变化下的事实知识鲁棒性,发现最好的模型仅对 11% 的事实实现完美鲁棒,且存在人类不会犯的关键错误。
研究背景与动机¶
领域现状:LLM 存储了大量事实知识,但这些知识在面对文本扰动(释义、拼写错误、否定等)时不够鲁棒。时间维度的鲁棒性研究相对不足。
现有痛点:现有时间推理工作(TimeBench、TempReason 等)测试时间逻辑运算能力,但未系统测试同一事实在不同时间上下文下的鲁棒性。
核心矛盾:LLM 能否正确地将一个时间上下文(如"在2011年")与一个有明确效力期的过去事实关联?能否在所有正确/错误的时间上下文间保持一致?
本文目标 量化 LLM 时间表示的鲁棒性和异常。
切入角度:构造"比赛"——让 LLM 在同一事实的正确和错误时间上下文的陈述间做偏好判断,沿两个维度变化:错误上下文到效力期的距离、时间粒度(年/月/日)。
核心 idea:LLM 的时间表示存在基本缺陷——即使对"已知"事实,也无法在所有时间上下文变体中保持一致,且会犯人类绝不会犯的远距离时间错误。
方法详解¶
整体框架¶
从 Wikidata 收集 2003 条有效力期的时间事实 -> 用 GPT-4o 生成高质量 QA 文本化 -> 采样正确/错误/过渡时间上下文 -> 构造配对比赛 -> 用 18 个 LLM 的条件概率评估偏好 -> 计算胜率和鲁棒性。
关键设计¶
-
时间事实形式化
- 五元组 (s, r, o, a, b),如 (Obama, president, USA, 2009-01-20, 2017-01-20)
- 时间上下文分正确(完全在 [a,b] 内)、错误(完全在 [a,b] 外)、过渡(部分重叠)
- 设计动机:严格定义正确/错误,避免歧义
-
相对距离 α 指标
- \(\alpha\) = 上下文中点到效力期中点的距离 / 效力期长度
- |α| < 0.5 为正确,|α| > 0.5 为错误
- 设计动机:允许分析距离效应——远处的错误上下文应该更容易区分
-
三种时间粒度
- Y(年)、YM(年月)、YMD(年月日)
- 从粗到细的层级结构
- 设计动机:测试知识在不同粒度间的传递能力
-
两个核心指标
- 胜率 W(M,f):模型在事实 f 上正确偏好正确上下文的比率
- 鲁棒性 R(M,f) = 1[W(M,f) = 1]:仅当 100% 正确才算鲁棒
- 设计动机:鲁棒性是更严格的指标,一个错误就算不鲁棒
数据集构建¶
- 2003 条时间事实 × 多个时间上下文 = 521K 陈述
- 平均每个事实 11 个正确上下文 + 74 个错误上下文
- 覆盖 86 种关系,1883 个不同实体
实验关键数据¶
主实验 — 平均胜率和鲁棒性(Top 5 模型)¶
| 模型 | 平均胜率 (Y) | 平均鲁棒性 (Y) | 全部粒度鲁棒性 |
|---|---|---|---|
| Llama-3.1-70B-Instruct | 87% | 14% | 9% |
| gemma-2-27b-it | 85% | 17% | 11% |
| gemma-2-9b-it | 83% | 12% | 7% |
| Mistral-Nemo | 80% | 8% | 4% |
| Llama-3.1-8B-Instruct | 78% | 5% | 3% |
远距离错误分析(胜率 >95% 的"已知"事实中)¶
| 错误上下文距离 |α| | 仍犯错的比例 (Raw Text) | 仍犯错的比例 (Instruction) | |--------------|------------------------|--------------------------| | ≥ 1 | 19% | 25% | | ≥ 2 | 9% | 13% | | ≥ 3 | 6% | 8% | | ≥ 4 | 4% | 5% |
粒度间知识传递¶
| 从→到 | 成功率 | 说明 |
|---|---|---|
| Y → YM | 74% | 从粗到细传递困难 |
| Y → YMD | 68% | 更细粒度更难 |
| YM → Y | 88% | 从细到粗较容易 |
| 平均失败率 | 28% | 近三分之一事实无法跨粒度传递 |
关键发现¶
- 最好的模型(gemma-2-27b-it)也仅对 11% 的事实完全鲁棒——绝大多数事实至少有一个时间上下文被错判
- 远距离错误是系统性的:即使在"几乎确定知道"的事实上,19% 的错误来自距离效力期 1 倍以上的上下文——人类不会犯这种错误
- 粒度间传递失败率 28%:知道年级别的正确上下文不保证知道月级别的
- Instruction 格式反而增加了关键错误:与 raw text 相比,instruction 格式下远距离错误更多
- 过渡期上下文概率更高:可能因为训练数据中开始/结束年份比效力期内的年份更常与事实共现
- 指令微调提升鲁棒性:Llama-3.1-70B-Instruct 比 base 版本鲁棒性高 3.6 倍
亮点与洞察¶
- "胜率高但鲁棒性低"的巨大鸿沟是论文最重要的发现——87% 平均胜率看似不错,但只有 11% 完美鲁棒,说明 LLM 的时间知识"大致对但细节不可靠"。
- 远距离关键错误直接挑战了 LLM 作为知识存储的可靠性——如果一个知道 Obama 2009-2017 年是总统的模型,在 1998 年的上下文中仍然赋予较高概率,这说明其时间表示存在根本性缺陷。
- 粒度传递实验揭示了一个被忽视的问题——LLM 没有真正理解"包含"关系(2018年1月 包含在 2018年 内)。
局限与展望¶
- 事实选择偏向高人气实体,低频知识的时间鲁棒性可能更差
- 仅限过去的事实(2021年前结束),未来事实处理未测试
- 效力期 >3 年的限制排除了短期事实
- 改进方向:时间感知的微调数据构建、时间表示增强方法、多跳时间推理鲁棒性
相关工作与启发¶
- vs ChronoSense:ChronoSense 测试 Allen 区间关系的推理能力,TimeStress 测试同一事实在不同时间上下文下的鲁棒性——互补方向
- vs TempReason (Tan et al.):TempReason 用平均性能评估,TimeStress 用鲁棒性(100% 正确率)评估——后者更严格
- vs 知识编辑工作:TimeStress 不是要更新知识,而是测试现有知识在时间维度的一致性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 LLM 时间知识鲁棒性,远距离异常发现新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 18 个模型,521K 陈述,多维度分析
- 写作质量: ⭐⭐⭐⭐⭐ 形式化严谨,可视化优秀
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 知识表示和 RAG 系统可靠性有重要启示