TimE: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios¶

会议: NeurIPS 2025
arXiv: 2505.12891
代码: GitHub
领域: LLM推理
关键词: 时间推理, 基准评估, 大语言模型, 多层级任务, 真实世界场景

一句话总结¶

本文提出 TimE，一个包含 38,522 个 QA 对的多层级时间推理基准，覆盖知识密集（Wiki）、动态事件（News）和多轮对话（Dial）三类真实场景，设计 11 个细粒度子任务系统评估 LLM 的时间推理能力，并发布人工标注子集 TimE-Lite。

研究背景与动机¶

领域现状: LLM 在数学和代码推理上取得显著进展，但时间推理能力仍面临挑战。
现有痛点: 现有时间推理基准（TimeBench、TRAM）主要关注简化场景，忽视真实世界的三大挑战：密集时间信息、快速变化的事件动态、社交交互中的复杂时间依赖。
核心矛盾: 时间推理本质上是层级化的（基础理解→表达推理→复杂关系推理），但现有基准缺乏这种分层评估。
本文目标: 构建覆盖多种真实场景、多层级任务的综合时间推理基准。
切入角度: 从三种数据源（Wikidata、新闻、超长对话）构建，模拟人类利用时间概念理解世界的过程。
核心 idea: 三级递进框架——Level 1 基础时间理解与检索、Level 2 时间表达推理、Level 3 复杂时间关系推理。

方法详解¶

整体框架¶

三个子数据集对应三种真实挑战：TimE-Wiki（知识密集，13,848 QA）、TimE-News（动态事件，19,958 QA）、TimE-Dial（多轮对话，4,716 QA）。数据构建使用规则模板 + DeepSeek-V3/R1 合成 QA 对，STARC 框架生成干扰选项。TimE-News 使用 BM25/Vector/Hybrid 三种 RAG 检索器处理超长新闻文档。

关键设计¶

三级任务体系:
- Level 1: Extract、Localization、Computation、DurationCompare、OrderCompare（5 个子任务）
- Level 2: Explicit Reasoning、Order Reasoning、Relative Reasoning（3 个子任务）
- Level 3: Co-temporality、Timeline、Counterfactual Reasoning（3 个子任务）
- 设计动机: 模拟人类从捕获时间概念→推理隐式表达→理解复杂关系的认知过程
数据构建流程:
- 功能: 确保数据质量和多样性
- 核心思路: 收集时间事实→构建时间线→合成 QA 对。使用规则模板 + DeepSeek-V3/R1 合成，STARC 框架生成干扰选项
- 设计动机: 不同数据源需要不同构建策略，News 使用 RAG 处理超长文档
TimE-Lite:
- 功能: 提供高质量人工验证子集
- 核心思路: 从 TimE 中系统采样 1,071 对，3 名专家标注，一致率 89.13%
- 设计动机: 保证评估可靠性，便于高效评测

损失函数 / 训练策略¶

评估指标: 自由问答用 F1/EM，选择题用 Macro F1
解码策略: 贪心搜索
评估模型: 24 个模型，包括推理模型和非推理模型

实验关键数据¶

主实验¶

模型	TimE-Wiki Level3	TimE-News Timeline	TimE-Dial Extract
o3-mini	~52% Avg	<30%	~40%
Qwen2.5-72B	~50% Avg	~27%	~40%
DeepSeek-R1	~55% Avg	33%	-

关键发现¶

知识密集场景：模型在隐式时间表达和跨事件关系上表现差（o3-mini 仅 52% Order Reasoning）
动态事件：Timeline 任务（排序 3 个事件）所有模型不超过 30%
多轮对话：时间检索和定位准确率仅约 40%，远低于其他数据集
推理模型在计算类任务优势明显，但在时间关系理解上提升有限
测试时扩展（TTS）对时间推理帮助不大
TTS 影响不一致：R1-Distill-Qwen-14B 在 TimE-Dial 的 OrderCompare/DurationCompare/Counterfactual 上分别提升 24.44%/11.33%/12.0%，但在 TimE-Wiki 的 Extract/Localization 上反而下降 3.36%/8.16%——系统化上下文遍历策略可能导致过度思考循环
检索器选择显著影响时间推理：GPT-4o 使用 Hybrid 检索器在 Timeline 任务上比 BM25/Vector 低 10%以上，说明准确的时间事实检索直接影响复杂事件推理效果
基础时间检索能力（Extract/Localization）与几乎所有高级时间推理任务的相关系数超过 0.5，聚类分析证实检索是推理的基础

亮点与洞察¶

首个系统覆盖三种真实世界时间推理挑战的基准
揭示了即使最强推理模型在时间推理上仍有显著不足
对话中的记忆式时间表达（如"上周六"）对模型构成独特挑战
支持 leaderboard，便于社区持续评测
TimE-Lite 提供 1,071 个人工验证 QA 对（3名专家标注，一致率 89.13%），确保评估可靠性
24 个模型的广泛评估覆盖推理模型（o3-mini、DeepSeek-R1）和非推理模型，使用贪心搜索解码

局限与展望¶

QA 合成依赖 LLM，可能存在质量偏差
News 数据依赖 RAG，检索质量影响评估
未覆盖多模态时间推理场景
部分任务的难度设计可能需要根据模型能力动态调整
TimE-Dial 中小规模模型（8B）在 Extract 和 Localization 任务上仅约 30-40%，远低于 TimE-Wiki 的 60-70%，说明多轮对话中的记忆式时间表达（如"上次我们聊天时"、"两天后"）是独特挑战
聚类分析将 11 个子任务自然分为三组：基础检索（Extract/Localization）、推理（Reasoning/Compare）和复杂关系（Timeline/Counterfactual），各组难度递进

评分¶

实现细节¶

38,522个QA对，覆盖3种场景（Wiki/News/Dial）×3级任务×11子任务。 TimE-Lite含1,071个人工验证QA对，3名专家标注一致率89.13%。评估24个模型，使用贪心搜索解码，F1/EM（自由问答）和Macro F1（选择题）。 - 新颖性: ⭐⭐⭐⭐ 多层级多场景的时间推理基准设计新颖 - 实验充分度: ⭐⭐⭐⭐⭐ 24 个模型的广泛评估 - 写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富 - 价值: ⭐⭐⭐⭐⭐ 填补了时间推理评估的重要空白