跳转至

SPAN: Benchmarking and Improving Cross-Calendar Temporal Reasoning of Large Language Models

会议: AAAI 2026
arXiv: 2511.09993
代码: GitHub
领域: 代码智能
关键词: 跨日历推理, 时间推理, 六种日历, 工具增强agent, 评估基准

一句话总结

提出SPAN跨日历时间推理基准(6种日历×10推理方向×100年范围×37380实例),发现基础LLM平均仅34.5%准确率(无一超过80%),揭示Future-Date Degradation和Calendar Asymmetry Bias两种系统性失败模式,工具增强的Time Agent达95.31%——证明跨日历推理需要外部工具而非参数化知识。

研究背景与动机

领域现状:LLM时间推理评估局限于公历(Gregorian),未考虑全球20+种日历系统对多文化应用的重要性。

现有痛点:(a) 无跨日历推理基准;(b) 不同日历系统间的转换涉及复杂的天文/宗教/文化规则(如伊斯兰历基于月相,每年比公历短约11天);(c) LLM的时间知识主要来自公历语料。

核心矛盾:跨日历转换需要精确的数学计算和领域知识,但LLM的参数化记忆无法覆盖所有日历-日期组合(尤其是未来日期)。

本文目标 建立系统基准评估跨日历推理+设计工具增强的解决方案。

切入角度:模板驱动的动态实例化避免数据污染,6种日历覆盖全球主要文化圈。

核心 idea:6种日历×10推理方向×100年的系统基准+tool-augmented Time Agent实现95.31%准确率。

方法详解

整体框架

6种日历:公历、农历、沙卡历、希伯来历、伊斯兰历、波斯历。10种推理方向(日历内→跨日历×2方向×日期/节日×极性/内容问题)。100年范围:1960-2060。

关键设计

  1. 模板驱动动态生成

    • 功能:运行时实例化避免数据污染
    • 四阶段:日历转换 → 模板匹配 → 变量实例化(\(n_d\in[1,10]\)天/\(n_w\in[1,10]\)周/\(n_y\in[1,5]\)年) → 代码执行验证
    • 设计动机:静态数据集会被LLM预训练数据污染
  2. Time Agent

    • 功能:LLM + search_calendar工具接口
    • 三步流程:Few-shot prompting生成可执行代码 → 代码执行 → GPT-4o基于执行结果生成最终答案
    • search_calendar接口支持 {calendar_name, year, month, day} 和 {calendar_name, year, festival_name}
    • 设计动机:精确日历转换需要算法而非记忆
  3. 两种推理类型

    • 日期推理:给定特定日期进行推理
    • 节日推理:给定某日历的节日名计算日期
    • 每种含极性问题(是/否)和内容问题(具体日期)

实验关键数据

主实验(37380实例)

模型 平均准确率 说明
GPT-4o ~45% 最强闭源
Claude-3.7-Sonnet ~43% 竞争力
DeepSeek-V3 ~45% 匹配闭源
Gemini-1.5-Pro <30% 最差
平均所有LLM 34.5% 无一超80%
OpenAI-o1(推理) 59.29% 第二名
GPT-4o+RAG 43.69% 仅+0.68%
Time Agent 95.31% 工具完胜

系统性失败模式分析

失败模式 表现 幅度
Future-Date Degradation 过去~40% → 未来~25% -15pp
Calendar Asymmetry Bias 公历→其他 vs 反向 3.97-17.49%偏差
极性vs内容 极性>内容 +18.86%平均
日期vs节日 节日>日期 +2.87-12.60%

关键发现

  • 跨日历推理是LLM的系统性盲区——34.5%接近随机
  • Future-Date Degradation:未来日期准确率比过去日期低10-15pp——训练数据中未来事件不存在
  • Calendar Asymmetry Bias:公历→其他方向准确率高15-17pp——预训练数据以公历为主
  • 工具增强是唯一有效方案:Time Agent(95.31%) vs o1推理(59.29%) vs RAG(43.69%)——推理和检索都不够
  • RAG几乎无帮助(+0.68%)——因为RAG检索的也是参数化知识来源

亮点与洞察

  • 揭示了LLM时间知识的两个系统性偏差——Future-Date Degradation和Calendar Asymmetry Bias是可推广的发现。其他类型的知识(如非西方法律体系、非英语文学)可能有类似的"中心-边缘"偏差。
  • 工具vs推理vs检索的清晰分层:Time Agent(95%) >> o1(59%) >> RAG(44%) >> 基础LLM(34%)。精确计算类任务需要工具而非更强的推理或更多的检索。
  • 动态实例化防污染的设计简洁但关键——确保了基准的长期有效性。

局限与展望

  • 仅6种日历,可扩展到日本历、泰佛历、印度国定历等
  • Time Agent依赖search_calendar API的覆盖度
  • 仅测试日历转换,未测试更复杂的时间推理(如"从伊斯兰历到农历的星期几")
  • 可以研究如何将时间推理能力内化到模型参数中

相关工作与启发

  • vs TimeQA/TempReason等时间基准:这些仅涵盖公历,SPAN首次覆盖多日历系统,填补了多文化时间推理评估的空白
  • vs 工具增强LLM:Time Agent证明了外部工具在精确计算任务上的不可替代性——95.31%vs推理模型59.29%的差距说明某些能力必须外置
  • vs RAG方法:GPT-4o+RAG仅提升0.68%(43.01→43.69%),说明检索增强对计算型任务基本无效——RAG检索的也是基于参数化知识的内容
  • 启发:多文化/多体系的评估对全球化AI部署至关重要。LLM的知识偏差(公历优先/过去优先)反映了训练数据的结构性不平衡
  • 后续方向:可以将SPAN的评估范式推广到其他文化依赖的推理任务(如非西方法律体系、传统医学等)
  • 实际应用场景:跨国企业的会议安排、国际节假日计算、多文化社区的公共服务等都依赖准确的跨日历转换
  • 与其他工具增强工作的联系:SPAN的发现与代码生成中RoutingGen的发现一致——某些任务本质上需要外部工具而非单纯的模型推理
  • 数据污染防护的通用性:模板驱动的动态实例化思路可迁移到其他需要防止预训练数据泄露的基准设计中
  • six calendars的文化覆盖:公历(西方)、农历(东亚)、沙卡历(印度)、希伯来历(犹太文化)、伊斯兰历(穆斯林世界)、波斯历(伊朗)——覆盖全球主要文化圈

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个跨日历推理基准,两种系统性失败模式的发现
  • 实验充分度: ⭐⭐⭐⭐⭐ 37380实例×6日历×10方向×多模型+工具对比
  • 写作质量: ⭐⭐⭐⭐ 基准设计系统
  • 价值: ⭐⭐⭐⭐ 对多文化LLM评估和工具增强推理有重要贡献