SPAN: Benchmarking and Improving Cross-Calendar Temporal Reasoning of Large Language Models¶

会议: AAAI 2026
arXiv: 2511.09993
代码: GitHub
领域: 代码智能
关键词: 跨日历推理, 时间推理, 六种日历, 工具增强agent, 评估基准

一句话总结¶

提出SPAN跨日历时间推理基准（6种日历×10推理方向×100年范围×37380实例），发现基础LLM平均仅34.5%准确率（无一超过80%），揭示Future-Date Degradation和Calendar Asymmetry Bias两种系统性失败模式，工具增强的Time Agent达95.31%——证明跨日历推理需要外部工具而非参数化知识。

研究背景与动机¶

领域现状：LLM时间推理评估局限于公历（Gregorian），未考虑全球20+种日历系统对多文化应用的重要性。

现有痛点：(a) 无跨日历推理基准；(b) 不同日历系统间的转换涉及复杂的天文/宗教/文化规则（如伊斯兰历基于月相，每年比公历短约11天）；(c) LLM的时间知识主要来自公历语料。

核心矛盾：跨日历转换需要精确的数学计算和领域知识，但LLM的参数化记忆无法覆盖所有日历-日期组合（尤其是未来日期）。

本文目标 建立系统基准评估跨日历推理+设计工具增强的解决方案。

切入角度：模板驱动的动态实例化避免数据污染，6种日历覆盖全球主要文化圈。

核心 idea：6种日历×10推理方向×100年的系统基准+tool-augmented Time Agent实现95.31%准确率。

方法详解¶

整体框架¶

6种日历：公历、农历、沙卡历、希伯来历、伊斯兰历、波斯历。10种推理方向（日历内→跨日历×2方向×日期/节日×极性/内容问题）。100年范围：1960-2060。

关键设计¶

模板驱动动态生成：
- 功能：运行时实例化避免数据污染
- 四阶段：日历转换 → 模板匹配 → 变量实例化(\(n_d\in[1,10]\)天/\(n_w\in[1,10]\)周/\(n_y\in[1,5]\)年) → 代码执行验证
- 设计动机：静态数据集会被LLM预训练数据污染
Time Agent：
- 功能：LLM + search_calendar工具接口
- 三步流程：Few-shot prompting生成可执行代码 → 代码执行 → GPT-4o基于执行结果生成最终答案
- search_calendar接口支持 {calendar_name, year, month, day} 和 {calendar_name, year, festival_name}
- 设计动机：精确日历转换需要算法而非记忆
两种推理类型：
- 日期推理：给定特定日期进行推理
- 节日推理：给定某日历的节日名计算日期
- 每种含极性问题（是/否）和内容问题（具体日期）

实验关键数据¶

主实验（37380实例）¶

模型	平均准确率	说明
GPT-4o	~45%	最强闭源
Claude-3.7-Sonnet	~43%	竞争力
DeepSeek-V3	~45%	匹配闭源
Gemini-1.5-Pro	<30%	最差
平均所有LLM	34.5%	无一超80%
OpenAI-o1(推理)	59.29%	第二名
GPT-4o+RAG	43.69%	仅+0.68%
Time Agent	95.31%	工具完胜

系统性失败模式分析¶

失败模式	表现	幅度
Future-Date Degradation	过去~40% → 未来~25%	-15pp
Calendar Asymmetry Bias	公历→其他 vs 反向	3.97-17.49%偏差
极性vs内容	极性>内容	+18.86%平均
日期vs节日	节日>日期	+2.87-12.60%

关键发现¶

跨日历推理是LLM的系统性盲区——34.5%接近随机
Future-Date Degradation：未来日期准确率比过去日期低10-15pp——训练数据中未来事件不存在
Calendar Asymmetry Bias：公历→其他方向准确率高15-17pp——预训练数据以公历为主
工具增强是唯一有效方案：Time Agent(95.31%) vs o1推理(59.29%) vs RAG(43.69%)——推理和检索都不够
RAG几乎无帮助（+0.68%）——因为RAG检索的也是参数化知识来源

亮点与洞察¶

揭示了LLM时间知识的两个系统性偏差——Future-Date Degradation和Calendar Asymmetry Bias是可推广的发现。其他类型的知识（如非西方法律体系、非英语文学）可能有类似的"中心-边缘"偏差。
工具vs推理vs检索的清晰分层：Time Agent(95%) >> o1(59%) >> RAG(44%) >> 基础LLM(34%)。精确计算类任务需要工具而非更强的推理或更多的检索。
动态实例化防污染的设计简洁但关键——确保了基准的长期有效性。

局限与展望¶

仅6种日历，可扩展到日本历、泰佛历、印度国定历等
Time Agent依赖search_calendar API的覆盖度
仅测试日历转换，未测试更复杂的时间推理（如"从伊斯兰历到农历的星期几"）
可以研究如何将时间推理能力内化到模型参数中

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个跨日历推理基准，两种系统性失败模式的发现
实验充分度: ⭐⭐⭐⭐⭐ 37380实例×6日历×10方向×多模型+工具对比
写作质量: ⭐⭐⭐⭐ 基准设计系统
价值: ⭐⭐⭐⭐ 对多文化LLM评估和工具增强推理有重要贡献