ChunQiuTR: Time-Keyed Temporal Retrieval in Classical Chinese Annals¶

会议: ACL 2026 Findings
arXiv: 2604.06997
代码: https://github.com/xbdxwyh/ChunQiuTR
领域: 信息检索 / 时序检索
关键词: 时间检索, 古典中文, 历法编码, 双编码器, RAG

一句话总结¶

提出 ChunQiuTR，首个基于非格里历的时间键检索基准，从《春秋》及其注疏传统中构建，并设计了 CTD（历法时间双编码器），通过傅里叶绝对历法上下文和相对偏移偏置实现时间感知检索，显著优于纯语义基线。

研究背景与动机¶

领域现状：RAG 系统中检索是 LLM 获取和定位知识的关键接口。在历史研究中，检索目标不是任意相关段落，而是特定纪年月份的精确记录——时间一致性与主题相关性同等重要。

现有痛点：古典中文编年体使用简洁隐含的非格里历年号表述（如"元年春"、"夏五月"），时间信息省略绝对年份，需从上下文推断。语义相似的段落可能在时间上完全不对——例如查询"庄公二年十二月"可能检索到同一日期短语的注疏评论（重复日期但未回答事件），或相邻月份的高度相似事件。

核心矛盾：语义相似性不等于时间一致性。现有神经检索方法将相关性建模为语义相似度，无法区分"时间近邻混淆器"——措辞高度相似但发生在不同月份的记录。

本文目标：在非格里历、王朝纪年体系下实现时间一致的检索，作为下游历史 RAG 的关键前提。

切入角度：利用《春秋》及其三传（左传、公羊传、穀梁传）的多层结构——所有层共享同一纪年时间线但以不同措辞描述相同事件，天然产生"近乎重复"的困难负例。

核心 idea：在语义匹配之上引入历法位置感知——学习连续历法轴，注入绝对历法上下文并添加相对时间偏置。

方法详解¶

整体框架¶

ChunQiuTR 由基准和方法两部分组成，要解决的是"语义相似但时间不一致"的检索失败：输入一条带时间键 \(\tau=(gong, year, month)\) 的查询，输出应是同一纪年月份的精确记录，而不是措辞相似却发生在邻月的混淆器。基准侧把《春秋》记录对齐到月级时间键，设计点查询 / 间隙查询 / 窗口查询三类，并从后世史书中提取时间近邻反事实困难负例；方法侧 CTD 在标准双编码器之上学习一条连续历法轴，先把绝对历法上下文注入嵌入，再用相对时间偏移给最终得分加偏置，从而在语义匹配里叠加时间一致性约束。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["《春秋》三传 + 后世史书"] --> B["时间键对齐与反事实负例<br/>记录对齐月级时间键 τ，提取时间近邻困难负例"]
    B --> C["共享 Transformer 编码器<br/>查询 / 记录 → 嵌入 h"]
    C --> D["潜在历法标量<br/>公 / 年 / 月预测头 → 软坐标 → 时间轴标量 u ∈ [0,1]"]
    subgraph S["绝对 + 相对时间增强"]
        direction TB
        E["绝对：傅里叶编码本 → 门控残差注入嵌入 h̃ = h + γc"]
        F["相对：时间偏移 Δu → 傅里叶 + MLP → 加性偏置 b_time"]
    end
    D --> S
    S --> G["最终得分 s = s_abs + b_time<br/>语义匹配叠加时间一致性约束"]
    G --> H["时间一致的检索结果"]

关键设计¶

1. 时间键对齐与反事实负例：让基准包含真实的时间近邻陷阱

历史检索最常见的失败正是时间近邻混淆——措辞高度相似但发生在不同月份的记录被误检，普通语料无法暴露这一点。基准把编年记录全部对齐到月级时间键，得到 20,172 条记录和 16,226 条查询，再从顾栋高《大事表》等后世史书中提取对同一事件的改写，作为时间近邻反事实困难负例：它们与目标记录共享时间键、措辞高度相似，却并非正确的检索目标。正因为这类困难负例构成了真实的失败模式，基准必须显式纳入它们，检索器才会被逼着学习区分时间而非只看语义。

2. 潜在历法标量：把离散王朝纪年映射成连续可度量的位置

王朝纪年（公/年/月）是离散标识符，不提供位置度量，也无法表达跨朝距离，因此时间关系无从量化。CTD 在共享 Transformer 编码器的嵌入上附加三个轻量预测头分别预测公、年、月，对输出概率分布取期望得到软坐标 \(g_x, y_x, m_x\)，再线性化为统一时间轴上的标量 \(u_x = \frac{g_x \cdot (Y \cdot M) + y_x \cdot M + m_x}{G \cdot Y \cdot M - 1} \in [0,1]\)。有了这条连续轴，任意两段文本的时间远近才变成可计算、可比较的距离，为后续注入和惩罚提供基础。

3. 绝对 + 相对时间增强：让嵌入知道位置、让得分惩罚错位

光有连续坐标还不够，需要把它真正作用到检索打分上，绝对和相对两条信号互补地完成这件事。绝对部分用傅里叶编码本把软预测映射成时间上下文向量，经门控残差注入嵌入 \(\tilde{h}_x = h_x + \gamma c_x\)，让嵌入本身"知道"文本在历法中的位置；相对部分计算查询-记录的时间偏移 \(\Delta u_{ij}\)，过傅里叶特征和 MLP 生成加性偏置 \(b_{ij}^{time}\)，最终得分为 \(s_{ij}^{CTD} = s_{ij}^{abs} + b_{ij}^{time}\)，对时间距离远的匹配直接扣分——即使它语义高度相似。消融显示单用任一信号都有提升，组合后改进最显著。

损失函数 / 训练策略¶

主损失用区间重叠多正例 InfoNCE：把时间区间重叠作为弱监督来标记批内正例，缓解严格单正例下的时间泛化不足。辅助损失训练三个时间预测头（公 / 年 / 月分类交叉熵 + 时间标签平滑），保证软坐标的可靠性。

实验关键数据¶

主实验¶

方法	P-Time R@1	G-Time R@1	W-Time R@1	平均
BM25	基线	基线	基线	-
DPR	语义基线	语义基线	语义基线	-
CTD (ours)	最优	最优	最优	显著提升

消融实验¶

配置	效果	说明
Semantic only	基线	无时间感知
+ Absolute context	提升	嵌入携带历法位置信息
+ Relative bias	进一步提升	惩罚时间距离远的匹配
+ Multi-positive	最优	区间重叠监督增强时间泛化

关键发现¶

时间近邻混淆是纯语义检索最大的失败模式——相邻月份措辞高度相似的记录频繁被误检
CTD 在时间近邻和相邻月份混淆器场景下改进最显著
绝对和相对时间信号互补——单独使用任一都有提升，组合效果更好

亮点与洞察¶

问题定义非常精准：将"时间一致性"从"语义相关性"中分离出来，揭示了 RAG 系统在历史文本中的核心失败模式
傅里叶历法编码的设计可以推广到任何非标准时间系统（如农历、伊斯兰历、日本年号等），不限于《春秋》
基准构建方法论（LLM 辅助提议 + 人工验证）在文化遗产数字化领域有良好的可推广性

局限与展望¶

仅在《春秋》语料上验证，其他编年体（如《资治通鉴》）的推广性未知
月级是最细粒度，日级时间信息在《春秋》中太稀疏无法系统化
评估了检索质量但未进一步验证下游 RAG 生成的忠实度改善

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个非格里历时间键检索基准，问题极具特色
实验充分度: ⭐⭐⭐⭐ 基准构建严谨，消融充分
写作质量: ⭐⭐⭐⭐⭐ 历史背景介绍与技术方法结合得非常好
价值: ⭐⭐⭐⭐ 对数字人文和历史 RAG 有独特价值