Inductive Reasoning for Temporal Knowledge Graphs with Emerging Entities¶
会议: ICLR 2026
代码: https://github.com/zhaodazhuang2333/TransFIR
领域: 图学习 / 时序知识图谱推理
关键词: 时序知识图谱, 归纳推理, 新增实体, 向量量化码本, 表征坍缩, 模式迁移
一句话总结¶
针对时序知识图谱里「没有任何历史交互」的新增实体,TransFIR 用一个 BERT 文本嵌入 + 可学习 VQ 码本把实体归入语义簇,再把语义相似的已知实体的交互链模式迁移过去,从而避免表征坍缩,在四个基准上 MRR 平均提升 28.6%。
研究背景与动机¶
领域现状:时序知识图谱(TKG)推理的任务是给定查询 \((e_s, r, ?, t_q)\) 预测未来某时刻缺失的实体,支撑事件预测、时序问答、临床风险分析等应用。主流方法(REGCN、LogCL、HisRes 等)擅长建模关系动态演化,在标准测试集上表现很强。
现有痛点:这些方法几乎都建立在封闭世界假设之上——训练时实体集合固定。但真实图谱里实体持续涌入:社交平台不断加新用户、分子网络不断来新化合物。作者的实证研究发现,TKG 中约 25% 的实体只在推理集出现,训练时从未见过、也没有任何历史交互。
核心矛盾:现有方法依赖实体专属嵌入(transductive),新增实体由于缺乏历史交互监督信号,嵌入无法被有效训练。作者用 t-SNE 和自定义的 Collapse Ratio(基于协方差 log-det 的旋转不变指标)量化发现:LogCL 训练后新增实体的 Collapse Ratio 从 1.02 暴跌到 0.0055,发生严重的表征坍缩——新增实体嵌入挤成一团、与已知实体漂移到不同流形上,导致在涉及新增实体的三元组上性能大幅下降。静态 KG 的归纳方法(InGram、ULTRA)虽能处理新实体,但它们假设新实体已经带有已知交互,无法应对「零交互」的 TKG 新增实体。
本文目标:正式定义「无历史交互的 TKG 新增实体归纳推理」任务,并设计一个能在零交互下防止表征坍缩、为新增实体生成有信息量表征的框架。
核心 idea:作者观察到——语义类型相似的实体往往有可迁移的交互模式(不同国家的新任总统都遵循「出访→谈判」这类事件序列)。基于此,用语义簇作为桥梁,把语义相似已知实体的交互链模式迁移给新增实体。
方法详解¶
整体框架¶
TransFIR 遵循一条 Classification → Representation → Generalization 三段式流水线:先用文本嵌入 + VQ 码本把所有实体(含新增)映射到潜在语义簇(提供「无需历史」的类别先验);再围绕查询实体构建并编码「交互链」(Interaction Chain)以捕捉可迁移的有序交互模式;最后在每个簇内做动态原型池化与模式迁移,让零交互的新增实体也能借到同簇已知实体的时序模式,得到有信息量的时间感知表征。
flowchart LR
A[实体标题<br/>BERT冻结编码 he] --> B[VQ码本量化<br/>π = argmin‖he-ck‖]
B --> C[潜在语义簇]
D[查询实体历史<br/>窗口T内交互] --> E[构建交互链 IC<br/>按查询关系TopK筛选]
E --> F[Transformer编码<br/>关系引导注意力]
F --> G[查询链表征 h_IC]
C --> H[簇内池化<br/>动态原型 c_dyn]
G --> H
H --> I[模式迁移<br/>~he = he + ω·c_dyn]
I --> J[ConvTransE打分<br/>候选实体排序]
关键设计¶
1. 交互感知的 VQ 码本分类:给零交互实体一个类别先验。 直接更新实体嵌入会让缺监督的新增实体坍缩,纯靠冻结嵌入又无法适应 TKG 的动态交互——作者折中:实体嵌入冻结、簇原型可训练。每个实体先用预训练 BERT 对其标题取静态文本嵌入 \(h_e \in \mathbb{R}^d\)(冻结,所以新增实体即使零交互也能被编码);维护可学习码本 \(C=\{c_1,\dots,c_K\}\),把实体量化到最近码字 \(\pi(e)=\arg\min_k \|h_e - c_k\|_2^2\)。码本通过码本损失 \(L_{cb}=\|\mathrm{sg}[h_e]-c_{\pi(e)}\|_2^2\)(拉原型靠近嵌入)和承诺损失 \(L_{commit}=\|h_e-\mathrm{sg}[c_{\pi(e)}]\|_2^2\)(拉嵌入靠近原型)联合优化,\(\mathrm{sg}[\cdot]\) 为停梯度。与静态聚类不同,码字与任务目标联合训练,使簇变得「交互感知」,让 Country / Civic & Parties / Citizen 这类语义一致的类型自然浮现。
2. 交互链编码:用有序序列而非无序邻域捕捉实体无关的时序模式。 既然可迁移的是「出访→谈判」这类有序事件序列,那就不能用打乱顺序的时序邻域。对查询 \(q=(e_q, r_q, ?, t_q)\),在窗口 \(T\) 内按时间顺序收集 \(e_q\) 的历史交互构成交互链 \(C_q\),再按关系与查询关系的余弦相似度做 TopK 筛选 \(C_q^{(k)}=\mathrm{TopK}_i(\mathrm{sim}(h_{r_q}, h_{r_i}), C_q)\),只保留最相关的 \(k\) 条并维持时间序。每条交互经分量特定变换并融合 \(x_i = f(\phi_e(h_{s_i}), \phi_r(h_{r_i}), \phi_e(h_{o_i}), \phi_\tau(h_{\Delta t_i}))\),其中实体嵌入冻结、关系嵌入可训练、\(\Delta t_i = t_q - t_i\) 编码相对时间间隔。序列经 Transformer 上下文化后,用查询关系 \(h_{r_q}\) 调制的关系引导注意力 \(\alpha_i \propto \exp(w^\top \tanh(W_h h_i + W_q h_{r_q}))\) 加权求和,得到查询特定的链表征 \(h_{e_q}^{IC}\),突出与 \(r_q\) 最相关的交互。
3. 链模式迁移:从同簇已知实体「借」时序模式给新增实体。 链编码只刻画查询实体自身,新增实体交互稀疏仍然静态。于是在每个时刻 \(t\) 按码本归属做簇内池化得到动态原型 \(c_k^{dyn}=\frac{1}{|Q_k|}\sum_{e\in Q_k} h_e^{IC}\)(\(Q_k\) 为簇 \(k\) 的实体集),它汇聚了该语义簇共享的时序演化。然后每个实体把静态嵌入与簇原型拼接 \(z_e=[h_e \| c_{\pi(e)}^{dyn}]\),经参数映射生成迁移向量 \(\omega_e=\Psi(z_e)\),最终表征 \(\tilde{h}_e = h_e + \omega_e \cdot c_{\pi(e)}^{dyn}\)。零交互的新增实体由此继承同簇已知实体的交互链信息。打分用 ConvTransE:\(\phi(e_q, r_q, e_o, t)=\sigma(f(\tilde{h}_{e_q}, h_{r_q}, \tilde{h}_{e_o}))\),总损失为链接预测交叉熵加码本损失 \(L = L_{lp} + \lambda L_{codebook}\),两者同步训练。
实验关键数据¶
主实验表格¶
四个基准(ICEWS14/18/05-15、GDELT),采用 5:2:3 时间切分(比常规 8:1:1 暴露更多新增实体),只评估涉及新增实体的三元组。对比 13 个 graph-based / path-based / inductive 基线:
| 方法 | ICEWS14 MRR | ICEWS18 MRR | ICEWS05-15 MRR | GDELT MRR |
|---|---|---|---|---|
| REGCN (2021) | 0.1175 | 0.0947 | 0.0887 | 0.0222 |
| LogCL (2024) | 0.1354 | 0.0903 | 0.1917 | 0.0473 |
| HisRes (2025) | 0.1169 | 0.0445 | 0.1325 | 0.0932 |
| CompGCN (2020) | 0.0682 | 0.0638 | 0.1885 | 0.0472 |
| InGram (2023) | 0.0563 | 0.0254 | 0.0771 | 0.0471 |
| TransFIR | 0.1687 | 0.1177 | 0.2204 | 0.1103 |
| 提升 | +24.6% | +24.3% | +15.0% | +50.5% |
Hits@10 上 GDELT 提升高达 101.4%,四数据集平均 MRR 提升 28.6%。
消融实验表格¶
(Hits@10 视角,移除各模块均掉点)
| 变体 | 说明 | 影响 |
|---|---|---|
| -Codebook | 去码本映射,仅用静态聚类特征 | 掉点最严重之一 |
| -Pattern Transfer | 去模式迁移,用静态表征 | 掉点最严重之一 |
| -IC | 去交互链,仅用实体嵌入 | 明显掉点 |
| -Textual encoding | 去冻结文本嵌入,随机初始化 | 掉点(GDELT 例外) |
关键发现¶
- 表征坍缩被显著缓解:Collapse Ratio 从 LogCL 的 0.0055 提升到 TransFIR 的 0.8677,t-SNE 显示嵌入从「单一稠密团」变成「良好分离的簇」。
- 码本→真实语义类型:三个簇被识别为 Country / Civic & Parties / Citizen,新增实体被一致归入正确簇;案例研究中「墨西哥总统候选人发表声明」通过 Civic & Parties 簇里罗马尼亚总理、墨西哥官员的「make statement → Gov」模式成功预测 Gov(Mexico)。
- 码本与模式迁移是双核心:消融显示这两个模块缺一不可。
- GDELT 文本编码反例:GDELT 实体标题多缩写/符号(如 "EGYPT (EGY@ OPP REF...)"),去掉文本编码反而有时更好,说明文本质量影响模块收益。
亮点与洞察¶
- 问题定义有价值:把「无历史交互的 TKG 新增实体推理」正式化,并用 25% 占比的实证 + Collapse Ratio 指标把「表征坍缩」这个根因量化坐实,问题动机扎实。
- 用语义簇当迁移桥梁的思路自然:观察「相似类型实体共享交互模式」→ 码本聚类 → 簇内池化迁移,逻辑闭环顺畅,可解释性强(簇真的对应国家/政党/公民等类型)。
- 冻结嵌入 + 可训练原型的折中很巧:既避免新增实体嵌入坍缩,又让聚类随交互动态自适应,是本文防坍缩的关键设计抉择。
局限与展望¶
- 强依赖实体文本标题:方法靠 BERT 编码实体标题,对标题缺失或充满缩写/符号的图谱(如 GDELT)退化,作者也承认需引入外部知识丰富实体描述。
- 码本大小 K 是超参:簇数需手调,论文未深入讨论 K 对不同规模图谱的敏感性(虽附录有敏感性分析)。
- 只评估新增实体三元组:主实验聚焦 emerging 设定,对整体(含已知实体)的全局性能影响、与 SOTA 在 vanilla 设定下的权衡讨论较少。
- 迁移粒度较粗:模式迁移在簇级别做均值池化,可能丢失簇内细粒度差异,未来可探索注意力加权的细粒度迁移。
相关工作与启发¶
- TKG 推理:REGCN、LogCL、HisRes 等建模关系动态,但封闭世界假设;本文是首批系统处理零交互新增实体的工作之一。
- 归纳 KG 推理:InGram 构建关系亲和图、ULTRA 用相对交互表征泛化到新实体,但都针对静态 KG 且要求新实体已有交互——本文把归纳推理推进到「时序 + 零交互」的更难设定。
- 向量量化:借鉴 VQ-VAE 的码本机制做语义聚类,启发是 VQ 不只用于生成,也可作为「类别先验注入」的轻量工具,对冷启动/零样本问题有普适价值。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把「零交互新增实体」这一被忽视的现实问题正式化,用 VQ 码本 + 交互链 + 簇内模式迁移的组合解法新颖、自洽。
- 实验充分度: ⭐⭐⭐⭐ 四数据集、13 基线、完整消融 + 表征分析 + 案例研究 + Unknown 设定/鲁棒性/敏感性等扩展实验,覆盖全面。
- 写作质量: ⭐⭐⭐⭐ 三视角实证(Data/Representation/Feasibility)层层递进引出动机,Collapse Ratio 量化清晰,三段式 pipeline 表述明确。
- 价值: ⭐⭐⭐⭐ 新增实体冷启动是 TKG 落地的真实痛点,28.6% 的平均提升和强可解释性使方法有实用前景。