Knowledge Reasoning Language Model: Unifying Knowledge and Language for Inductive Knowledge Graph Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=2g8EmFwNTB
代码: https://github.com/lazyloafer/KRLM
领域: 图学习 / 知识图谱推理 / LLM
关键词: 归纳式知识图谱推理, 知识图谱基础模型, LLM, 知识失真, 知识互蒸馏

一句话总结¶

KRLM 把知识图谱的结构表示与 LLM 的内在知识统一成一种"知识推理语言"(KRL)，通过 KRL 分词器、带知识记忆的 KRL 注意力层和结构感知的下一实体预测器三件套，在归纳式 KGR 任务上抑制 LLM 被稀疏 KG 上下文带偏的"知识失真"和越界幻觉。

研究背景与动机¶

领域现状：归纳式知识图谱推理(Inductive KGR)要在含未见实体/关系的开放域 KG 上补全事实，核心是把训练 KG 的结构不变性泛化到陌生 KG。早期工作用知识图谱基础模型(KGFM, 如 ULTRA)捕捉跨 KG 的结构不变表示获得零样本能力；近期则进一步引入 LLM，做出 MKGL、PROLINK 这类 LLM-based KGFM，借 LLM 的开放域知识涌现挖掘更多隐含事实。

现有痛点：当前 LLM-based KGFM 普遍把稀疏的结构知识显式地拼成提示词(prompt)喂给 LLM。问题是 KG 抽出的上下文证据非常稀疏，反而会盖过 LLM 内在的稠密知识——论文用 Trainspotting 的例子说明：KG 里关于"film_genre"的唯一线索是"就读于音乐戏剧学院"，LLM 被这条有毒关联带偏，丢掉了自己本就知道的"dark comedy"答案。核心矛盾：KG 与 LLM 之间存在天然的知识表示鸿沟，两者协调不充分就会造成不可逆的"知识失真(knowledge distortion)"；同时 LLM 的涌现能力又会带来越界(out-of-scope)幻觉，损害推理结果的可信度。

本文目标：在整个 KGR 流程中实现 LLM 内在知识与 KG 结构上下文的统一协调，既治知识失真又约束越界幻觉。

核心idea：隐式注入而非显式拼接 —— 把 KG 的实体/关系编码成隐式知识表示，分别注入到推理指令(KRL instruction)和 LLM 参数(注意力层)两处，让 LLM 在一个更柔性的环境里去适配外部知识，而不是被生硬的稀疏 prompt 直接覆盖。

方法详解¶

整体框架¶

给定查询三元组 \(\langle e_h, r_q, ?\rangle\)，KRLM 先把它转成一条融合 LLM 内在知识(文本描述)与 KG 知识(结构嵌入)的 KRL 指令；经 KRL 分词器得到 token 嵌入序列(词级嵌入由 PAA 模块给出、结构知识表示由 GNN 知识编码器给出)；序列送入 \(N\) 层 KRL 注意力层，借动态知识记忆机制在 in-context learning 中协调两类知识；最后由 结构感知的下一实体预测器把结果严格约束在当前 KG 的实体词表内。训练用知识互蒸馏目标让结构侧与 KRL 侧打分分布互相对齐。

graph LR
    A["查询三元组<br/>⟨e_h, r_q, ?⟩"] --> B["KRL 指令<br/>(文本描述+知识表示)"]
    B --> C["KRL 分词器<br/>PAA词级嵌入 + GNN知识编码"]
    C --> D["KRL 注意力层 × N<br/>+ 动态知识记忆"]
    D --> E["下一实体预测器<br/>知识解码器约束词表"]
    E --> F["预测尾实体"]
    G["知识互蒸馏目标<br/>结构侧 ↔ KRL侧"] -.对齐.-> D

关键设计¶

1. KRL 分词器与 PAA 模块：把无限实体压进定参表示。 KRL 指令包含一张全局词表，逐行列出实体/关系的"词级形式—类型—文本描述—知识表示"，让 LLM 像对照词典一样理解陌生元素。对每个实体，先用 LLM 自带的文本分词器把""切成 token 嵌入序列 \(\{t_1,\dots,t_L\}\)，再用主属性聚合(Principal Attribute Aggregation)把多视角统计量拼接融合成单个词级嵌入 \(w_e = \mathrm{PAA}(\{t_1,\dots,t_L\})=\big(\big\|_{\mathrm{attr}\in\{\text{mean,max,min,std}\}}\mathrm{attr}(\{t_1^*,\dots,t_L^*\})\big)W_{\text{fusion}}\)。这一步的妙处在于：新实体/关系的词级嵌入完全由固定的可训练矩阵 \(W_{\text{down}}, W_{\text{fusion}}\) 生成，无需为每个新词扩参，因此能在常数规模参数下支持开放世界里无限增长的实体/关系——这正是归纳式任务最需要的。结构侧则由 \(S\) 层 NBFNet 充当知识编码器，按式 (1) 产出全体实体/关系的结构不变表示 \(E, R\)，再经线性层 \(F_{\text{word}}, F_{\text{struct}}\) 升到 LLM 维度并替换指令里的占位符。

2. 带知识记忆的 KRL 注意力层：让结构上下文动态参与 in-context 学习。 这是治"知识失真"的核心机件。标准 LLM 注意力只在文本/词级/结构 token 间做因果解码 \(H^{(n)}=\mathrm{softmax}\big(\frac{H^{(n-1)}W_Q[H^{(n-1)}W_K]^T}{\sqrt F}+W_{\text{mask}}\big)H^{(n-1)}W_V\)(其中 \(W_Q,W_K,W_V\) 是冻结的预训练权重)。KRLM 在此之上挂一条动态知识记忆：先用一个 MLP 打分函数 \(sc^{(i)}_{\text{struct}}=S_{\text{struct}}([e_i\|r_q])\) 衡量每个实体结构表示与查询的相关度，取 Top-\(K\) 最相关实体的知识表示构成记忆 \(E_{\text{mem}}\in\mathbb{R}^{K\times d}\)，再把它拼进注意力的 query/value 两侧：\(A=\mathrm{softmax}\big(\frac{H^{(n-1)}M_Q E_{\text{mem}}^T \,\|\,(H^{(n-1)}W_Q[H^{(n-1)}W_K]^T+W_{\text{mask}})}{\sqrt F}\big)\)，\(H^{(n)}=A[E_{\text{mem}}M_V \,\|\, H^{(n-1)}W_V]\)。只有 \(M_Q, M_V\) 是可训练的，冻结主干 + 轻量记忆旁路意味着外部 KG 知识是被"动态地、按相关度"引入，而不是硬塞一段稀疏 prompt，从而避免内在知识被覆盖。

3. 结构感知的下一实体预测器：把幻觉锁死在 KG 词表内。 LLM 原生 token 词表与 KG 实体词表并不重合，直接用 next-token 预测会产生越界结果、破坏评测公平性。KRLM 改造投影头 \(P\)：先用同款 PAA 把投影头映射成各实体的词级嵌入 \(p_h=\mathrm{PAA}(P[\mathrm{TKN}(\langle\text{Entity: 文本描述}\rangle)])\)，再用一个与编码器同构的 \(S\) 层实体 GNN 作"知识解码器" \(\tilde P=\mathrm{GNN}_p(\{\mathbb{I}_{i=h}\cdot p_h\}_{i=1}^I, R, G)\)，让投影矩阵感知当前 KG 的结构。最终下一实体打分 \(sc^{(i)}_{\text{KRLM}}=S_{\text{KRLM}}([\tilde p_i\|r_q\|g(H^{(N)}[m])])\) 融合了解码后的投影嵌入、关系知识嵌入与最后一个 token 的隐状态，推理时取它与结构打分 \(sc^{(i)}_{\text{struct}}\) 的平均作为最终分数。这样输出被严格约束在给定 KG 的实体集合内，从根上堵住越界幻觉。

4. 知识互蒸馏训练目标：让两条打分通路互相校准。 训练损失由两块对称项构成——结构蒸馏与 KRL 蒸馏，每块都是"二元交叉熵(正例 + 负采样)\(+\lambda\) KL 散度"的组合：\(L=(1-\lambda)\big[-\log sc^{(t)}_{\text{KRLM}}+\frac{1}{|N_{\text{neg}}|}\sum\log(1-sc^{(n)}_{\text{KRLM}})\big]+\lambda\mathrm{KL}(P_{\text{struct}}\|P_{\text{KRLM}})+(\text{对称的结构侧项})+\lambda\mathrm{KL}(P_{\text{KRLM}}\|P_{\text{struct}})\)。借鉴互蒸馏思想，让结构侧分布 \(P_{\text{struct}}\) 与 KRL 侧分布 \(P_{\text{KRLM}}\) 在训练中双向对齐，从而把文本上下文与结构知识真正协调到同一空间，而不是各算各的。

实验关键数据¶

主实验表格（归纳式数据集平均，PT=预训练零样本 / FT=微调）¶

数据集组	指标	Supervised SOTA	ULTRA(FT)	MOTIF(FT)	TRIX(FT)	PROLINK	KRLM(PT)	KRLM(FT)
IndE (12)	Hit@10	0.675	0.724	0.740	0.734	0.733	0.738	0.751
IndE (12)	MRR	0.527	0.566	0.582	0.583	0.562	0.583	0.590
IndER (13)	Hit@10	0.347	0.542	0.538	0.536	0.542	0.546	0.556
IndER (13)	MRR	0.209	0.350	0.349	0.353	0.354	0.361	0.367

直推(transductive)上 KRLM(E2E) 在 WN18RR(MRR 0.552)、CoDEx-M(Hit@10 0.526) 等基本追平或反超强基线；FB15k-237 上略逊于 MKGL(0.591)。

消融实验表格（Hit@10，E2E 训练）¶

数据集	KRLM(完整)	-KEn(去知识编码器)	-KMe(去知识记忆)	-KDe(去知识解码器)	Atten(替PAA)	Mean(替PAA)	-KD-KL(去蒸馏)
FB-V1	0.705	0.614	0.691	0.674	0.696	0.692	0.665

各模块去掉后均掉点，其中去掉知识编码器(-KEn)跌幅最大(0.705→0.614)，说明 GNN 结构表示是整套方法的地基；去掉知识解码器(-KDe)、整套蒸馏(-KD-KL)也有明显下降，验证了越界约束与互蒸馏的必要性。

关键发现¶

KRLM 在零样本(PT)下就超过 87% 的基线，甚至反超部分微调过的 KGFM，印证"用 LLM 内在知识扩展 KGFM 的不变表示"能更好区分陌生实体/关系。
MKGL 因固定关系词表数目而无法处理 IndER 任务，通用性受限；PROLINK 忽略稀疏 KG 上下文与 LLM 内在知识的不兼容，仍受知识失真拖累，部分数据集上略逊于 KRLM。
在 25(正文)/28(摘要口径) 个真实归纳数据集上零样本与微调双场景一致领先。

亮点与洞察¶

"隐式注入 > 显式拼接"的范式切换：把 KG 知识从 prompt 文本搬进指令占位符 + 注意力旁路，直击 LLM-based KGR 长期的知识失真痛点，思路干净。
定参支持无限实体：PAA 用统计聚合而非扩词表来生成新实体/关系嵌入，天然契合归纳式开放世界，工程上也省显存。
越界幻觉的硬约束：用结构感知 GNN 解码器把投影头重映射到当前 KG，使输出不可能跳出实体集合，提升评测可信度——这点比"软提示约束"更彻底。
冻结 LLM 主干、只训练 PAA/记忆/解码器等轻量旁路，参数效率与可迁移性兼顾。

局限与展望¶

训练依赖 4×A100，且叠了 GNN 知识编码器 + 多层 KRL 注意力 + GNN 解码器，计算与推理开销不低，论文把时间复杂度分析放到附录，实际部署成本需关注。
直推任务上并非全面领先(FB15k-237 输给 MKGL)，说明在实体/关系完全可见、结构信息已足够时，LLM 协调带来的增益有限。
Top-\(K\) 知识记忆、\(\lambda\) 蒸馏权重等超参对结果有影响，跨域稳健性仍依赖调参。
主要在 Llama2-7b 量级上验证，更大 LLM 或更强推理模型下范式是否仍占优、知识失真是否依然是主要瓶颈，有待检验。

评分¶

新颖性: ⭐⭐⭐⭐ 隐式知识注入 + KRL 统一语言 + 结构感知词表约束的组合切实击中 LLM-based KGR 的知识失真与越界幻觉两大痛点，范式层面有新意。
实验充分度: ⭐⭐⭐⭐ 25/28 个真实归纳数据集 + 直推数据集，零样本/微调/端到端三套设置，消融覆盖全部模块，证据扎实；直推上未全面领先略有保留。
写作质量: ⭐⭐⭐⭐ 用 Trainspotting 例子把抽象的知识失真讲得直观，方法各模块衔接清晰；公式密集、部分细节压进附录。
价值: ⭐⭐⭐⭐ 为"如何在 KGR 中协调 LLM 与 KG 知识"提供了可复用的工程范式与开源实现，对知识密集型推理任务有借鉴意义。