Knowledge Graph Retrieval-Augmented Generation for LLM-based Recommendation (K-RagRec)¶

会议: ACL 2025
arXiv: 2501.02226
代码: 未公开
领域: 推荐系统/图学习
关键词: knowledge graph, RAG, LLM recommendation, GNN, sub-graph retrieval

一句话总结¶

提出K-RagRec框架，通过从知识图谱中检索多跳子图为LLM推荐系统提供结构化、可靠的外部知识，结合基于流行度的选择性检索策略和GNN编码器，有效缓解LLM推荐中的幻觉和知识缺失问题。

问题定义：LLM推荐系统面临三大固有缺陷——(1) 幻觉问题（推荐不存在的物品）；(2) 知识过时（训练数据截止导致无法推荐新物品）；(3) 缺乏领域特定知识（推荐语料在预训练中有限）
RAG的局限：传统文本RAG引入噪声和有害干扰，且忽略实体间的结构关系，导致LLM推理能力受限
知识图谱的优势：KG提供结构化、事实性、可编辑的知识表示，是对抗幻觉的天然选择
技术挑战：(1) 仅检索一阶邻居无法捕获高阶关系；(2) 无差别检索降低效率；(3) KG三元组的文本序列化无法充分利用结构信息

K-RagRec包含五个核心组件：(1) 多跳知识子图语义索引；(2) 基于流行度的选择性检索策略；(3) 知识子图检索；(4) 知识子图重排序；(5) 知识增强推荐生成。

多跳子图索引：用SentenceBERT编码KG节点和边的文本属性 → 用GNN聚合多跳邻居信息得到子图表示 \(z_{g_o}\) → 存入向量数据库。\(l\) 跳GNN表示等价于节点的 \(l\) 跳邻域子图表示，实现从粗粒度到细粒度的灵活分块
流行度选择性检索：根据物品流行度（如销量、浏览量）决定是否检索——仅对流行度低于阈值 \(p\) 的冷启动物品进行KG检索。这符合幂律分布特性（少数热门物品已有充足知识，冷启动物品才需要增强），显著减少检索时间
子图重排序 + GNN编码：检索Top-K子图后，以推荐prompt为query重排序取Top-N → 用第二个GNN编码器提取结构信息 → MLP投影器对齐到LLM嵌入空间作为soft prompt前缀

交叉熵损失 \(\mathcal{L}(Y, A)\)，其中 \(Y\) 为ground-truth推荐物品，\(A\) 为LLM预测。仅训练两个GNN和MLP投影器的参数，LLM参数冻结。

方法	ML-1M ACC	ML-1M R@3	ML-1M R@5	ML-20M ACC	ML-20M R@3	Amazon ACC	Amazon R@5
KG-Text	0.076	-	-	0.052	-	0.058	-
KAPING	0.079	-	-	0.069	-	0.063	-
PT w/ KG-Text	0.078	0.191	0.308	0.051	0.152	0.074	0.245
GraphToken w/ RAG	0.268	0.421	0.466	0.186	0.433	0.326	0.624
G-retriever	0.274	0.532	0.650	0.342	0.619	0.275	0.612
K-RagRec	0.435	0.725	0.831	0.600	0.850	0.508	0.780
提升幅度	+58.6%	+33.0%	+27.8%	+75.4%	+37.3%	+55.8%	+25.0%