STEM: Structure-Tracing Evidence Mining for Knowledge Graphs-Driven Retrieval-Augmented Generation¶
会议: ACL2026
arXiv: 2604.22282
代码: https://github.com/PennyYu123/STEM_RAG
领域: 图学习 / 知识图谱问答 / KG-RAG
关键词: 知识图谱问答、多跳推理、结构化检索、GNN、RAG
一句话总结¶
STEM 将知识图谱多跳问答从逐步路径搜索改写为“先生成查询结构图、再按结构追踪证据子图”的问题,通过语义到结构投影、Triple-GNN 全局引导和结构匹配检索,在 WebQSP 与 CWQ 上显著提升 KG-RAG 的答案准确率和证据覆盖率。
研究背景与动机¶
领域现状:知识图谱增强的 RAG 通常希望把自然语言问题转成可验证的结构化证据,再交给 LLM 生成答案。现有 KGQA 方法大致分为三类:LLM 先生成推理计划再取证据链、逐步 beam search 式路径探索,以及构造 schema graph 后做结构匹配。
现有痛点:自然语言问题和 KG schema 之间有明显错位。LLM 生成的关系名可能语义合理但在目标 KG 中不存在,局部路径搜索又容易被 hub 节点、伪相关边和局部相似度带偏,复杂问题所需的证据也经常不是单条路径,而是一个连通子图。
核心矛盾:多跳 KG-RAG 既需要语言模型理解问题语义,又需要检索过程尊重 KG 的真实拓扑。只依赖自然语言计划会产生 schema 幻觉,只依赖局部图搜索又缺少全局结构蓝图。
本文目标:作者希望把问题分解、schema 对齐、候选实体锚定和证据子图检索整合成一个结构化 pipeline,使检索结果既覆盖完整推理路径,又能控制交互式 LLM 调用成本。
切入角度:本文的观察是:多跳问题可以先投影成一个抽象查询 schema graph。只要这个图和 KG 中真实证据子图在结构上近似同构,检索就能从“猜下一跳”变成“按结构找匹配”。
核心 idea:用 KG schema 约束 LLM 的查询分解,并用 Triple-GNN 生成全局 guidance graph,让每一步实体和三元组匹配都带有全局结构先验。
方法详解¶
STEM 的核心不是让 LLM 反复做搜索决策,而是先让模型把问题变成可对齐的结构蓝图,然后在 KG 中做结构追踪。整个流程可以看作三层:语言问题先被转成原子关系断言;断言再被落到 KG 的标准三元组 schema;最后检索器用 schema graph 和 guidance graph 在 KG 中找证据子图。
整体框架¶
输入是自然语言问题、问题实体和目标知识图谱。输出是一个 query-specific evidence subgraph,随后被线性化为推理链送入 LLM 生成答案。
第一阶段是 Semantic-to-Structural Projection。SGDA 负责把复杂问题拆成若干原子关系断言,并判断问题应采用 Precision 还是 Breadth 检索策略。SAGB 再把这些断言映射成 KG 中真实存在的符号化三元组,形成 schema graph。
第二阶段是 Global Guidance Subgraph 构建。Triple-GNN 以查询三元组表示为条件,在候选子图上为实体赋分,选出高概率节点并连接成 guidance graph,给后续结构匹配提供全局先验。
第三阶段是 Structure-Tracing Subgraph Retrieval。检索从问题实体锚点出发,在 KG 中递归匹配 schema graph 的边;每条候选边的分数由三元组语义相似度和 guidance graph 中的实体、三元组偏置共同决定。
关键设计¶
-
语义到结构投影:
- 功能:把开放的自然语言问题变成 KG 可执行的结构蓝图。
- 核心思路:SGDA 生成“原子关系断言”,例如把多跳问题拆成若干共享中间变量的关系句;SAGB 将这些关系句对齐到 KG 的标准关系名和三元组形式。
- 设计动机:直接让 LLM 生成关系名容易出现 schema 幻觉,先学习“问题模式”再做符号 grounding,可以减少语义合理但 KG 中不存在的路径。
-
Triple-GNN 全局引导图:
- 功能:在局部搜索前给候选实体和边提供全局结构先验。
- 核心思路:将 schema triples 编码后汇聚为查询表示,把问题实体初始化为该查询向量,再通过 Triple-GNN 在候选图上传播,得到节点概率并构造 guidance graph。
- 设计动机:传统路径搜索只看当前边的局部相似度,容易被 hub 节点和近义关系误导;guidance graph 将“整个问题需要什么结构”提前注入每一步匹配。
-
结构追踪式子图检索:
- 功能:从 KG 中找出与 schema graph 结构和语义都匹配的证据子图。
- 核心思路:实体锚定阶段对 question entity 取 Top-50 候选,并用实体级全局偏置放大 guidance graph 中的节点;边匹配阶段用三元组语义相似度加三元组级偏置打分,再递归扩展。
- 设计动机:复杂问答常需要多答案或分支证据。Precision 策略贪心选最高分边,Breadth 策略保留超过阈值的多条边,从而兼顾单答案精度和多答案覆盖。
损失函数 / 训练策略¶
论文为 SGDA、SAGB 和 Triple-GNN 构建了专门训练数据。SGDA/SAGB 使用 Structure-to-Query Reverse Generation 做数据增强:先从 KG 结构生成问题模式,再训练模型把自然语言问题投影回 schema graph。Triple-GNN 则学习在 query-specific subgraph 中预测高价值实体,使生成的 guidance graph 更可能覆盖真实推理路径。
STEM 的最终答案生成并不重新训练一个大模型,而是把检索到的 evidence subgraph 通过 DFS 展开为推理链,配合指令提示送给 LLM。这个设计把主要创新集中在结构化检索侧,便于和 GPT-4o、Llama-3.1 等不同推理模型组合。
实验关键数据¶
主实验¶
主实验在 WebQSP 和 CWQ 两个 Freebase 多跳 KGQA 数据集上评估 Hit@1 与 F1。STEM 在同样使用强推理模型时仍能保持明显优势,说明收益主要来自证据检索结构,而不只是 LLM 参数知识。
| 方法 | 推理模型 | WebQSP Hit@1 | WebQSP F1 | CWQ Hit@1 | CWQ F1 |
|---|---|---|---|---|---|
| GPT-4o | GPT-4o | 61.80 | 43.60 | 38.20 | 32.90 |
| RoG | GPT-4o | 88.09 | 70.12 | 69.61 | 61.97 |
| FiDeLiS | GPT-4-turbo | 84.39 | 78.32 | 71.47 | 64.32 |
| STEM | Llama-3.1-8B | 86.63 | 71.05 | 68.76 | 60.81 |
| STEM | Llama-3.1-70B | 88.08 | 74.62 | 72.53 | 62.09 |
| STEM | GPT-4o | 90.94 | 76.18 | 74.09 | 65.33 |
STEM + GPT-4o 在三项指标上达到表内最强结果,尤其是 CWQ 这种组合式问题更多的数据集上,Hit@1 和 F1 都超过 RoG + GPT-4o。
消融实验¶
| 配置 | WebQSP Hit@1 | WebQSP F1 | CWQ Hit@1 | CWQ F1 | 说明 |
|---|---|---|---|---|---|
| STEM + GPT-4o | 90.94 | 76.18 | 74.09 | 65.33 | 完整模型 |
| w/o 实体偏置与三元组偏置 | 86.31 | 70.80 | 63.91 | 55.59 | 去掉 guidance graph 的全局校正 |
| w/o 实体偏置 | 86.45 | 75.81 | 66.35 | 57.35 | 只保留三元组级校正 |
| w/o 三元组偏置 | 86.95 | 73.45 | 64.90 | 56.42 | 只保留实体级校正 |
| 查询规划 pipeline | WebQSP Hit@1 | WebQSP F1 | CWQ Hit@1 | CWQ F1 |
|---|---|---|---|---|
| Llama-3.1-70B few-shot | 77.74 | 61.21 | 46.68 | 41.83 |
| GPT-4o few-shot | 83.14 | 65.77 | 50.43 | 43.20 |
| STEM 自训练 pipeline | 90.94 | 76.18 | 74.09 | 65.33 |
关键发现¶
- 三元组级结构偏置比实体级偏置更关键,去掉三元组偏置会让 CWQ 指标大幅下降,说明结构关系的全局一致性是多跳检索的瓶颈。
- 多答案问题上,STEM 的 F1 在 WebQSP 答案数大于等于 10 的子集达到 62.46,高于 RoG 的 58.33 和 GNN-RAG 的 56.28。
- 证据覆盖率会随答案数增加而下降,但 WebQSP 单答案覆盖率仍有 81.90,CWQ 单答案覆盖率为 74.28,说明 retrieval graph 仍能较好覆盖真实推理路径。
亮点与洞察¶
- 论文把 KG-RAG 的关键问题定义为结构对齐,而不是简单的“让 LLM 多想几步”。这个视角很有价值,因为它解释了为什么很多交互式路径搜索方法会慢且不稳。
- SGDA/SAGB 的两段式投影把自然语言语义和 KG 符号空间分开处理,减少了端到端语义匹配的黑箱性,也让错误更容易定位。
- Precision/Breadth 策略是一个实用设计:单答案问题追求低延迟和高置信度,多答案问题允许结构分支,符合 KGQA 中不同问题类型的实际需求。
- Triple-GNN 的作用不是直接回答问题,而是提供检索先验。这种“轻量图模型辅助 LLM 检索”的范式可以迁移到企业知识图谱、法律条文图谱和医学实体图谱。
局限与展望¶
- STEM 依赖目标 KG 的 schema 和训练数据,当前实验主要围绕 Freebase 系 WebQSP/CWQ,迁移到新图谱时需要重新构造投影与 GNN 训练数据。
- 如果 SGDA/SAGB 一开始生成的 schema graph 偏离真实推理结构,后续结构匹配很难完全修复,错误会沿 pipeline 传播。
- Breadth 策略在多答案问题上提升覆盖率,但会增加检索延迟;真实系统中需要结合问题难度自适应设置阈值。
- 论文的最终答案仍由 LLM 生成,虽然证据更完整,但生成阶段是否忠实使用 evidence subgraph 仍需要单独评估。
相关工作与启发¶
- vs RoG: RoG 通过 LLM 生成 reasoning plans 并检索证据链,STEM 则先生成 schema graph 再做结构追踪;后者对 KG 拓扑更敏感,也更适合多答案和分支证据。
- vs GNN-RAG: GNN-RAG 用图神经网络辅助相关实体检索,STEM 的 Triple-GNN 进一步把查询三元组结构作为条件,强调三元组级一致性。
- vs GraphRAG: GraphRAG 关注社区摘要和全局文本检索,STEM 更偏实体关系级 KGQA,两者可以在层级化知识库中互补。
- 启发: 对结构化知识库而言,RAG 的难点常常不是召回更多文本,而是让检索路径和问题逻辑同构;未来可以把 schema graph 生成扩展到 SQL、API graph 或工具调用计划。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 结构追踪与 Triple-GNN guidance 的组合很有辨识度,但建立在 KGQA 和 GNN-RAG 既有脉络上。
- 实验充分度: ⭐⭐⭐⭐☆ 主实验、细粒度分析和消融比较完整,跨 KG 类型和真实业务图谱的验证还可以更多。
- 写作质量: ⭐⭐⭐⭐☆ 方法链条清楚,附录实验丰富,但 pipeline 组件较多,读者需要跟住 SGDA、SAGB、Triple-GNN 和检索策略之间的依赖。
- 价值: ⭐⭐⭐⭐⭐ 对 KG-RAG 系统很有实践意义,尤其适合需要可解释证据子图的企业知识问答和结构化检索场景。# STEM: Structure-Tracing Evidence Mining for Knowledge Graphs-Driven Retrieval-Augmented Generation
会议: ACL2026
arXiv: 2604.22282
代码: https://github.com/PennyYu123/STEM_RAG
领域: 图学习 / 知识图谱 RAG
关键词: 知识图谱问答, 多跳推理, KG-RAG, 结构化检索, Triple-GNN
一句话总结¶
STEM 把知识图谱上的多跳问答从“逐步找路径”改写成“先生成可落到 KG schema 上的查询图,再用全局结构先验做子图匹配”,在 WebQSP 和 CWQ 上显著提升答案命中率与证据覆盖度。
研究背景与动机¶
领域现状:知识图谱增强 RAG 的核心思路,是把 LLM 的回答锚定到可验证的实体与关系上。复杂 KGQA 通常需要从问题实体出发,沿着 Freebase 这样的图检索一条或多条多跳路径,再把检索到的路径或子图转成文本交给 LLM 生成答案。
现有痛点:作者把已有方法分成三类:RoG 这类方法先让 LLM 生成推理计划,再按计划找证据;ToG / Path Decode 一类方法逐步扩展路径,每一步让 LLM 或打分器判断下一跳;SimGRAG / Path Matching 一类方法尝试构造 schema graph,再在 KG 中做结构匹配。它们共同的问题是,自然语言计划经常和 KG 的真实关系名对不上,逐跳搜索容易被局部相似关系带偏,多答案问题还会把证据拆成不完整的孤立路径。
核心矛盾:自然语言问题表达的是语义意图,而知识图谱检索需要的是拓扑上存在的实体-关系-实体结构。如果先验只来自 LLM 的自然语言规划,模型可能产生“语义合理但图中不存在”的关系;如果只依赖局部相似度,搜索又缺少全局结构蓝图。
本文目标:本文要解决三个子问题:第一,把问题分解成和 KG schema 对齐的结构化查询图;第二,在大图中获得能提示全局方向的候选证据子图;第三,根据问题是单答案还是多答案,动态决定检索是贪心收敛还是分支扩展。
切入角度:作者的观察是,多跳 KGQA 的失败不只是“找不到下一跳”,而是从一开始就缺少一个能约束后续搜索的结构模板。因此 STEM 先学习从语义到结构的投影,再让 GNN 生成全局 guidance graph,最后在 schema graph 与真实 KG 之间做结构追踪。
核心 idea:用“结构化 schema graph + Triple-GNN 全局 guidance”代替单纯的 LLM 逐步路径决策,让证据检索同时看语义相似和图结构一致性。
方法详解¶
STEM 的方法可以理解为四段流水线:先把自然语言问题变成原子关系断言,再把断言落到 KG 的符号三元组上;随后用 Triple-GNN 从这些三元组出发预测全局 guidance subgraph;最后在真实 KG 中做结构追踪式子图匹配,并把结果线性化给 LLM 回答。
整体框架¶
输入包括自然语言问题、问题实体以及目标知识图谱。第一步,Schema-Grounded Decomposition Agent, SGDA,把复杂问题拆成一组原子关系断言,并为中间实体使用共享变量标记,例如把“队伍吉祥物是 Clutch the Bear 的球馆在哪里”拆成“[ENT1] 的吉祥物是 Clutch the Bear”和“[ENT1] 的主场是 [ENT2]”。第二步,Symbol-Aligned Graph Builder, SAGB,把这些断言映射成 KG 中真实存在或可检索的关系三元组,并拼成 query schema graph。第三步,Triple-GNN 根据 schema triples 和问题实体,在候选 KG 子图上预测高概率实体,形成 Global Guidance Subgraph。第四步,Structure-Tracing Subgraph Retrieval 从锚点实体出发,按照 schema graph 的边递归寻找语义和结构都匹配的真实 KG 边,得到 evidence reasoning graph。最后,系统用 DFS 把证据子图展开成推理链,交给 GPT-4o / Llama 生成最终答案。
关键设计¶
-
Semantic-to-Structural Projection:
- 功能:把自然语言问题转换为 KG 可执行的结构蓝图,降低 LLM 关系幻觉。
- 核心思路:SGDA 不直接生成 SPARQL 或完整路径,而是生成最小粒度的 atomic relational assertions;SAGB 再把这些自然语言断言映射到标准化三元组,例如把“Darryl Sutter 的 hockey position 是 [ENT1]”落到
ice_hockey.hockey_player.hockey_position这样的 Freebase 关系。中间实体用[ENTX]共享,保证多个子问题能连成同一张 schema graph。训练数据来自 WebQSP / CWQ 的训练 split,作者从真实 reasoning chain 抽取三元组,遮蔽非问题实体后反向生成断言,再用断言到三元组监督 SGDA/SAGB。 - 设计动机:现有 LLM planner 容易用“fly into Rome”这类自然语言关系描述去检索,但 KG 中真实关系可能是反向或层级化的
location.location.nearby_airports。先做结构投影,相当于把检索计划提前放到 KG schema 里校验。
-
Triple-GNN Global Guidance Subgraph:
- 功能:为后续检索提供全局结构先验,避免逐跳搜索被局部相似边带偏。
- 核心思路:每个 schema triple 先用预训练 embedding model 编码,三元组内头实体、关系、尾实体向量拼接后经 MLP 得到 triple embedding;所有 triple embedding 平均池化成查询表示 \(E_Q\)。在 GNN 初始化时,问题实体节点拿到 \(E_Q\),其他实体初始化为零,关系也用同一编码器和 MLP 初始化。Triple-GNN 的 message passing 以三元组为基本消息单元,用 DistMult 风格的 head-relation-tail 交互和 MLP 更新节点表示。最后 MLP + Sigmoid 得到每个实体的概率,取 Top-\(K\) 实体,\(K=|T|*4\),并把它们在 KG 中的相连关系组成 guidance graph。
- 设计动机:KGQA 中很多局部候选边语义上都像“相关”,但只有少数边处在能完成整张查询图的结构位置上。Triple-GNN 不是只看 query 文本,而是显式使用 schema triples,使 guidance graph 更接近目标推理结构。
-
结构追踪式子图检索与自适应策略:
- 功能:在真实 KG 中找到和 schema graph 同构或近似同构的证据子图,并兼顾单答案和多答案问题。
- 核心思路:系统先对问题实体做 Top-50 语义候选检索,并用 guidance graph 做实体级分数修正:如果候选实体在 guidance graph 中,语义相似度乘以 \(3/2\)。随后从锚点开始匹配 schema edge 与 KG edge,边的 T-Score 等于 schema triple 与候选 KG triple 的 embedding 相似度,加上三元组级结构偏置;如果候选 triple 在 guidance graph 中,额外加 \(1/2\)。匹配过程累积路径分数并递归展开,直到得到和 schema graph 对齐的 concrete subgraph。对于 Precision 问题,系统每步选最高分边;对于 Breadth 问题,系统保留超过阈值 \(\theta=0.6\) 的多条边,让搜索树覆盖多个答案。
- 设计动机:多答案 KGQA 如果一味贪心,容易只找到一个答案;如果无约束扩展,又会引入大量无关证据。Precision / Breadth 的区分让 STEM 在答案精确性和覆盖度之间做有条件的切换。
损失函数 / 训练策略¶
STEM 训练三个主要模块:SGDA、SAGB 和 Triple-GNN。SGDA/SAGB 基于 Qwen3-8B 微调,温度设置中 SGDA 用 beam size 4,SAGB 推理温度为 0。Triple-GNN 使用 Qwen3-Embedding-0.6B 作为预训练 embedding model,实体/关系编码维度经 MLP 映射到 GNN hidden size,论文中采用 6 层 GNN。推理阶段的 LLM 只在最终答案生成处使用,减少了交互式逐跳调用的成本。
实验关键数据¶
主实验¶
STEM 在 WebQSP 和 CWQ 上与纯 LLM、微调方法、prompting 方法对比。最强版本 STEM + GPT-4o 在 4 个指标中拿到 3 个 SOTA,WebQSP F1 略低于 FiDeLiS,但 Hit@1 和 CWQ 指标优势明显。
| 方法 | WebQSP Hit@1 | WebQSP F1 | CWQ Hit@1 | CWQ F1 |
|---|---|---|---|---|
| GPT-4o + CoT | 74.12 | 64.25 | 59.36 | 48.24 |
| RoG + GPT-4o | 88.09 | 70.12 | 69.61 | 61.97 |
| GNN-RAG + Llama2-7B | 86.40 | 69.00 | 67.30 | 59.10 |
| FiDeLiS + GPT-4-turbo | 84.39 | 78.32 | 71.47 | 64.32 |
| STEM + Llama-3.1-8B | 86.63 | 71.05 | 68.76 | 60.81 |
| STEM + Llama-3.1-70B | 88.08 | 74.62 | 72.53 | 62.09 |
| STEM + GPT-4o | 90.94 | 76.18 | 74.09 | 65.33 |
消融实验¶
最关键的消融是 Semantic-to-Structural Projection pipeline 和 guidance graph bias。前者显示,直接用 GPT-4o / Llama-3.1-70B 做 few-shot 结构规划,远不如专门训练的 SGDA/SAGB;后者显示 triple-level bias 尤其重要。
| 配置 | WebQSP Hit@1 | WebQSP F1 | CWQ Hit@1 | CWQ F1 | 说明 |
|---|---|---|---|---|---|
| 完整 STEM + GPT-4o | 90.94 | 76.18 | 74.09 | 65.33 | 完整结构投影和双层 bias |
| 规划器换成 Llama-3.1-70B | 77.74 | 61.21 | 46.68 | 41.83 | off-the-shelf LLM 难以稳定对齐 KG schema |
| 规划器换成 GPT-4o | 83.14 | 65.77 | 50.43 | 43.20 | GPT-4o 更强但仍明显落后 |
| 去掉实体级和三元组级 bias | 86.31 | 70.80 | 63.91 | 55.59 | guidance graph 完全不参与打分 |
| 去掉实体级 bias | 86.45 | 75.81 | 66.35 | 57.35 | 对锚点实体定位影响较大 |
| 去掉三元组级 bias | 86.95 | 73.45 | 64.90 | 56.42 | 对 CWQ 这种复杂结构影响更明显 |
细粒度分析¶
| 分组 | 数据集 | RoG F1 | GNN-RAG F1 | STEM + GPT-4o F1 | 观察 |
|---|---|---|---|---|---|
| 答案数 = 1 | WebQSP | 67.89 | 71.24 | 75.26 | 单答案场景中结构锚定提升精度 |
| 答案数 2-4 | CWQ | 53.73 | 55.52 | 64.35 | 多答案小集合提升最明显 |
| 答案数 ≥10 | WebQSP | 58.33 | 56.28 | 62.46 | Breadth 策略改善召回 |
| Hop = 2 | WebQSP | 64.86 | 69.80 | 75.35 | 两跳问题仍保持优势 |
| Hop ≥3 | CWQ | 37.82 | 51.80 | 52.15 | 复杂多跳中优势收窄但仍领先 |
关键发现¶
- Semantic-to-Structural Projection 是整套系统的底座。若用 GPT-4o 替代专门训练的 pipeline,CWQ Hit@1 从 74.09 降到 50.43,说明 KG schema 对齐不是简单 prompt 能稳定解决的问题。
- Guidance graph 的贡献不只是改善最终生成,而是直接改善检索覆盖率。纯检索覆盖率从无 bias 的 WebQSP 65.07 / CWQ 59.80 提升到完整设置的 73.68 / 70.39。
- Breadth 策略提高 F1,但会牺牲部分 Hit@1。仅用 threshold-based 时 WebQSP F1 达到 78.54,高于完整 STEM,但 Hit@1 降到 89.36,说明多答案覆盖和无关证据控制之间确实存在 trade-off。
亮点与洞察¶
- STEM 最漂亮的地方是把“LLM 语义计划不可信”具体拆成了 schema grounding 问题。它不是让更强的 LLM 多想几步,而是让规划结果必须落到 KG 的符号空间。
- Triple-GNN 的输入不是原始 query,而是 query-derived triples,这个设计让 GNN 学到的是“这类查询图需要哪些结构实体”,比普通 query-dependent GNN 更贴近多跳 KGQA 的检索目标。
- Precision / Breadth 两种检索行为很实用。很多 KGQA 失败不是答案错,而是多答案问题只召回一个答案;把答案策略作为检索行为的一部分,比事后让 LLM 补全更可靠。
- 论文给出了 failure mode 分析,承认 planning deviation 仍会向后传播。这一点很重要,因为 STEM 的强结构化设计一旦早期 schema graph 生成错,后续结构追踪反而会更坚定地沿错图搜索。
局限与展望¶
- STEM 依赖目标 KG 的结构和领域内训练数据。它在 WebQSP / CWQ 的 Freebase 环境中很强,但不是零样本迁移到任意 KG 的通用 KG-RAG 框架。
- SGDA/SAGB 的训练需要从真实 KG reasoning chains 构造监督数据。对于企业私有知识图谱或动态 schema,训练数据构造成本可能不低。
- Breadth 策略为了多答案召回会增加搜索树规模和延迟。作者认为这是必要 trade-off,但在线系统中仍需要更强的剪枝和缓存。
- 当前最终答案仍依赖 LLM 对线性化证据链的生成,若 evidence graph 有噪声,LLM 仍可能选择性忽略或过度解释。后续可以把证据置信度显式传给生成器。
相关工作与启发¶
- vs RoG: RoG 让 LLM 生成推理路径并结合 KG 检索,STEM 则先训练 schema-aware 的 SGDA/SAGB,把自然语言计划变成结构化 query graph。优势是减少 schema hallucination,劣势是需要额外训练模块。
- vs ToG / Path Decode: 逐步路径探索强调每一步的局部选择,STEM 强调先有全局 schema graph,再递归匹配。前者灵活,后者更能保持证据完整性。
- vs GNN-RAG / GFM-RAG: 这些方法也用 GNN 提供图检索能力,但 STEM 的 Triple-GNN 显式利用结构投影得到的三元组,使 guidance graph 和查询拓扑更一致。
- 对 RAG 系统的启发: 对结构化数据而言,检索计划最好不是自然语言链条,而是可被底层数据 schema 校验的中间表示。这个思想可以迁移到 SQL-RAG、API-RAG 和企业知识库检索。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 结构投影、Triple-GNN guidance 和自适应子图匹配组合得很完整,核心思想清晰。
- 实验充分度: ⭐⭐⭐⭐☆ 主实验、分组分析、模块消融和检索覆盖率分析都比较扎实,但跨 KG 迁移还不足。
- 写作质量: ⭐⭐⭐⭐☆ 方法链条讲得清楚,附录细节充分,部分符号和公式排版略密。
- 价值: ⭐⭐⭐⭐⭐ 对 KG-RAG 很有启发,尤其适合需要可验证多跳证据的问答系统。