跳转至

Explore-on-Graph: Incentivizing Autonomous Exploration of LLMs on Knowledge Graphs

会议: ICLR 2026
arXiv: 2602.21728
代码:
领域: 图学习
关键词: 知识图谱问答, 自主探索, 强化学习, 路径精炼奖励, GRPO

一句话总结

提出 Explore-on-Graph(EoG),通过 SFT + 两阶段强化学习(结果奖励 + 路径精炼奖励),激励 LLM 在知识图谱上自主探索超出训练分布的推理路径,在五个 KGQA 基准上超越 GPT-5 和 Gemini 2.5 Pro。

研究背景与动机

  • LLM 在 QA 中容易产生幻觉和知识缺失,知识图谱(KG)是接地验证的理想来源
  • 现有方法分为两类,均有泛化局限:
    • 规则方法(如 ToG、DoG):预定义规则约束推理,训练无关但无法处理分布外模式
    • 模仿方法(如 RoG、KG-Agent):模仿训练数据中的推理模式,泛化到新路径困难
  • 关键洞察:实际 KG 推理涉及非典型路径(如经过 colleague 或 subsidiary 间接关系),需要自主探索
  • 示例:常见路径 "Google→employee→Carol→lives_in→London",非典型路径 "Google→employee→Bob→colleague→John→resides_at→London"

方法详解

整体框架

两阶段训练: 1. SFT 阶段:用长 CoT 数据教会 LLM 结构化图推理能力(冷启动) 2. RL 阶段: - Phase 1:GRPO + 结果奖励(答案 F1 分数)激励发现正确路径 - Phase 2:GRPO + 联合奖励(结果+路径精炼)提高探索效率和语义质量

关键设计

长 CoT 数据集构建: - 精心设计 prompt 要求推理结构化、逻辑严谨、与 KG 对齐 - 使用 Gemini 2.5 Flash 进行知识蒸馏,生成推理路径(think 标签)和最终答案(answer 标签) - 额外规则过滤不合格的推理过程,确保结构和事实正确性 - 直接让 LLM 探索 KG 面临巨大动作空间和极端奖励稀疏性,SFT 冷启动不可或缺

Phase 1:结果奖励(Outcome Reward): - 使用 GRPO 算法,每个问题采样 S 条探索路径 - 奖励 = 实体级 F1 分数(而非简单 Hit@1),更适合多答案场景 - 未生成正确格式答案标签的路径自动获得 0 奖励,隐式鼓励正确格式 - 通过 GRPO 的组内相对优势归一化驱动策略优化

Phase 2:路径精炼奖励(Path-refined Reward)

真实路径获取(Search-and-Verify Pipeline): 1. 识别问题中的主题实体和 KG 中的答案实体 2. BFS 搜索所有连接路径(最大跳数约束),确保高召回 3. LLM(Gemini-2.5-Flash)语义验证路径是否与问题意图匹配,过滤虚假拓扑连接

路径奖励计算:检查真实路径中每个三元组 (s,r,o) 是否全部作为子串出现在生成的思维文本中,取匹配比例作为路径奖励分数。

联合奖励:R_joint = R_outcome + α * R_path,α 控制路径奖励权重。

两阶段 RL 设计动机:先用结果奖励建立基本探索能力,再用路径奖励精炼探索质量和效率。

损失函数 / 训练策略

  • SFT 阶段:标准语言建模损失(交叉熵),在长 CoT 数据上训练
  • RL 阶段:GRPO 目标函数,含重要性采样比率、clipping、KL 散度正则
  • 基座模型:Qwen2.5-7B-Instruct 和 Llama-3.1-8B-Instruct
  • SFT 数据由 Gemini-2.5-Flash 蒸馏,RL 用 verl 框架实现 GRPO

实验关键数据

主实验(五个 KGQA 基准)

方法 模型 WebQSP Hit@1 CWQ Hit@1 GrailQA Hit@1 QALD10 Hit@1 2WikiMH Hit@1
DoG Llama-3.1-8B 91.4 76.2 - - 84.1
GCR Llama-3.1-8B 92.2 75.8 - - -
GPT-5 - 86.1 74.1 90.5 59.2 84.2
Gemini-2.5-Pro - 92.1 71.9 91.6 58.6 85.1
EoG Qwen2.5-7B 90.7 82.7 91.7 67.3 83.9
EoG Llama-3.1-8B 92.8 86.6 92.1 70.6 85.3

EoG (Llama-3.1-8B) 在 CWQ 上以 86.6 Hit@1 大幅超越 GPT-5 (74.1) 和 Gemini-2.5-Pro (71.9)。

复杂推理场景 (CWQ F1) Conjunction Superlative 1-hop ≥4-hop
GCR 63.7 52.6 66.3 45.8
DoG 53.3 45.9 50.3 46.7
EoG 70.2 64.7 76.2 69.6

EoG 在最困难的 ≥4-hop 推理中优势最大(69.6 vs 45.8/46.7)。

消融实验

变体 CWQ Hit@1 CWQ F1 WebQSP Hit@1 WebQSP F1
EoG 完整 82.6 73.9 92.8 81.3
去除路径奖励 81.5 70.8 90.2 77.3
去除结果奖励 62.7 51.4 65.5 56.2
去除 SFT 70.3 63.1 75.9 65.8
去除 SFT + 用 ICL 70.7 63.8 77.2 66.5

关键发现

  1. 结果奖励是最核心组件(去除后 CWQ Hit@1 从 82.6 降到 62.7)
  2. 路径奖励提升探索效率:降低输出长度(CWQ: 2067→1528 词),提升综合性和相关性
  3. SFT 冷启动不可或缺,纯 RL(无 SFT)性能大幅下降,ICL 也无法弥补
  4. α 过小导致生成错误/无意义路径,过大导致忽略答案正确性
  5. 路径奖励使模型在 ≥4-hop 上提升最显著,说明路径信号对深层推理最关键
  6. EoG 在六维推理质量评估中全面领先,尤其在推理深度和探索性上

亮点与洞察

  • 开源 7-8B 模型通过 RL 探索超越闭源 GPT-5 和 Gemini-2.5-Pro,展示自主探索的威力
  • 路径精炼奖励设计巧妙:通过 BFS + LLM 语义验证获取真实路径,基于三元组子串匹配计算奖励
  • "探索"能力与"模仿"能力的对比令人信服:模仿受限于训练分布,探索能发现分布外路径
  • 两阶段 RL(先结果奖励再联合奖励)的课程设计值得借鉴
  • 在最具挑战性的 ≥4-hop 和 superlative 场景中提升最大,验证了探索对复杂推理的价值

局限与展望

  • 真实路径获取依赖 BFS + LLM 验证,对于超大规模 KG 可能计算代价高
  • 路径奖励基于子串匹配,可能受同一实体不同名称的表述差异影响
  • 仅在 Freebase 和 Wikidata 上验证,领域特定 KG(如生物医学)待测试
  • 训练数据由 Gemini-2.5-Flash 蒸馏生成,数据质量受限于教师模型
  • 未探讨动态 KG(知识随时间变化)的适应性

相关工作与启发

  • 与 DeepSeek-R1 的 RL 推理范式一致,但将其扩展到图结构化推理领域
  • 规则方法(ToG、DoG)提供结构保证但缺乏灵活性,EoG 通过 RL 隐式学习结构约束
  • 路径精炼奖励与 process reward model(PRM)思路类似,但更直接(基于事实匹配而非模型判断)
  • 对 KG-enhanced RAG 有启发:可将探索策略引入知识增强检索

评分

  • 新颖性: 4/5 (RL 探索 KG 的思路新颖,路径精炼奖励设计独到)
  • 实验充分度: 5/5 (五个数据集、多个基线含闭源模型、详尽消融和复杂场景分析)
  • 写作质量: 4/5 (框架清晰,示例图解有效)
  • 价值: 5/5 (8B 模型超越 GPT-5 的结果极具说服力,实用价值高)