Explore-on-Graph: Incentivizing Autonomous Exploration of LLMs on Knowledge Graphs¶

会议: ICLR 2026
arXiv: 2602.21728
代码: 有
领域: 图学习
关键词: 知识图谱问答, 自主探索, 强化学习, 路径精炼奖励, GRPO

一句话总结¶

提出 Explore-on-Graph（EoG），通过 SFT + 两阶段强化学习（结果奖励 + 路径精炼奖励），激励 LLM 在知识图谱上自主探索超出训练分布的推理路径，在五个 KGQA 基准上超越 GPT-5 和 Gemini 2.5 Pro。

研究背景与动机¶

LLM 在 QA 中容易产生幻觉和知识缺失，知识图谱（KG）是接地验证的理想来源
现有方法分为两类，均有泛化局限：
- 规则方法（如 ToG、DoG）：预定义规则约束推理，训练无关但无法处理分布外模式
- 模仿方法（如 RoG、KG-Agent）：模仿训练数据中的推理模式，泛化到新路径困难
关键洞察：实际 KG 推理涉及非典型路径（如经过 colleague 或 subsidiary 间接关系），需要自主探索
示例：常见路径 "Google→employee→Carol→lives_in→London"，非典型路径 "Google→employee→Bob→colleague→John→resides_at→London"

方法详解¶

整体框架¶

两阶段训练： 1. SFT 阶段：用长 CoT 数据教会 LLM 结构化图推理能力（冷启动） 2. RL 阶段： - Phase 1：GRPO + 结果奖励（答案 F1 分数）激励发现正确路径 - Phase 2：GRPO + 联合奖励（结果+路径精炼）提高探索效率和语义质量

关键设计¶

长 CoT 数据集构建： - 精心设计 prompt 要求推理结构化、逻辑严谨、与 KG 对齐 - 使用 Gemini 2.5 Flash 进行知识蒸馏，生成推理路径（think 标签）和最终答案（answer 标签） - 额外规则过滤不合格的推理过程，确保结构和事实正确性 - 直接让 LLM 探索 KG 面临巨大动作空间和极端奖励稀疏性，SFT 冷启动不可或缺

Phase 1：结果奖励（Outcome Reward）： - 使用 GRPO 算法，每个问题采样 S 条探索路径 - 奖励 = 实体级 F1 分数（而非简单 Hit@1），更适合多答案场景 - 未生成正确格式答案标签的路径自动获得 0 奖励，隐式鼓励正确格式 - 通过 GRPO 的组内相对优势归一化驱动策略优化

Phase 2：路径精炼奖励（Path-refined Reward）：

真实路径获取（Search-and-Verify Pipeline）： 1. 识别问题中的主题实体和 KG 中的答案实体 2. BFS 搜索所有连接路径（最大跳数约束），确保高召回 3. LLM（Gemini-2.5-Flash）语义验证路径是否与问题意图匹配，过滤虚假拓扑连接

路径奖励计算：检查真实路径中每个三元组 (s,r,o) 是否全部作为子串出现在生成的思维文本中，取匹配比例作为路径奖励分数。

联合奖励：R_joint = R_outcome + α * R_path，α 控制路径奖励权重。

两阶段 RL 设计动机：先用结果奖励建立基本探索能力，再用路径奖励精炼探索质量和效率。

损失函数 / 训练策略¶

SFT 阶段：标准语言建模损失（交叉熵），在长 CoT 数据上训练
RL 阶段：GRPO 目标函数，含重要性采样比率、clipping、KL 散度正则
基座模型：Qwen2.5-7B-Instruct 和 Llama-3.1-8B-Instruct
SFT 数据由 Gemini-2.5-Flash 蒸馏，RL 用 verl 框架实现 GRPO

实验关键数据¶

主实验（五个 KGQA 基准）¶

方法	模型	WebQSP Hit@1	CWQ Hit@1	GrailQA Hit@1	QALD10 Hit@1	2WikiMH Hit@1
DoG	Llama-3.1-8B	91.4	76.2	-	-	84.1
GCR	Llama-3.1-8B	92.2	75.8	-	-	-
GPT-5	-	86.1	74.1	90.5	59.2	84.2
Gemini-2.5-Pro	-	92.1	71.9	91.6	58.6	85.1
EoG	Qwen2.5-7B	90.7	82.7	91.7	67.3	83.9
EoG	Llama-3.1-8B	92.8	86.6	92.1	70.6	85.3

EoG (Llama-3.1-8B) 在 CWQ 上以 86.6 Hit@1 大幅超越 GPT-5 (74.1) 和 Gemini-2.5-Pro (71.9)。

复杂推理场景 (CWQ F1)	Conjunction	Superlative	1-hop	≥4-hop
GCR	63.7	52.6	66.3	45.8
DoG	53.3	45.9	50.3	46.7
EoG	70.2	64.7	76.2	69.6

EoG 在最困难的 ≥4-hop 推理中优势最大（69.6 vs 45.8/46.7）。

消融实验¶

变体	CWQ Hit@1	CWQ F1	WebQSP Hit@1	WebQSP F1
EoG 完整	82.6	73.9	92.8	81.3
去除路径奖励	81.5	70.8	90.2	77.3
去除结果奖励	62.7	51.4	65.5	56.2
去除 SFT	70.3	63.1	75.9	65.8
去除 SFT + 用 ICL	70.7	63.8	77.2	66.5

关键发现¶

结果奖励是最核心组件（去除后 CWQ Hit@1 从 82.6 降到 62.7）
路径奖励提升探索效率：降低输出长度（CWQ: 2067→1528 词），提升综合性和相关性
SFT 冷启动不可或缺，纯 RL（无 SFT）性能大幅下降，ICL 也无法弥补
α 过小导致生成错误/无意义路径，过大导致忽略答案正确性
路径奖励使模型在 ≥4-hop 上提升最显著，说明路径信号对深层推理最关键
EoG 在六维推理质量评估中全面领先，尤其在推理深度和探索性上

亮点与洞察¶

开源 7-8B 模型通过 RL 探索超越闭源 GPT-5 和 Gemini-2.5-Pro，展示自主探索的威力
路径精炼奖励设计巧妙：通过 BFS + LLM 语义验证获取真实路径，基于三元组子串匹配计算奖励
"探索"能力与"模仿"能力的对比令人信服：模仿受限于训练分布，探索能发现分布外路径
两阶段 RL（先结果奖励再联合奖励）的课程设计值得借鉴
在最具挑战性的 ≥4-hop 和 superlative 场景中提升最大，验证了探索对复杂推理的价值

局限与展望¶

真实路径获取依赖 BFS + LLM 验证，对于超大规模 KG 可能计算代价高
路径奖励基于子串匹配，可能受同一实体不同名称的表述差异影响
仅在 Freebase 和 Wikidata 上验证，领域特定 KG（如生物医学）待测试
训练数据由 Gemini-2.5-Flash 蒸馏生成，数据质量受限于教师模型
未探讨动态 KG（知识随时间变化）的适应性

评分¶

新颖性: 4/5 （RL 探索 KG 的思路新颖，路径精炼奖励设计独到）
实验充分度: 5/5 （五个数据集、多个基线含闭源模型、详尽消融和复杂场景分析）
写作质量: 4/5 （框架清晰，示例图解有效）
价值: 5/5 （8B 模型超越 GPT-5 的结果极具说服力，实用价值高）