AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning¶

会议: ACL 2026
arXiv: 2604.05846
代码: https://github.com/sunyuanfu/AgentGL
领域: 图学习 / LLM Agent
关键词: 图学习, 强化学习, 智能体导航, 文本属性图, 工具使用

一句话总结¶

提出 AgentGL，首个基于强化学习的智能体图学习（AGL）框架，让 LLM 智能体通过图原生搜索工具自主导航文本属性图（TAG），在节点分类和链接预测任务上分别实现最高 17.5% 和 28.4% 的绝对准确率提升。

研究背景与动机¶

领域现状：LLM 越来越多地依赖 agentic 能力（迭代检索、工具调用、决策推理）来突破静态参数化知识的局限。然而现有的 agentic 框架主要处理非结构化文本，无法利用现实世界数据中的拓扑依赖关系。

现有痛点：传统 GNN 能建模结构信号但难以处理丰富文本语义；GraphLLM（如 GraphGPT、GraphICL）依赖静态图上下文，推理时无法自适应探索；GraphRAG 构建的知识图谱成本高且不保留原始拓扑关联。三类方法都缺乏在真实图结构上的动态证据获取机制。

核心矛盾：图上的证据是多尺度的——有些线索存在于紧密的局部邻域中，有些只在更广泛的结构模式中显现。智能体需要在组合空间中决定"下一步去哪里"，同时避免冗余或无信息区域。此外，有效的图推理需要多步探索，但真实搜索轨迹标注极其稀缺。

本文目标：提出 Agentic Graph Learning（AGL）新范式，让 LLM 智能体能自主导航图结构、累积结构证据、基于实时推理迭代调整搜索轨迹。

切入角度：将图学习重新定义为拓扑感知导航与 LLM 推理的交替过程，而非静态特征编码或一次性检索。

核心 idea：用强化学习驱动 LLM 智能体学习图原生搜索策略，通过搜索约束思维抑制过度检索，通过图条件课程学习稳定长周期策略优化。

方法详解¶

整体框架¶

AgentGL 将图学习建模为智能体决策过程：给定目标节点/节点对和查询，LLM 智能体通过图原生搜索工具迭代获取证据，最终输出预测。训练分两阶段：（1）图原生策略引导——学习基本导航行为；（2）搜索效率优化——通过搜索约束思维减少冗余工具调用。两阶段均在图条件课程学习策略下进行。

关键设计¶

图原生搜索工具集:
- 功能：提供多尺度图结构探索能力
- 核心思路：设计四种互补工具覆盖"局部 vs 全局"和"结构 vs 语义"两个维度：\(\tau_{1hop}\)（1跳邻域搜索，融合共同邻居优先+独有邻居均衡分配）、\(\tau_{2hop}\)（2跳邻域搜索）、\(\tau_{ss}\)（结构显著性搜索，基于 PPR 分数检索全局拓扑枢纽）、\(\tau_{dense}\)（图稠密搜索，用余弦相似度桥接语义相关但拓扑断开的节点）
- 设计动机：确保 LLM 能像导航文本一样灵活导航图结构，从局部结构到全局语义全覆盖
搜索约束思维（Search-Constrained Thinking）:
- 功能：抑制过度检索，促进深度推理
- 核心思路：三个组件——回溯终止触发器（每次工具执行后注入认知中断，强制评估证据充分性）、认知密度正则化（惩罚稀疏推理片段 \(r_{depth} = \alpha \cdot \mathbb{I}[N_{short}=0] - \lambda_d \cdot N_{short}\)）、自适应奖励过渡（丢弃覆盖激励，聚焦准确率+推理密度）
- 设计动机：解决引导阶段默认穷举检索的低效问题，实现"想多搜少"
图条件课程学习（GCCL）:
- 功能：稳定训练并加速收敛
- 核心思路：利用图内在属性零成本量化样本难度。节点分类用 Wilson 下界校正的同质性估计+度先验；链接预测用语义相似度与标签一致性。按从易到难顺序渐进训练
- 设计动机：图天然提供可量化的难度先验，避免传统课程学习需人工标注的瓶颈

损失函数 / 训练策略¶

阶段1：\(R(\tau) = r_{fmt} + r_{acc} + r_{cov}\)（格式+准确率+工具覆盖），用 GRPO 或 REINFORCE++ 优化。阶段2：\(R(\tau) = r_{fmt} + r_{acc} + r_{depth}\)，去掉覆盖激励加入认知密度奖励。

实验关键数据¶

主实验¶

任务	数据集	AgentGL	最强基线	提升
节点分类	OGB-Arxiv	66.3	54.1 (GraphPrompter)	+12.2
节点分类	PubMed	74.5	67.0 (GraphPrompter)	+7.5
链接预测	OGB-Arxiv	91.5	79.8 (LLaGA)	+11.7
链接预测	PubMed	75.8	62.5 (GraphICL)	+13.3
零样本迁移(NC)	Arxiv-23	63.6	52.2 (GraphICL)	+11.4
零样本迁移(LP)	Reddit	83.2	62.0 (GraphICL)	+21.2

消融实验¶

配置	说明
Full AgentGL	完整模型，最优性能
w/o GCCL	去掉课程学习，训练不稳定，性能下降
w/o Search-Constrained Thinking	过度检索但保持基本能力
w/o 全局工具	只有局部工具，结构视野受限，明显下降

关键发现¶

所有 7 个数据集上均大幅超越 GNN、GraphLLM 和 GraphRAG 基线
零样本迁移场景提升尤为显著（Reddit LP +21.2%），学到的搜索策略泛化性强
搜索约束思维显著减少工具调用次数同时维持甚至提升准确率

亮点与洞察¶

AGL 范式本身是核心贡献：将图学习从"静态编码"重新定义为"交互式导航+推理"，为 LLM 在结构化数据上的应用开辟新方向
课程学习零成本化：利用图内在属性自动量化难度，避免人工标注或试运行的瓶颈
搜索约束思维可迁移：这个"想多搜少"的设计可应用于任何工具增强 LLM 场景

局限与展望¶

仅在节点分类和链接预测两个任务上验证，社区检测、图分类等尚未涉及
图原生工具是手工设计的，未来可让智能体自主发现/组合新工具
训练成本较高（多轮 RL），大规模图上的可扩展性有待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个 AGL + RL 结合的工作，开创新方向
实验充分度: ⭐⭐⭐⭐ 7 个数据集 + 多个 backbone，消融可更充分
写作质量: ⭐⭐⭐⭐ 框架清晰，公式严谨
价值: ⭐⭐⭐⭐⭐ AGL 范式有很大潜力推动图学习与 LLM 深度融合