ICML2025 LLM Agent 知识库问答 KBQA 蒙特卡洛树搜索 MCTS ReAct Agent 低资源逻辑形式生成

KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search¶

会议: ICML2025
arXiv: 2501.18922
代码: LHRLAB/KBQA-o1
领域: LLM Agent
关键词: 知识库问答, KBQA, 蒙特卡洛树搜索, MCTS, ReAct Agent, 低资源, 逻辑形式生成

一句话总结¶

提出 KBQA-o1，将 ReAct Agent 与蒙特卡洛树搜索（MCTS）结合，通过策略模型和奖励模型驱动的启发式搜索实现知识库问答，在低资源设置下以 Llama-3.1-8B 将 GrailQA F1 从 48.5%（GPT-3.5-turbo SOTA）提升至 78.5%。

研究背景与动机¶

知识库问答（KBQA）旨在利用 Freebase、Wikidata 等大规模结构化知识库回答自然语言问题。现有 LLM-based 方法面临三大挑战：

KB 环境感知不足：端到端方法直接生成逻辑形式，难以感知 KB 中的实体和关系，导致生成不合法的查询

局部最优 vs 搜索空间爆炸：CoT 方法易陷入局部最优，ToT 方法虽扩展搜索空间但面临指数级增长

高度依赖标注数据：训练开源 LLM 需要大量高质量人工标注，但对大规模 KB 标注成本极高

KBQA-o1 的核心思路：将 KBQA 建模为 Agent 在 KB 环境中的探索过程，用 MCTS 平衡探索效率和搜索质量，并通过自动标注进行增量微调减少对人工标注的依赖。

方法详解¶

整体框架¶

KBQA-o1 包含三个核心组件：Agent 初始化、MCTS 启发式探索、增量微调。

1. ReAct-based Agent 设计¶

设计了 8 种原子查询工具（Extract_entity, Find_relation, Merge, Order, Compare, Time_constraint, Count, Finish）
Agent 状态空间 \(\mathcal{H}\)：每步由 Thought-Action-Observation 三元组更新
探索空间动态依赖当前状态和 KB 环境，工具参数从 KB 候选集中选择

2. MCTS 启发式搜索¶

策略模型 \(\pi_{\text{policy}}\)：以当前状态为输入，预测到终态的完整探索序列，用 SFT 训练
奖励模型 \(\pi_{\text{reward}}\)：以问题为输入评估生成的逻辑形式质量，用 SFT 训练
评分函数：\(R_\pi(y|x) = \beta + \alpha \log \pi(y|x)\)，其中 \(\beta=100\) 为满分

MCTS 四阶段： - Selection：UCT 算法平衡探索和利用，选择子节点 - Expansion：策略模型通过 beam search 生成候选，SimCSE 与 KB 可执行选项匹配，策略模型打分取 top-d - Simulation：选最优子节点向前模拟至终态 - Back-propagation：奖励模型评估完整轨迹，Q 值逐层回传

3. 增量微调¶

用少量标注数据初始化策略/奖励模型
MCTS 探索未标注问题生成自动标注数据
奖励模型过滤低质量标注，增量微调提升两个模型

损失函数¶

策略模型：\(\mathcal{L}_{\text{SFT}}(\pi_{\text{policy}}, \mathcal{D}_a) = -\mathbb{E}[\sum_{t=1}^l \log \pi_{\text{policy}}(\sum_{i=t}^l \mathbf{e}_i | \mathbf{h}_{t-1})]\)
奖励模型：\(\mathcal{L}_{\text{SFT}}(\pi_{\text{reward}}, \mathcal{D}_a) = -\mathbb{E}[\log \pi_{\text{reward}}(F_{\mathbf{h}_l} | \mathcal{Q})]\)

实验关键数据¶

GrailQA（40-shot 低资源设置）¶

方法	LLM	I.I.D F1	Comp. F1	Zero-shot F1	Overall F1
KB-BINDER	GPT-3.5-turbo	43.3	36.6	44.0	42.2
ARG-KBQA	GPT-3.5-turbo	51.5	41.8	52.1	48.5
KBQA-o1	Llama-3.1-8B	85.5	77.6	76.1	78.5
KBQA-o1	Qwen2.5-72B	87.4	83.0	81.9	82.1
全监督 TIARA	-	91.2	74.8	80.7	81.9

WebQSP（100-shot）& GraphQ（100-shot）¶

数据集	方法	F1
WebQSP	ARG-KBQA (GPT-3.5)	58.8
WebQSP	KBQA-o1 (Llama-3.3-70B)	67.0
GraphQ	KBQA-o1 (Llama-3.3-70B)	35.1

关键发现¶

8B 模型 KBQA-o1 大幅超越 GPT-3.5-turbo 的 SOTA 方法（78.5% vs 48.5%），提升 30 个点
在 Compositional 和 Zero-shot 等困难场景提升尤为显著
支持 Llama-3、Qwen2.5、Gemma-2 等多种开源模型，具有 plug-and-play 特性
MCTS agent 探索和增量微调均有显著消融贡献

亮点与洞察¶

将 KBQA 建模为 Agent+MCTS 问题是本文的核心创新，将 AlphaGo 的思路迁移到知识库问答
原子查询工具设计精巧，8 种工具覆盖了 KBQA 的所有逻辑形式构造需求
SimCSE 匹配巧妙地将模型生成与 KB 环境选项对齐，解决了 KB 感知不足的问题
自动标注 + 增量微调大幅降低标注依赖，40-shot 即可接近甚至超越全监督方法
多模型通用的 plug-and-play 设计增强了方法的实用性

局限与展望¶

MCTS 搜索带来的推理开销较大（N 次 rollout），在线部署延迟较高
仅在 Freebase 数据集上验证，对 Wikidata 等其他 KB 的泛化性未充分讨论
策略和奖励模型需要分别微调，训练管线较复杂
自动标注数据的质量依赖奖励模型的泛化能力，可能存在误差累积

评分¶

新颖性: ⭐⭐⭐⭐ （Agent+MCTS 在 KBQA 的首次应用，框架设计完整）
实验充分度: ⭐⭐⭐⭐ （三个数据集、多模型、消融实验完备）
写作质量: ⭐⭐⭐⭐ （结构清晰，理论和实验相辅相成）
价值: ⭐⭐⭐⭐⭐ （低资源 KBQA 的突破性工作，开源可用）