KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search¶
会议: ICML2025
arXiv: 2501.18922
代码: LHRLAB/KBQA-o1
领域: LLM Agent
关键词: 知识库问答, KBQA, 蒙特卡洛树搜索, MCTS, ReAct Agent, 低资源, 逻辑形式生成
一句话总结¶
提出 KBQA-o1,将 ReAct Agent 与蒙特卡洛树搜索(MCTS)结合,通过策略模型和奖励模型驱动的启发式搜索实现知识库问答,在低资源设置下以 Llama-3.1-8B 将 GrailQA F1 从 48.5%(GPT-3.5-turbo SOTA)提升至 78.5%。
研究背景与动机¶
知识库问答(KBQA)旨在利用 Freebase、Wikidata 等大规模结构化知识库回答自然语言问题。现有 LLM-based 方法面临三大挑战:
KB 环境感知不足:端到端方法直接生成逻辑形式,难以感知 KB 中的实体和关系,导致生成不合法的查询
局部最优 vs 搜索空间爆炸:CoT 方法易陷入局部最优,ToT 方法虽扩展搜索空间但面临指数级增长
高度依赖标注数据:训练开源 LLM 需要大量高质量人工标注,但对大规模 KB 标注成本极高
KBQA-o1 的核心思路:将 KBQA 建模为 Agent 在 KB 环境中的探索过程,用 MCTS 平衡探索效率和搜索质量,并通过自动标注进行增量微调减少对人工标注的依赖。
方法详解¶
整体框架¶
KBQA-o1 包含三个核心组件:Agent 初始化、MCTS 启发式探索、增量微调。
1. ReAct-based Agent 设计¶
- 设计了 8 种原子查询工具(Extract_entity, Find_relation, Merge, Order, Compare, Time_constraint, Count, Finish)
- Agent 状态空间 \(\mathcal{H}\):每步由 Thought-Action-Observation 三元组更新
- 探索空间动态依赖当前状态和 KB 环境,工具参数从 KB 候选集中选择
2. MCTS 启发式搜索¶
- 策略模型 \(\pi_{\text{policy}}\):以当前状态为输入,预测到终态的完整探索序列,用 SFT 训练
- 奖励模型 \(\pi_{\text{reward}}\):以问题为输入评估生成的逻辑形式质量,用 SFT 训练
- 评分函数:\(R_\pi(y|x) = \beta + \alpha \log \pi(y|x)\),其中 \(\beta=100\) 为满分
MCTS 四阶段: - Selection:UCT 算法平衡探索和利用,选择子节点 - Expansion:策略模型通过 beam search 生成候选,SimCSE 与 KB 可执行选项匹配,策略模型打分取 top-d - Simulation:选最优子节点向前模拟至终态 - Back-propagation:奖励模型评估完整轨迹,Q 值逐层回传
3. 增量微调¶
- 用少量标注数据初始化策略/奖励模型
- MCTS 探索未标注问题生成自动标注数据
- 奖励模型过滤低质量标注,增量微调提升两个模型
损失函数¶
- 策略模型:\(\mathcal{L}_{\text{SFT}}(\pi_{\text{policy}}, \mathcal{D}_a) = -\mathbb{E}[\sum_{t=1}^l \log \pi_{\text{policy}}(\sum_{i=t}^l \mathbf{e}_i | \mathbf{h}_{t-1})]\)
- 奖励模型:\(\mathcal{L}_{\text{SFT}}(\pi_{\text{reward}}, \mathcal{D}_a) = -\mathbb{E}[\log \pi_{\text{reward}}(F_{\mathbf{h}_l} | \mathcal{Q})]\)
实验关键数据¶
GrailQA(40-shot 低资源设置)¶
| 方法 | LLM | I.I.D F1 | Comp. F1 | Zero-shot F1 | Overall F1 |
|---|---|---|---|---|---|
| KB-BINDER | GPT-3.5-turbo | 43.3 | 36.6 | 44.0 | 42.2 |
| ARG-KBQA | GPT-3.5-turbo | 51.5 | 41.8 | 52.1 | 48.5 |
| KBQA-o1 | Llama-3.1-8B | 85.5 | 77.6 | 76.1 | 78.5 |
| KBQA-o1 | Qwen2.5-72B | 87.4 | 83.0 | 81.9 | 82.1 |
| 全监督 TIARA | - | 91.2 | 74.8 | 80.7 | 81.9 |
WebQSP(100-shot)& GraphQ(100-shot)¶
| 数据集 | 方法 | F1 |
|---|---|---|
| WebQSP | ARG-KBQA (GPT-3.5) | 58.8 |
| WebQSP | KBQA-o1 (Llama-3.3-70B) | 67.0 |
| GraphQ | KBQA-o1 (Llama-3.3-70B) | 35.1 |
关键发现¶
- 8B 模型 KBQA-o1 大幅超越 GPT-3.5-turbo 的 SOTA 方法(78.5% vs 48.5%),提升 30 个点
- 在 Compositional 和 Zero-shot 等困难场景提升尤为显著
- 支持 Llama-3、Qwen2.5、Gemma-2 等多种开源模型,具有 plug-and-play 特性
- MCTS agent 探索和增量微调均有显著消融贡献
亮点与洞察¶
- 将 KBQA 建模为 Agent+MCTS 问题是本文的核心创新,将 AlphaGo 的思路迁移到知识库问答
- 原子查询工具设计精巧,8 种工具覆盖了 KBQA 的所有逻辑形式构造需求
- SimCSE 匹配巧妙地将模型生成与 KB 环境选项对齐,解决了 KB 感知不足的问题
- 自动标注 + 增量微调大幅降低标注依赖,40-shot 即可接近甚至超越全监督方法
- 多模型通用的 plug-and-play 设计增强了方法的实用性
局限与展望¶
- MCTS 搜索带来的推理开销较大(N 次 rollout),在线部署延迟较高
- 仅在 Freebase 数据集上验证,对 Wikidata 等其他 KB 的泛化性未充分讨论
- 策略和奖励模型需要分别微调,训练管线较复杂
- 自动标注数据的质量依赖奖励模型的泛化能力,可能存在误差累积
相关工作与启发¶
- RAP (Hao et al., 2023):首次将 MCTS 与 LLM 结合用于推理,KBQA-o1 将其拓展到 KB 环境
- ReAct (Yao et al., 2023b):Agent 框架的基础
- KB-BINDER / KB-Coder:先前低资源 KBQA 方法,基于 ICL 的 GPT-3.5
- 启示:MCTS 驱动的 Agent 探索可推广到其他结构化知识查询任务
评分¶
- 新颖性: ⭐⭐⭐⭐ (Agent+MCTS 在 KBQA 的首次应用,框架设计完整)
- 实验充分度: ⭐⭐⭐⭐ (三个数据集、多模型、消融实验完备)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,理论和实验相辅相成)
- 价值: ⭐⭐⭐⭐⭐ (低资源 KBQA 的突破性工作,开源可用)