Tool4POI: A Tool-Augmented LLM Framework for Next POI Recommendation¶

会议: AAAI 2026
arXiv: 2511.06405
代码: 无
领域: 推荐系统
关键词: POI推荐, 工具增强LLM, Agent, 开放集推荐, 位置服务

一句话总结¶

本文首次将工具增强 LLM 范式引入下一个 POI 推荐任务，通过偏好提取、多轮候选检索和重排序三个模块，使 LLM 能从全量 POI 池中检索推荐，在 Out-of-History (OOH) 场景下实现 40% 准确率（现有方法为 0%），Acc@5/10 平均提升 20%/30%。

研究背景与动机¶

领域现状：下一个 POI（兴趣点）推荐是位置服务的核心任务。传统方法（RNN/Transformer/GCN）通过嵌入表示建模用户轨迹序列。近年 LLM 的上下文推理能力被引入该任务，如 LLM-Mob（上下文学习）、LLM4POI（监督微调），展现了对时空动态的理解潜力。

现有痛点：LLM-based 方法面临两个根本性限制：(1) 强依赖历史完整性——仅能从用户已访问的 POI 中推荐，无法处理 Out-of-History (OOH) 场景（用户将要访问从未去过的地方），而现实中 OOH 场景占比超 30%；(2) 受限于上下文窗口——一个城市可能有数十万 POI，无法将所有候选编码到提示中，无法进行开放集推荐。

核心矛盾：用户行为既有规律性（通勤模式）又有探索性（尝试新餐厅），现有 LLM 方法过拟合到已访问 POI，无法支持探索行为。微调方法（如 GNPR-SID）更是加剧了这种偏向。

本文目标：设计一个即插即用、无需微调的框架，使 LLM 能通过外部工具从全量 POI 池中检索推荐，突破 OOH 和大规模候选空间的限制。

切入角度：观察到人类选择目的地时会依次过滤（按类别、区域、距离排序），这种渐进缩小候选范围的过程可以用 LLM Agent 的多轮工具调用来模拟。

核心 idea：赋予 LLM 外部工具调用能力，通过偏好提取→多轮工具检索→重排序的三阶段管线，实现开放集 POI 推荐。

方法详解¶

整体框架¶

Tool4POI 包含三个模块，所有模块基于 Qwen2.5-14B，无需微调即可即插即用：(1) 偏好提取模块——从用户长期签到历史中提取区域、类别、时间三个维度的偏好；(2) 工具增强候选检索模块——LLM 作为检索 Agent 与6个外部工具多轮交互，从全量 POI 池中检索相关候选；(3) 重排序模块——根据用户近期签到行为对候选进行排序，反映当前意图。

关键设计¶

偏好提取模块（Preference Extraction）:
- 功能：从用户历史签到轨迹中提取长期偏好的结构化表示
- 核心思路：设计结构化提示，将用户按时间排列的签到序列（经 Google Maps Plus Code 转换为区域编码）输入 LLM，要求从 Region、Category、Time 三个维度输出偏好关键词。Plus Code 将经纬度坐标聚合为区域级编码，使空间相近的 POI 共享相同编码，简化地理特征表示
- 设计动机：历史数据量大但包含丰富的隐含规律，LLM 的推理能力适合从中提取多维度偏好摘要
工具增强候选检索模块（Candidate Retrieval）:
- 功能：使 LLM 能从全量 POI 池中自主检索相关候选，突破上下文窗口限制
- 核心思路：定义6个外部工具：Query 工具（getPOIinfo 获取 POI 元数据）、检索工具（filterByCategories/filterByRegions 按类别/区域过滤）、辅助工具（findPotential 基于 POI 级协同过滤生成初始候选、sortByDistance 按距离排序）、控制工具（finish 终止检索）。LLM 作为 RetrievalAgent 根据偏好自主决定工具调用顺序和参数。终止条件：显式调用 finish、候选集小于阈值 \(\tau=10\)、或达到最大调用次数 \(K=6\)
- 设计动机：(1) findPotential 通过有向共现图 \(G=(\mathcal{P}, \mathcal{E})\) 引入群体行为先验，使 OOH POI 也能被检索到；(2) 多轮交互模拟人类决策过程，每轮缩小候选空间，最终得到高质量候选集
重排序模块（Reranking）:
- 功能：根据用户近期行为对检索候选进行重排序，捕捉短期意图
- 核心思路：将用户近期签到轨迹 \(R_u\)、目标时间 \(t_{i+1}\) 和候选集 \(\mathcal{C}\) 一起输入 LLM，要求根据最近的签到规律对候选 POI 按访问可能性排序。使用自然语言推理而非嵌入相似度
- 设计动机：偏好提取捕获长期兴趣，重排序捕获短期动态（季节变化、生活阶段转换等），两者互补

损失函数 / 训练策略¶

Tool4POI 完全 training-free，不需要任何微调。推理时各模块顺序执行。检索模块中 Top-20 候选送入重排序模块。

实验关键数据¶

主实验¶

方法	NYC Acc@5	NYC Acc@10	TKY Acc@5	TKY Acc@10	CA Acc@5	CA Acc@10
Tool4POI	0.6346	0.7623	最优	最优	最优	最优
GNPR-SID (FT LLM)	低	低	低	低	低	低
GETNext	0.4815	0.5811	0.4045	0.4961	0.3278	0.3946
STAN	0.4582	0.5734	0.3798	0.4464	0.2348	0.3018

消融实验¶

配置	All Acc@1	All Acc@10	OOH Acc@1	OOH Acc@10
Tool4POI (完整)	0.3164	0.7623	0.0522	0.5863
去掉检索模块	0.2545	0.5559	0	0
去掉重排序模块	0.1655	0.7145	0.0963	0.6024

关键发现¶

OOH 场景下现有 LLM 方法准确率为 0%，Tool4POI 达到 40%+ Acc@10，证明工具增强检索的关键价值
检索模块对 Top-k 推荐贡献最大（引入多样候选），重排序对 Top-1 精准推荐贡献最大（捕捉当前意图）
在稀疏数据集 CA（平均仅10条签到）上提升最为显著（高达100%），展示数据稀疏场景下的鲁棒性
模型规模效应：即使用 3B 模型也超越 7B 微调方法，说明工具增强比模型规模更重要

亮点与洞察¶

首次将 Agent 工具调用范式引入推荐系统，开创了推荐系统与 LLM Agent 结合的新方向。findPotential 工具利用 POI 共现图作为集体先验特别精巧
Training-free + plug-and-play 设计使其可直接应用于任何城市和数据集，无需重新训练，具有极强实用性
多轮交互式缩小候选范围的设计模拟了人类选择目的地的认知过程，这种思路可迁移到其他开放集推荐场景（如商品推荐、内容推荐）

局限与展望¶

检索质量依赖 LLM 的工具调用准确性，较小模型可能出错导致工具链失效
6个工具的设计较为手工化，更多领域特定工具（如天气查询、活动日历）可能进一步提升性能
OOH 场景下重排序反而可能降低性能（因缺乏上下文信息），可考虑自适应地决定是否执行重排序
推理延迟较高（多轮 LLM 调用），实时推荐场景下需要优化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个工具增强LLM POI推荐框架，开创性地解决OOH问题
实验充分度: ⭐⭐⭐⭐ 三个数据集评测全面，IH/OOH分析深入
写作质量: ⭐⭐⭐⭐ 方法描述清晰，算法伪代码完整
价值: ⭐⭐⭐⭐⭐ 对推荐系统+LLM Agent领域有开创性贡献