跳转至

TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning

会议: ACL 2025
arXiv: 2502.20508
代码: 无(论文声明接受后公开)
领域: LLM评测
关键词: 旅行规划基准、时空约束、LLM评估、个性化行程生成、连续评估指标

一句话总结

提出TripCraft——一个整合真实世界时空约束(公共交通、活动可用性、用户画像等)的旅行规划基准数据集,配套五个连续评估指标,系统评估LLM生成行程的质量,在参数指导设置下将餐饮时间分数从61%提升至80%。

研究背景与动机

领域现状:近年来,研究者开始探索利用大语言模型作为个性化旅行规划代理的潜力。LLM可以根据用户需求生成多天行程安排,涵盖景点游览、餐饮安排、交通规划等多个方面。已有的基准数据集如TravelPlanner和TravelPlanner+为这一方向奠定了基础。

现有痛点:现有数据集存在三个核心问题:(1) 数据半合成——依赖人工构造或简化的数据,未能反映真实旅行场景的复杂性;(2) 空间不一致——景点间的距离、交通时间等空间信息不准确,导致生成的行程在物理上不可行;(3) 缺少关键旅行约束——如公共交通时刻表、景点开放时间、活动可用性、用户个性化偏好等真实约束条件被忽略。此外,现有评估方法大多采用二元验证(满足/不满足),无法细粒度地衡量行程质量。

核心矛盾:旅行规划本质上是一个涉及多维度约束的复杂决策问题——时间约束(营业时间、用餐时间窗口)、空间约束(景点间距离、交通方式)、个人偏好约束(用户画像、兴趣类别)需要同时满足。现有基准既缺乏这些真实约束的建模,也缺乏相应的评估手段。

本文目标:构建一个时空一致的旅行规划基准,整合真实世界约束;设计连续评估指标取代二元验证;评估主流LLM的旅行规划能力。

切入角度:从真实世界数据出发,整合Google Maps的实际距离数据、公共交通时刻表、景点分类信息和用户画像,构建约束感知的数据集。

核心 idea:用五个连续评估指标替代简单的二元验证,从时间、空间、排序、个性化多个维度量化行程质量,并引入参数指导(parameter-informed)设置让LLM利用约束参数生成更优行程。

方法详解

整体框架

TripCraft的构建分为三个阶段:(1) 数据收集与构建——从真实来源获取城市景点、餐厅、交通等信息,构建时空一致的数据集;(2) 评估指标设计——提出五个连续评估指标从不同维度量化行程质量;(3) LLM评估实验——在直接生成和参数指导两种设置下评估多个LLM的旅行规划能力。输入为用户需求描述(目的地、天数、偏好等),输出为完整的每日行程安排。

关键设计

  1. 时空一致的数据集构建:

    • 功能:提供真实约束条件下的旅行规划测试环境
    • 核心思路:数据集整合了多源真实数据——景点信息包含营业时间、类别(博物馆/公园/购物等)、地理坐标;餐厅信息包含营业时间段(早餐/午餐/晚餐);交通信息来自真实公共交通时刻表,包含站点间的实际通行时间;活动信息包含时效性事件(如展览、演出)的可用时间窗口。空间一致性通过Google Maps API获取的实际距离和通行时间保证。用户画像包含年龄、兴趣偏好、餐饮习惯等个性化属性,用于测试个性化规划能力。数据涵盖多个城市、1-7天不同旅行长度的场景。
    • 设计动机:现有数据集的空间信息不一致(如景点间距离与实际不符),导致LLM生成的行程在物理上不可行。整合真实数据解决了这一根本问题。
  2. 五维连续评估指标体系:

    • 功能:多维度、细粒度地量化行程质量
    • 核心思路:设计了五个连续分数(0-100%)代替简单的通过/不通过判断:(a) Temporal Meal Score (TMS) 评估餐饮安排的时间合理性——早餐是否在合理时间段、午餐和晚餐是否按时安排;(b) Temporal Attraction Score (TAS) 评估景点访问时间是否在营业时间内;(c) Spatial Score (SS) 评估相邻景点间的空间距离是否合理,基于实际交通时间计算;(d) Ordering Score (OS) 评估行程中景点的访问顺序是否符合逻辑(如先近后远、避免折返);(e) Persona Score (PS) 评估行程是否匹配用户画像中的偏好(如喜欢历史文化的用户是否被安排了足够的博物馆)。每个指标都是连续值,可以精细地反映行程在该维度上的质量。
    • 设计动机:二元验证无法区分"差一点满足约束"和"完全不满足约束"的情况,连续指标提供了更丰富的信号来指导模型改进。
  3. 参数指导(Parameter-Informed)设置:

    • 功能:通过向LLM提供约束参数来提升行程质量
    • 核心思路:在prompt中显式提供关键约束参数——如餐厅的营业时间段、景点间的大致距离、活动的可用时间窗口等。LLM不再需要"猜测"这些约束,可以直接利用这些信息进行规划。对比实验设置了两种模式:(a) 直接生成——LLM仅根据用户需求生成行程,不提供额外约束;(b) 参数指导——在prompt中嵌入约束参数指导生成。
    • 设计动机:LLM虽然具备一定的常识推理能力,但对于精确的时空约束(如某餐厅几点开门)缺乏可靠知识。显式提供参数可以弥补这一不足。

损失函数 / 训练策略

本文是基准数据集和评估框架工作,不涉及模型训练。实验使用现有LLM的API进行推理。

实验关键数据

主实验

模型 TMS(7天) TAS SS OS PS
GPT-4 (直接) 61% 较高 中等 较高 中等
GPT-4 (参数指导) 80% 较高 较高
GPT-3.5 (直接) 中等 中低 中等 中低
GPT-3.5 (参数指导) 中等 较高 中等 较高 中等
LLaMA系列 较低 中低 中低

消融实验

配置 TMS 说明
直接生成 (7天) 61% 无约束参数
参数指导 (7天) 80% 提供时间约束
直接生成 (1天) 较高 短行程约束少
参数指导 (1天) 更高 改善幅度相对较小
无Persona信息 PS下降显著 个性化匹配退化
无空间约束 SS下降 空间合理性减弱

关键发现

  • 参数指导设置显著提升了所有模型的表现,特别是餐饮时间安排(TMS从61%→80%),说明LLM在缺乏显式约束时的时间感知能力较弱
  • 随着旅行天数增加(1天→7天),所有模型的表现都明显下降,长程规划对LLM是更大的挑战
  • 空间分数(SS)是所有LLM表现最差的维度,表明LLM对实际地理距离和交通时间的估计能力有限
  • 开源模型(如LLaMA系列)与闭源模型(GPT-4)之间存在显著差距,特别是在需要遵循复杂约束的场景中
  • 个性化维度(PS)是所有模型的另一弱项,LLM倾向于生成"通用"行程而非针对特定用户画像定制

亮点与洞察

  • 五维连续评估指标是本文最大亮点——将模糊的"行程好坏"分解为时间、空间、排序、个性化等可量化维度,为旅行规划评估提供了精细化工具。这一评估思路可以迁移到其他多约束生成任务(如日程安排、物流优化)
  • 参数指导设置简单但效果显著,揭示了LLM在约束感知方面的根本不足——它们更擅长遵循显式给出的约束,而非自行推断隐含约束
  • 数据集中整合公共交通时刻表和活动可用性等动态约束,使得评估更接近真实应用场景

局限与展望

  • 数据集规模和覆盖范围可能有限,仅涵盖部分城市,不同文化背景和旅行习惯未被充分考虑
  • 评估指标虽然多维,但缺少对主观体验质量的度量(如行程的趣味性、丰富度)
  • 未考虑预算约束和价格敏感性,这在实际旅行规划中非常重要
  • 未来可以引入多轮对话场景,让LLM根据用户反馈动态调整行程
  • 也可以探索结合外部API(如地图、订票系统)的工具增强方法来改善LLM的时空推理能力

相关工作与启发

  • vs TravelPlanner: TravelPlanner是最早的LLM旅行规划基准,但使用半合成数据且空间信息不一致。TripCraft在数据真实性和评估维度上均有显著提升
  • vs TravelPlanner+: TravelPlanner+增加了部分约束,但仍缺少公共交通、活动可用性等关键约束,评估仍以二元验证为主
  • vs NaturalPlan: Google的NaturalPlan专注于自然语言约束下的规划,但不涉及时空一致性问题。两者的评估视角互补

评分

  • 新颖性: ⭐⭐⭐⭐ 五维连续评估指标设计新颖,但基准构建方法较为直观
  • 实验充分度: ⭐⭐⭐⭐ 18个表格全面覆盖不同模型和设置,分析细致
  • 写作质量: ⭐⭐⭐⭐ 27页详尽描述,结构清晰
  • 价值: ⭐⭐⭐⭐ 为LLM旅行规划评估提供了更合理的基准,推动该方向进步