TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning¶

会议: ACL 2025
arXiv: 2502.20508
代码: 无（论文声明接受后公开）
领域: LLM评测
关键词: 旅行规划基准、时空约束、LLM评估、个性化行程生成、连续评估指标

一句话总结¶

提出TripCraft——一个整合真实世界时空约束（公共交通、活动可用性、用户画像等）的旅行规划基准数据集，配套五个连续评估指标，系统评估LLM生成行程的质量，在参数指导设置下将餐饮时间分数从61%提升至80%。

研究背景与动机¶

领域现状：近年来，研究者开始探索利用大语言模型作为个性化旅行规划代理的潜力。LLM可以根据用户需求生成多天行程安排，涵盖景点游览、餐饮安排、交通规划等多个方面。已有的基准数据集如TravelPlanner和TravelPlanner+为这一方向奠定了基础。

现有痛点：现有数据集存在三个核心问题：(1) 数据半合成——依赖人工构造或简化的数据，未能反映真实旅行场景的复杂性；(2) 空间不一致——景点间的距离、交通时间等空间信息不准确，导致生成的行程在物理上不可行；(3) 缺少关键旅行约束——如公共交通时刻表、景点开放时间、活动可用性、用户个性化偏好等真实约束条件被忽略。此外，现有评估方法大多采用二元验证（满足/不满足），无法细粒度地衡量行程质量。

核心矛盾：旅行规划本质上是一个涉及多维度约束的复杂决策问题——时间约束（营业时间、用餐时间窗口）、空间约束（景点间距离、交通方式）、个人偏好约束（用户画像、兴趣类别）需要同时满足。现有基准既缺乏这些真实约束的建模，也缺乏相应的评估手段。

本文目标：构建一个时空一致的旅行规划基准，整合真实世界约束；设计连续评估指标取代二元验证；评估主流LLM的旅行规划能力。

切入角度：从真实世界数据出发，整合Google Maps的实际距离数据、公共交通时刻表、景点分类信息和用户画像，构建约束感知的数据集。

核心 idea：用五个连续评估指标替代简单的二元验证，从时间、空间、排序、个性化多个维度量化行程质量，并引入参数指导（parameter-informed）设置让LLM利用约束参数生成更优行程。

方法详解¶

整体框架¶

TripCraft的构建分为三个阶段：(1) 数据收集与构建——从真实来源获取城市景点、餐厅、交通等信息，构建时空一致的数据集；(2) 评估指标设计——提出五个连续评估指标从不同维度量化行程质量；(3) LLM评估实验——在直接生成和参数指导两种设置下评估多个LLM的旅行规划能力。输入为用户需求描述（目的地、天数、偏好等），输出为完整的每日行程安排。

关键设计¶

时空一致的数据集构建:
- 功能：提供真实约束条件下的旅行规划测试环境
- 核心思路：数据集整合了多源真实数据——景点信息包含营业时间、类别（博物馆/公园/购物等）、地理坐标；餐厅信息包含营业时间段（早餐/午餐/晚餐）；交通信息来自真实公共交通时刻表，包含站点间的实际通行时间；活动信息包含时效性事件（如展览、演出）的可用时间窗口。空间一致性通过Google Maps API获取的实际距离和通行时间保证。用户画像包含年龄、兴趣偏好、餐饮习惯等个性化属性，用于测试个性化规划能力。数据涵盖多个城市、1-7天不同旅行长度的场景。
- 设计动机：现有数据集的空间信息不一致（如景点间距离与实际不符），导致LLM生成的行程在物理上不可行。整合真实数据解决了这一根本问题。
五维连续评估指标体系:
- 功能：多维度、细粒度地量化行程质量
- 核心思路：设计了五个连续分数（0-100%）代替简单的通过/不通过判断：(a) Temporal Meal Score (TMS) 评估餐饮安排的时间合理性——早餐是否在合理时间段、午餐和晚餐是否按时安排；(b) Temporal Attraction Score (TAS) 评估景点访问时间是否在营业时间内；(c) Spatial Score (SS) 评估相邻景点间的空间距离是否合理，基于实际交通时间计算；(d) Ordering Score (OS) 评估行程中景点的访问顺序是否符合逻辑（如先近后远、避免折返）；(e) Persona Score (PS) 评估行程是否匹配用户画像中的偏好（如喜欢历史文化的用户是否被安排了足够的博物馆）。每个指标都是连续值，可以精细地反映行程在该维度上的质量。
- 设计动机：二元验证无法区分"差一点满足约束"和"完全不满足约束"的情况，连续指标提供了更丰富的信号来指导模型改进。
参数指导（Parameter-Informed）设置:
- 功能：通过向LLM提供约束参数来提升行程质量
- 核心思路：在prompt中显式提供关键约束参数——如餐厅的营业时间段、景点间的大致距离、活动的可用时间窗口等。LLM不再需要"猜测"这些约束，可以直接利用这些信息进行规划。对比实验设置了两种模式：(a) 直接生成——LLM仅根据用户需求生成行程，不提供额外约束；(b) 参数指导——在prompt中嵌入约束参数指导生成。
- 设计动机：LLM虽然具备一定的常识推理能力，但对于精确的时空约束（如某餐厅几点开门）缺乏可靠知识。显式提供参数可以弥补这一不足。

损失函数 / 训练策略¶

本文是基准数据集和评估框架工作，不涉及模型训练。实验使用现有LLM的API进行推理。

实验关键数据¶

主实验¶

模型	TMS(7天)	TAS	SS	OS	PS
GPT-4 (直接)	61%	较高	中等	较高	中等
GPT-4 (参数指导)	80%	高	较高	高	较高
GPT-3.5 (直接)	低	中等	中低	中等	中低
GPT-3.5 (参数指导)	中等	较高	中等	较高	中等
LLaMA系列	较低	中低	低	中低	低

消融实验¶

配置	TMS	说明
直接生成 (7天)	61%	无约束参数
参数指导 (7天)	80%	提供时间约束
直接生成 (1天)	较高	短行程约束少
参数指导 (1天)	更高	改善幅度相对较小
无Persona信息	PS下降显著	个性化匹配退化
无空间约束	SS下降	空间合理性减弱

关键发现¶

参数指导设置显著提升了所有模型的表现，特别是餐饮时间安排（TMS从61%→80%），说明LLM在缺乏显式约束时的时间感知能力较弱
随着旅行天数增加（1天→7天），所有模型的表现都明显下降，长程规划对LLM是更大的挑战
空间分数（SS）是所有LLM表现最差的维度，表明LLM对实际地理距离和交通时间的估计能力有限
开源模型（如LLaMA系列）与闭源模型（GPT-4）之间存在显著差距，特别是在需要遵循复杂约束的场景中
个性化维度（PS）是所有模型的另一弱项，LLM倾向于生成"通用"行程而非针对特定用户画像定制

亮点与洞察¶

五维连续评估指标是本文最大亮点——将模糊的"行程好坏"分解为时间、空间、排序、个性化等可量化维度，为旅行规划评估提供了精细化工具。这一评估思路可以迁移到其他多约束生成任务（如日程安排、物流优化）
参数指导设置简单但效果显著，揭示了LLM在约束感知方面的根本不足——它们更擅长遵循显式给出的约束，而非自行推断隐含约束
数据集中整合公共交通时刻表和活动可用性等动态约束，使得评估更接近真实应用场景

局限与展望¶

数据集规模和覆盖范围可能有限，仅涵盖部分城市，不同文化背景和旅行习惯未被充分考虑
评估指标虽然多维，但缺少对主观体验质量的度量（如行程的趣味性、丰富度）
未考虑预算约束和价格敏感性，这在实际旅行规划中非常重要
未来可以引入多轮对话场景，让LLM根据用户反馈动态调整行程
也可以探索结合外部API（如地图、订票系统）的工具增强方法来改善LLM的时空推理能力

评分¶

新颖性: ⭐⭐⭐⭐ 五维连续评估指标设计新颖，但基准构建方法较为直观
实验充分度: ⭐⭐⭐⭐ 18个表格全面覆盖不同模型和设置，分析细致
写作质量: ⭐⭐⭐⭐ 27页详尽描述，结构清晰
价值: ⭐⭐⭐⭐ 为LLM旅行规划评估提供了更合理的基准，推动该方向进步