TripTailor: A Real-World Benchmark for Personalized Travel Planning¶
会议: ACL 2025
arXiv: 2508.01432
代码: 有 (https://github.com/swxkfm/TripTailor)
领域: LLM评测
关键词: Travel Planning, 个性化行程规划, LLM Agent, benchmark, 真实世界评估
一句话总结¶
提出 TripTailor,一个基于真实数据的大规模旅行规划 benchmark,包含 40 个城市的 50 万+ POI 和近 4000 条真实行程,并引入可行性、合理性和个性化三维评估框架,发现最先进 LLM 生成的行程不到 10% 能达到人类水平。
研究背景与动机¶
LLM 在旅行规划中展示了巨大潜力,但现有 benchmark 存在明显不足:
数据不真实:TravelPlanner 主要依赖模拟数据评估,难以反映实际条件
规模有限:ChinaTravel 仅覆盖 10 个城市和约 1200 POI/城市,无法捕捉真实旅行需求的复杂性
评估维度单一:现有框架过度关注硬约束(如预算、时间),无法评估行程的整体质量
缺少真实对照:没有与人类制定的旅行计划进行系统性对比
核心问题:满足所有硬约束的行程是否就是好的行程?答案是否定的——仍可能存在不合理的绕行、时间分配不当、缺乏个性化等问题。
方法详解¶
整体框架¶
TripTailor 包含三个部分: 1. 沙盒环境:40 个中国热门旅游城市的完整信息数据库 2. Benchmark 数据集:近 4000 条真实旅行行程 + 配对的用户查询 3. 三维评估框架:可行性 + 合理性 + 个性化
关键设计¶
-
大规模沙盒环境:
- 40 个城市,平均每城市 12,500 个 POI
- 28,832 条火车时刻表 + 15,110 条航班路线
- 5,622 个精选景点(含评分、票价、地理坐标、推荐游览时长)
- 89,224 家酒店 + 422,120 家餐厅
- 设计动机:数量级超越现有数据集,提供更真实的评估基础
-
真实行程构建四步法:
- Step I:从公开互联网收集 40 个城市的 POI 信息,用高德地图补全坐标
- Step II:从在线旅行社收集自助游行程,选取高评分的详细行程,随机分配出发城市和日期
- Step III:用 LLM 从行程中提取信息生成第一人称用户查询(注意 LLM 仅做重写,不填充缺失信息)
- Step IV:质量控制,检查行程末尾异常、交通时间冲突、调度合理性等
- 查询分两个难度:Easy (2-3天) 和 Hard (4-7天)
-
三维评估框架:
- 可行性:信息是否在沙盒内(防幻觉)、关键信息是否完整
- 合理性:餐厅和景点不重复、餐费合理、游览时长合理、预算控制、路线优化(用 POI 间平均距离衡量)
- 个性化:行程是否体现用户的兴趣偏好、美食类型、活动类型、行程强度等
- 评估方法组合:客观指标 + LLM 评估 + 专用奖励模型
-
路线优化指标 D_avg:
- 计算每日连续 POI 之间的平均地理距离,衡量路线的交通效率
- 理想策略:将地理位置接近的 POI 安排在同一天
损失函数 / 训练策略¶
- 本文是 benchmark 工作,主要测试现有 LLM 和 agent 框架
- 提出的 Workflow 方法模拟人类旅行规划流程,将任务分解为多个步骤(如选景点→排路线→选餐厅→选酒店)
- 使用 GPT-4o-mini 作为基础 LLM
实验关键数据¶
主实验(各方法在Easy/Hard任务上的表现)¶
| 方法 | 路线距离比 | 可行性(Micro/Macro) | 合理性(Macro) | 个性化(LLM/RM) | 最终超越率 |
|---|---|---|---|---|---|
| Workflow (GPT-4o-mini) Easy | 1.8 | 98.9/98.6 | 74.3 | 14.1/11.6 | 18.1% |
| Direct (GPT-4o) Easy | 3.4 | 97.7/95.5 | 28.8 | 17.8/18.4 | 10.2% |
| Direct (o1-mini) Easy | 3.6 | 91.0/83.9 | 33.3 | 29.1/9.6 | 16.1% |
| Workflow (GPT-4o-mini) Hard | 1.7 | 97.7/96.0 | 53.0 | 17.5/12.0 | 14.3% |
| Direct (GPT-4o) Hard | 3.2 | 98.9/97.7 | 16.3 | 8.0/26.4 | 4.9% |
不同LLM直接生成的对比(表格)¶
| 模型 | 可行性Pass | 合理性Pass | 最终超越率 |
|---|---|---|---|
| Qwen2.5-7b | 68.8% | ~5% | 0.7% |
| Qwen2.5-32b | 89.9% | ~12% | 4.7% |
| GPT-4o-mini | 89.3% | ~9% | 0.9% |
| DeepSeek-V3 | 96.5% | ~15% | 7.8% |
| GPT-4o | 98.3% | ~22% | 7.5% |
关键发现¶
- 不到 10% 达到人类水平:即使是最先进的 LLM (GPT-4o),综合超越率也不到 10%,远低于人类制作的行程
- 可行性 ≠ 合理性:满足硬约束只保证可行性,合理性(路线优化、时间安排等)的差距更大
- Workflow 方法路线效率最优:路线距离比仅 1.7-1.8,远低于直接生成方法的 3-4
- Hard 任务更具挑战性:4-7天行程的各项指标全面低于 2-3 天
- 个性化是最大短板:LLM 评估的个性化超越率普遍低于 30%,说明 LLM 难以深入理解用户偏好
- CoT、ReAct、Reflexion 效果有限:高级推理策略并未显著改善旅行规划质量
亮点与洞察¶
- 数据规模是核心优势:50 万+ POI 和 4000 条真实行程,比现有 benchmark 高一个数量级
- 三维评估框架比单纯的约束满足率更全面——可行性只是"及格线",合理性和个性化才是"优秀"的标准
- 路线距离比这一指标设计简洁有效,能直观反映行程的空间规划质量
- 人类 baseline 的引入使得评估有了明确的参照物,而非仅比较 LLM 之间的相对排名
- 发现 LLM 在长程规划(Hard)中性能急剧下降,揭示了当前 LLM 在复杂约束优化中的局限
局限与展望¶
- 仅覆盖中国 40 个城市,国际旅行场景未涉及
- 个性化评估主要依赖 LLM 评分和奖励模型,缺少真实用户的满意度反馈
- 沙盒环境的信息可能过时(如景点评分、餐厅信息会变化)
- 未考虑预算分配的优化(如何在有限预算下最大化体验)
- 多人旅行场景(需要平衡不同偏好)未被覆盖
相关工作与启发¶
- 与 TravelPlanner (Xie et al., 2024) 相比,TripTailor 使用真实数据且评估更全面
- 与 ChinaTravel (Shao et al., 2024) 相比,数据规模大一个数量级
- LLM-Modulo (Gundawar et al., 2024) 的外部验证器策略与本文的 Workflow 分解方法可互补
- 启发:旅行规划是一个天然的多目标优化问题,单纯的 LLM 推理不足以解决,需要结合搜索算法和领域知识
评分¶
- 新颖性: ⭐⭐⭐⭐ — 真实数据的大规模benchmark + 三维评估框架有创新
- 实验充分度: ⭐⭐⭐⭐⭐ — 多种LLM、多种agent策略、Easy/Hard难度、客观+LLM+RM三种评估
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,数据集构建流程描述详细
- 价值: ⭐⭐⭐⭐ — 为LLM旅行规划的评估提供了可靠的真实世界基准