TripTailor: A Real-World Benchmark for Personalized Travel Planning¶

会议: ACL 2025
arXiv: 2508.01432
代码: 有 (https://github.com/swxkfm/TripTailor)
领域: LLM评测
关键词: Travel Planning, 个性化行程规划, LLM Agent, benchmark, 真实世界评估

一句话总结¶

提出 TripTailor，一个基于真实数据的大规模旅行规划 benchmark，包含 40 个城市的 50 万+ POI 和近 4000 条真实行程，并引入可行性、合理性和个性化三维评估框架，发现最先进 LLM 生成的行程不到 10% 能达到人类水平。

研究背景与动机¶

LLM 在旅行规划中展示了巨大潜力，但现有 benchmark 存在明显不足：

数据不真实：TravelPlanner 主要依赖模拟数据评估，难以反映实际条件

规模有限：ChinaTravel 仅覆盖 10 个城市和约 1200 POI/城市，无法捕捉真实旅行需求的复杂性

评估维度单一：现有框架过度关注硬约束（如预算、时间），无法评估行程的整体质量

缺少真实对照：没有与人类制定的旅行计划进行系统性对比

核心问题：满足所有硬约束的行程是否就是好的行程？答案是否定的——仍可能存在不合理的绕行、时间分配不当、缺乏个性化等问题。

方法详解¶

整体框架¶

TripTailor 包含三个部分： 1. 沙盒环境：40 个中国热门旅游城市的完整信息数据库 2. Benchmark 数据集：近 4000 条真实旅行行程 + 配对的用户查询 3. 三维评估框架：可行性 + 合理性 + 个性化

关键设计¶

大规模沙盒环境：
- 40 个城市，平均每城市 12,500 个 POI
- 28,832 条火车时刻表 + 15,110 条航班路线
- 5,622 个精选景点（含评分、票价、地理坐标、推荐游览时长）
- 89,224 家酒店 + 422,120 家餐厅
- 设计动机：数量级超越现有数据集，提供更真实的评估基础
真实行程构建四步法：
- Step I：从公开互联网收集 40 个城市的 POI 信息，用高德地图补全坐标
- Step II：从在线旅行社收集自助游行程，选取高评分的详细行程，随机分配出发城市和日期
- Step III：用 LLM 从行程中提取信息生成第一人称用户查询（注意 LLM 仅做重写，不填充缺失信息）
- Step IV：质量控制，检查行程末尾异常、交通时间冲突、调度合理性等
- 查询分两个难度：Easy (2-3天) 和 Hard (4-7天)
三维评估框架：
- 可行性：信息是否在沙盒内（防幻觉）、关键信息是否完整
- 合理性：餐厅和景点不重复、餐费合理、游览时长合理、预算控制、路线优化（用 POI 间平均距离衡量）
- 个性化：行程是否体现用户的兴趣偏好、美食类型、活动类型、行程强度等
- 评估方法组合：客观指标 + LLM 评估 + 专用奖励模型
路线优化指标 D_avg：
- 计算每日连续 POI 之间的平均地理距离，衡量路线的交通效率
- 理想策略：将地理位置接近的 POI 安排在同一天

损失函数 / 训练策略¶

本文是 benchmark 工作，主要测试现有 LLM 和 agent 框架
提出的 Workflow 方法模拟人类旅行规划流程，将任务分解为多个步骤（如选景点→排路线→选餐厅→选酒店）
使用 GPT-4o-mini 作为基础 LLM

实验关键数据¶

主实验（各方法在Easy/Hard任务上的表现）¶

方法	路线距离比	可行性(Micro/Macro)	合理性(Macro)	个性化(LLM/RM)	最终超越率
Workflow (GPT-4o-mini) Easy	1.8	98.9/98.6	74.3	14.1/11.6	18.1%
Direct (GPT-4o) Easy	3.4	97.7/95.5	28.8	17.8/18.4	10.2%
Direct (o1-mini) Easy	3.6	91.0/83.9	33.3	29.1/9.6	16.1%
Workflow (GPT-4o-mini) Hard	1.7	97.7/96.0	53.0	17.5/12.0	14.3%
Direct (GPT-4o) Hard	3.2	98.9/97.7	16.3	8.0/26.4	4.9%

不同LLM直接生成的对比（表格）¶

模型	可行性Pass	合理性Pass	最终超越率
Qwen2.5-7b	68.8%	~5%	0.7%
Qwen2.5-32b	89.9%	~12%	4.7%
GPT-4o-mini	89.3%	~9%	0.9%
DeepSeek-V3	96.5%	~15%	7.8%
GPT-4o	98.3%	~22%	7.5%

关键发现¶

不到 10% 达到人类水平：即使是最先进的 LLM (GPT-4o)，综合超越率也不到 10%，远低于人类制作的行程
可行性 ≠ 合理性：满足硬约束只保证可行性，合理性（路线优化、时间安排等）的差距更大
Workflow 方法路线效率最优：路线距离比仅 1.7-1.8，远低于直接生成方法的 3-4
Hard 任务更具挑战性：4-7天行程的各项指标全面低于 2-3 天
个性化是最大短板：LLM 评估的个性化超越率普遍低于 30%，说明 LLM 难以深入理解用户偏好
CoT、ReAct、Reflexion 效果有限：高级推理策略并未显著改善旅行规划质量

亮点与洞察¶

数据规模是核心优势：50 万+ POI 和 4000 条真实行程，比现有 benchmark 高一个数量级
三维评估框架比单纯的约束满足率更全面——可行性只是"及格线"，合理性和个性化才是"优秀"的标准
路线距离比这一指标设计简洁有效，能直观反映行程的空间规划质量
人类 baseline 的引入使得评估有了明确的参照物，而非仅比较 LLM 之间的相对排名
发现 LLM 在长程规划（Hard）中性能急剧下降，揭示了当前 LLM 在复杂约束优化中的局限

局限与展望¶

仅覆盖中国 40 个城市，国际旅行场景未涉及
个性化评估主要依赖 LLM 评分和奖励模型，缺少真实用户的满意度反馈
沙盒环境的信息可能过时（如景点评分、餐厅信息会变化）
未考虑预算分配的优化（如何在有限预算下最大化体验）
多人旅行场景（需要平衡不同偏好）未被覆盖

评分¶

新颖性: ⭐⭐⭐⭐ — 真实数据的大规模benchmark + 三维评估框架有创新
实验充分度: ⭐⭐⭐⭐⭐ — 多种LLM、多种agent策略、Easy/Hard难度、客观+LLM+RM三种评估
写作质量: ⭐⭐⭐⭐ — 结构清晰，数据集构建流程描述详细
价值: ⭐⭐⭐⭐ — 为LLM旅行规划的评估提供了可靠的真实世界基准