Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints¶
会议: NeurIPS 2025
arXiv: 2506.12421
代码: 无
领域: 推荐系统
关键词: LLM planning, travel planning, wide-horizon thinking, simulation evaluation, multifaceted constraints
一句话总结¶
提出 MAoP(Multiple Aspects of Planning)框架赋予 LLM "宽视野思维"能力,通过策略师预规划与路由机制并行整合多方面约束,配合 Travel-Sim 因果模拟评估基准,在旅行规划任务上大幅超越 CoT/分解方法,蒸馏后 3B 模型 PER 达 66.9%。
研究背景与动机¶
领域现状:LLM 在简单推理和受控环境规划中表现出色,但现实世界规划(如旅行规划)涉及预算、时间、个人偏好、交通方式、体力状况等多维约束的深度交互,现有方法难以胜任
长视野 vs 宽视野:传统推理强调"长视野思维"——沿单一轨迹深度推演(如数学证明的链式逻辑),但现实规划需要"宽视野思维"——同时综合多个异构信息源和并行约束。Plan-and-Solve 等任务分解方法本质仍是线性序列化处理,无法捕捉约束间的交互依赖
评估缺陷:TravelPlanner、ChinaTravel 等现有基准仅用静态约束通过率评价计划质量,忽略旅行过程中的因果依赖——例如第一天过度疲劳会级联影响后续行程的可行性,静态指标无法反映这种动态效应
核心矛盾:现有方法用深度推理思路解决本质上需要广度整合的问题,长链思维和任务分解都存在结构性局限
切入角度:初步实验发现,即使是朴素的方面感知分解(aspect-aware decomposition)也显著优于 CoT,但存在三个缺陷:方面间独立缺乏关联、依赖人工精心设计的引导、推理时扩展性差
核心 idea:用策略师进行多方面预规划并路由为连贯蓝图,让规划者按蓝图逐方面深入分析,实现宽视野推理时扩展
方法详解¶
整体框架¶
MAoP 将规划分为预规划(Pre-Planning)和方面感知规划(Aspect-Aware Planning)两个阶段。预规划由策略师(Strategist)执行,负责将复杂请求分解为多个方面并路由为蓝图;实际规划由规划者(Planner)按蓝图逐方面展开多轮对话,最终综合产出完整计划。
关键设计¶
-
策略师预规划——分解阶段:
- 策略师接收长上下文(旅行者画像、景点博客、交通信息等)和用户请求,将其分解为多个方面(如"交通安排"、"预算控制"、"体力分配"),并为每个方面生成简洁的分析指导
- 通过多次并行采样策略师,可获得大量方面-指导对,扩展考虑范围
-
策略师预规划——路由阶段:
- 与朴素宽视野方法不同,策略师不是简单独立并列方面,而是通过路由机制将多个方面聚合为更少但更连贯的规划蓝图
- 后续方面的指导受前序方面影响,形成有序的方面依赖链
- 路由将"考虑更多方面"的负担从规划者转移到策略师,实现推理时扩展——考虑更多方面带来持续性能提升,而非饱和
-
规划者方面感知规划:
- 规划者按蓝图顺序,每轮对话聚焦单个方面,在长上下文中进行针对性深度分析
- 多轮累积后,最后一轮综合前序所有方面分析产出最终计划
- 这种多轮结构使规划者每次只需处理有限复杂度,同时保持全局连贯性
-
训练流程:
- 策略师通过拒绝采样微调(RFT)训练:对每个请求采样 \(N\) 次预规划,保留至少有一个最终计划超过阈值的轨迹
- 规划者通过 GRPO 强化学习训练,奖励函数 \(R_{overall} = 2(R_{PER} - 0.5)\)(格式正确时)或 \(2(R_{PER} - 0.5) - 1\)(格式错误时),PER 评分涵盖体验、兴趣、安排、体力、花费五个维度
-
MAoP 蒸馏——单步宽视野思维:
- 用强教师模型(R1-Distill 7B 策略师 + Gemini 2.5-Pro 规划者)生成高质量 MAoP 轨迹
- 提取策略师指导,将多轮方面分析和最终聚合压缩为单步输出
- 蒸馏后的 3B 模型可在单次推理中执行复杂宽视野规划
Travel-Sim 因果模拟评估¶
- 事件驱动沙箱:旅行者 Agent(Gemini 2.5-Pro 驱动)在沙箱中按计划行动,每步维护状态 \(c_n = \{t, l, s, o, e\}\)(时间、位置、体力、花费、当前事件),类似 ReAct 模式先思考后行动
- 真实信息集成:接入地图 API 提供交通方式参考,利用旅行博客生成景点体验模拟
- 体力引擎:不同旅行者类型有不同体力消耗规则(老年人 vs 年轻人、带婴儿家庭 vs 无婴儿家庭)
- 多粒度评估:每个 POI 后、每天结束、整个旅程结束三个层级,从体验/兴趣/安排/体力/花费五个维度评分
实验关键数据¶
主实验——基线对比¶
| 方法 | CPH | CPL | FEA | PER |
|---|---|---|---|---|
| Zero-shot CoT (Qwen-32B) | - | - | 23.3 | 36.2 |
| Plan&Solve (Qwen-32B) | - | - | 25.0 | 39.7 |
| Wide/Artificial (Qwen-32B) | - | - | 31.9 | 44.1 |
| Wide/Artificial (DeepSeek-R1) | - | - | 58.9 | 68.0 |
| RL w/ Long/Artifact (baseline) | 低 | 低 | 低 | 低 |
| MAoP (R1-Distill 7B + R1-Distill 7B) | 72.6 | 76.5 | 60.7 | 81.4 |
蒸馏模型对比¶
| 模型 | CPH | CPL | PER (agg.) |
|---|---|---|---|
| Llama 3.2-3B (蒸馏) | 61.3 | 59.2 | 65.7 |
| Qwen 2.5-3B (蒸馏) | 64.2 | 65.8 | 66.9 |
| R1-Distill 7B (蒸馏) | 78.2 | 79.2 | 84.2 |
关键发现¶
- MAoP 相比同数据训练的 RL w/ Long/Artifact 基线在所有指标上提升 5%-40%
- 策略师能力越强(R1-Distill 7B vs Qwen-7B),推理时扩展性越好——考虑 3-8 个方面时持续提升
- 蒸馏 R1-Distill 7B 超过了原始 MAoP 组合(教师-学生能力差距越大,蒸馏收益越明显)
- 旅行模拟中出现涌现行为:老年夫妇因长途火车疲劳自发放弃原计划晚餐,体现因果依赖的重要性
亮点与洞察¶
- 范式转换:从长链式推理到并行宽视野思维的框架转换概念清晰,适用于所有多约束规划场景(不限旅行)
- 路由机制巧妙:策略师路由解决了朴素方面分解的扩展性瓶颈——直接增加方面数在 3-5 个后饱和,但路由后可持续扩展到 8 个方面
- 评估范式创新:Travel-Sim 是首个同时具备规则评估、LLM裁判、多粒度反馈和因果一致性的旅行规划基准
- 蒸馏效率:3B 模型通过蒸馏达到接近 32B MAoP 组合的性能,说明宽视野思维模式可以被小模型学会
局限与展望¶
- 策略师-规划者分离开销:推理时需要两个模型协作,延迟和成本较高;蒸馏虽简化但损失了灵活性
- 评估器依赖:Travel-Sim 使用 Gemini 2.5-Pro 作为旅行者 Agent,评估结果受该模型能力影响
- 领域局限:仅在旅行规划上验证,其他多约束规划场景(如项目管理、资源调度)效果未知
- 训练数据:策略师 RFT 需要冻结规划者评估,RL pipeline 无法直接优化策略师
相关工作与启发¶
- vs TravelPlanner:TravelPlanner 用规则评估约束通过率,Travel-Sim 用动态模拟捕捉因果依赖,更贴近真实
- vs DeepSeek-R1:R1 强化长链推理能力,本文证明宽视野思维在多约束规划上更有效
- vs Plan-and-Solve:Plan-and-Solve 线性分解子任务,MAoP 并行分解方面再路由整合,保留方面间依赖
评分¶
- 新颖性: ⭐⭐⭐⭐ 宽视野思维概念新颖,策略师路由机制设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 7城市 × 16旅行者类型 = 112 场景,蒸馏+扩展性分析完整
- 写作质量: ⭐⭐⭐⭐ 长/宽视野对比论述清晰,框架图表直观
- 价值: ⭐⭐⭐⭐ 对 LLM 规划方法设计和评测范式都有重要贡献