跳转至

Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints

会议: NeurIPS 2025
arXiv: 2506.12421
代码: 无
领域: 推荐系统
关键词: LLM planning, travel planning, wide-horizon thinking, simulation evaluation, multifaceted constraints

一句话总结

提出 MAoP(Multiple Aspects of Planning)框架赋予 LLM "宽视野思维"能力,通过策略师预规划与路由机制并行整合多方面约束,配合 Travel-Sim 因果模拟评估基准,在旅行规划任务上大幅超越 CoT/分解方法,蒸馏后 3B 模型 PER 达 66.9%。

研究背景与动机

领域现状:LLM 在简单推理和受控环境规划中表现出色,但现实世界规划(如旅行规划)涉及预算、时间、个人偏好、交通方式、体力状况等多维约束的深度交互,现有方法难以胜任

长视野 vs 宽视野:传统推理强调"长视野思维"——沿单一轨迹深度推演(如数学证明的链式逻辑),但现实规划需要"宽视野思维"——同时综合多个异构信息源和并行约束。Plan-and-Solve 等任务分解方法本质仍是线性序列化处理,无法捕捉约束间的交互依赖

评估缺陷:TravelPlanner、ChinaTravel 等现有基准仅用静态约束通过率评价计划质量,忽略旅行过程中的因果依赖——例如第一天过度疲劳会级联影响后续行程的可行性,静态指标无法反映这种动态效应

核心矛盾:现有方法用深度推理思路解决本质上需要广度整合的问题,长链思维和任务分解都存在结构性局限

切入角度:初步实验发现,即使是朴素的方面感知分解(aspect-aware decomposition)也显著优于 CoT,但存在三个缺陷:方面间独立缺乏关联、依赖人工精心设计的引导、推理时扩展性差

核心 idea:用策略师进行多方面预规划并路由为连贯蓝图,让规划者按蓝图逐方面深入分析,实现宽视野推理时扩展

方法详解

整体框架

MAoP 将规划分为预规划(Pre-Planning)和方面感知规划(Aspect-Aware Planning)两个阶段。预规划由策略师(Strategist)执行,负责将复杂请求分解为多个方面并路由为蓝图;实际规划由规划者(Planner)按蓝图逐方面展开多轮对话,最终综合产出完整计划。

关键设计

  1. 策略师预规划——分解阶段

    • 策略师接收长上下文(旅行者画像、景点博客、交通信息等)和用户请求,将其分解为多个方面(如"交通安排"、"预算控制"、"体力分配"),并为每个方面生成简洁的分析指导
    • 通过多次并行采样策略师,可获得大量方面-指导对,扩展考虑范围
  2. 策略师预规划——路由阶段

    • 与朴素宽视野方法不同,策略师不是简单独立并列方面,而是通过路由机制将多个方面聚合为更少但更连贯的规划蓝图
    • 后续方面的指导受前序方面影响,形成有序的方面依赖链
    • 路由将"考虑更多方面"的负担从规划者转移到策略师,实现推理时扩展——考虑更多方面带来持续性能提升,而非饱和
  3. 规划者方面感知规划

    • 规划者按蓝图顺序,每轮对话聚焦单个方面,在长上下文中进行针对性深度分析
    • 多轮累积后,最后一轮综合前序所有方面分析产出最终计划
    • 这种多轮结构使规划者每次只需处理有限复杂度,同时保持全局连贯性
  4. 训练流程

    • 策略师通过拒绝采样微调(RFT)训练:对每个请求采样 \(N\) 次预规划,保留至少有一个最终计划超过阈值的轨迹
    • 规划者通过 GRPO 强化学习训练,奖励函数 \(R_{overall} = 2(R_{PER} - 0.5)\)(格式正确时)或 \(2(R_{PER} - 0.5) - 1\)(格式错误时),PER 评分涵盖体验、兴趣、安排、体力、花费五个维度
  5. MAoP 蒸馏——单步宽视野思维

    • 用强教师模型(R1-Distill 7B 策略师 + Gemini 2.5-Pro 规划者)生成高质量 MAoP 轨迹
    • 提取策略师指导,将多轮方面分析和最终聚合压缩为单步输出
    • 蒸馏后的 3B 模型可在单次推理中执行复杂宽视野规划

Travel-Sim 因果模拟评估

  1. 事件驱动沙箱:旅行者 Agent(Gemini 2.5-Pro 驱动)在沙箱中按计划行动,每步维护状态 \(c_n = \{t, l, s, o, e\}\)(时间、位置、体力、花费、当前事件),类似 ReAct 模式先思考后行动
  2. 真实信息集成:接入地图 API 提供交通方式参考,利用旅行博客生成景点体验模拟
  3. 体力引擎:不同旅行者类型有不同体力消耗规则(老年人 vs 年轻人、带婴儿家庭 vs 无婴儿家庭)
  4. 多粒度评估:每个 POI 后、每天结束、整个旅程结束三个层级,从体验/兴趣/安排/体力/花费五个维度评分

实验关键数据

主实验——基线对比

方法 CPH CPL FEA PER
Zero-shot CoT (Qwen-32B) - - 23.3 36.2
Plan&Solve (Qwen-32B) - - 25.0 39.7
Wide/Artificial (Qwen-32B) - - 31.9 44.1
Wide/Artificial (DeepSeek-R1) - - 58.9 68.0
RL w/ Long/Artifact (baseline)
MAoP (R1-Distill 7B + R1-Distill 7B) 72.6 76.5 60.7 81.4

蒸馏模型对比

模型 CPH CPL PER (agg.)
Llama 3.2-3B (蒸馏) 61.3 59.2 65.7
Qwen 2.5-3B (蒸馏) 64.2 65.8 66.9
R1-Distill 7B (蒸馏) 78.2 79.2 84.2

关键发现

  • MAoP 相比同数据训练的 RL w/ Long/Artifact 基线在所有指标上提升 5%-40%
  • 策略师能力越强(R1-Distill 7B vs Qwen-7B),推理时扩展性越好——考虑 3-8 个方面时持续提升
  • 蒸馏 R1-Distill 7B 超过了原始 MAoP 组合(教师-学生能力差距越大,蒸馏收益越明显)
  • 旅行模拟中出现涌现行为:老年夫妇因长途火车疲劳自发放弃原计划晚餐,体现因果依赖的重要性

亮点与洞察

  • 范式转换:从长链式推理到并行宽视野思维的框架转换概念清晰,适用于所有多约束规划场景(不限旅行)
  • 路由机制巧妙:策略师路由解决了朴素方面分解的扩展性瓶颈——直接增加方面数在 3-5 个后饱和,但路由后可持续扩展到 8 个方面
  • 评估范式创新:Travel-Sim 是首个同时具备规则评估、LLM裁判、多粒度反馈和因果一致性的旅行规划基准
  • 蒸馏效率:3B 模型通过蒸馏达到接近 32B MAoP 组合的性能,说明宽视野思维模式可以被小模型学会

局限与展望

  • 策略师-规划者分离开销:推理时需要两个模型协作,延迟和成本较高;蒸馏虽简化但损失了灵活性
  • 评估器依赖:Travel-Sim 使用 Gemini 2.5-Pro 作为旅行者 Agent,评估结果受该模型能力影响
  • 领域局限:仅在旅行规划上验证,其他多约束规划场景(如项目管理、资源调度)效果未知
  • 训练数据:策略师 RFT 需要冻结规划者评估,RL pipeline 无法直接优化策略师

相关工作与启发

  • vs TravelPlanner:TravelPlanner 用规则评估约束通过率,Travel-Sim 用动态模拟捕捉因果依赖,更贴近真实
  • vs DeepSeek-R1:R1 强化长链推理能力,本文证明宽视野思维在多约束规划上更有效
  • vs Plan-and-Solve:Plan-and-Solve 线性分解子任务,MAoP 并行分解方面再路由整合,保留方面间依赖

评分

  • 新颖性: ⭐⭐⭐⭐ 宽视野思维概念新颖,策略师路由机制设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 7城市 × 16旅行者类型 = 112 场景,蒸馏+扩展性分析完整
  • 写作质量: ⭐⭐⭐⭐ 长/宽视野对比论述清晰,框架图表直观
  • 价值: ⭐⭐⭐⭐ 对 LLM 规划方法设计和评测范式都有重要贡献