Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints¶

会议: NeurIPS 2025
arXiv: 2506.12421
代码: 无
领域: 推荐系统
关键词: LLM planning, travel planning, wide-horizon thinking, simulation evaluation, multifaceted constraints

一句话总结¶

提出 MAoP（Multiple Aspects of Planning）框架赋予 LLM "宽视野思维"能力，通过策略师预规划与路由机制并行整合多方面约束，配合 Travel-Sim 因果模拟评估基准，在旅行规划任务上大幅超越 CoT/分解方法，蒸馏后 3B 模型 PER 达 66.9%。

研究背景与动机¶

领域现状：LLM 在简单推理和受控环境规划中表现出色，但现实世界规划（如旅行规划）涉及预算、时间、个人偏好、交通方式、体力状况等多维约束的深度交互，现有方法难以胜任

长视野 vs 宽视野：传统推理强调"长视野思维"——沿单一轨迹深度推演（如数学证明的链式逻辑），但现实规划需要"宽视野思维"——同时综合多个异构信息源和并行约束。Plan-and-Solve 等任务分解方法本质仍是线性序列化处理，无法捕捉约束间的交互依赖

评估缺陷：TravelPlanner、ChinaTravel 等现有基准仅用静态约束通过率评价计划质量，忽略旅行过程中的因果依赖——例如第一天过度疲劳会级联影响后续行程的可行性，静态指标无法反映这种动态效应

核心矛盾：现有方法用深度推理思路解决本质上需要广度整合的问题，长链思维和任务分解都存在结构性局限

切入角度：初步实验发现，即使是朴素的方面感知分解（aspect-aware decomposition）也显著优于 CoT，但存在三个缺陷：方面间独立缺乏关联、依赖人工精心设计的引导、推理时扩展性差

核心 idea：用策略师进行多方面预规划并路由为连贯蓝图，让规划者按蓝图逐方面深入分析，实现宽视野推理时扩展

方法详解¶

整体框架¶

MAoP 将规划分为预规划（Pre-Planning）和方面感知规划（Aspect-Aware Planning）两个阶段。预规划由策略师（Strategist）执行，负责将复杂请求分解为多个方面并路由为蓝图；实际规划由规划者（Planner）按蓝图逐方面展开多轮对话，最终综合产出完整计划。

关键设计¶

策略师预规划——分解阶段：
- 策略师接收长上下文（旅行者画像、景点博客、交通信息等）和用户请求，将其分解为多个方面（如"交通安排"、"预算控制"、"体力分配"），并为每个方面生成简洁的分析指导
- 通过多次并行采样策略师，可获得大量方面-指导对，扩展考虑范围
策略师预规划——路由阶段：
- 与朴素宽视野方法不同，策略师不是简单独立并列方面，而是通过路由机制将多个方面聚合为更少但更连贯的规划蓝图
- 后续方面的指导受前序方面影响，形成有序的方面依赖链
- 路由将"考虑更多方面"的负担从规划者转移到策略师，实现推理时扩展——考虑更多方面带来持续性能提升，而非饱和
规划者方面感知规划：
- 规划者按蓝图顺序，每轮对话聚焦单个方面，在长上下文中进行针对性深度分析
- 多轮累积后，最后一轮综合前序所有方面分析产出最终计划
- 这种多轮结构使规划者每次只需处理有限复杂度，同时保持全局连贯性
训练流程：
- 策略师通过拒绝采样微调（RFT）训练：对每个请求采样 \(N\) 次预规划，保留至少有一个最终计划超过阈值的轨迹
- 规划者通过 GRPO 强化学习训练，奖励函数 \(R_{overall} = 2(R_{PER} - 0.5)\)（格式正确时）或 \(2(R_{PER} - 0.5) - 1\)（格式错误时），PER 评分涵盖体验、兴趣、安排、体力、花费五个维度
MAoP 蒸馏——单步宽视野思维：
- 用强教师模型（R1-Distill 7B 策略师 + Gemini 2.5-Pro 规划者）生成高质量 MAoP 轨迹
- 提取策略师指导，将多轮方面分析和最终聚合压缩为单步输出
- 蒸馏后的 3B 模型可在单次推理中执行复杂宽视野规划

Travel-Sim 因果模拟评估¶

事件驱动沙箱：旅行者 Agent（Gemini 2.5-Pro 驱动）在沙箱中按计划行动，每步维护状态 \(c_n = \{t, l, s, o, e\}\)（时间、位置、体力、花费、当前事件），类似 ReAct 模式先思考后行动
真实信息集成：接入地图 API 提供交通方式参考，利用旅行博客生成景点体验模拟
体力引擎：不同旅行者类型有不同体力消耗规则（老年人 vs 年轻人、带婴儿家庭 vs 无婴儿家庭）
多粒度评估：每个 POI 后、每天结束、整个旅程结束三个层级，从体验/兴趣/安排/体力/花费五个维度评分

实验关键数据¶

主实验——基线对比¶

方法	CPH	CPL	FEA	PER
Zero-shot CoT (Qwen-32B)	-	-	23.3	36.2
Plan&Solve (Qwen-32B)	-	-	25.0	39.7
Wide/Artificial (Qwen-32B)	-	-	31.9	44.1
Wide/Artificial (DeepSeek-R1)	-	-	58.9	68.0
RL w/ Long/Artifact (baseline)	低	低	低	低
MAoP (R1-Distill 7B + R1-Distill 7B)	72.6	76.5	60.7	81.4

蒸馏模型对比¶

模型	CPH	CPL	PER (agg.)
Llama 3.2-3B (蒸馏)	61.3	59.2	65.7
Qwen 2.5-3B (蒸馏)	64.2	65.8	66.9
R1-Distill 7B (蒸馏)	78.2	79.2	84.2

关键发现¶

MAoP 相比同数据训练的 RL w/ Long/Artifact 基线在所有指标上提升 5%-40%
策略师能力越强（R1-Distill 7B vs Qwen-7B），推理时扩展性越好——考虑 3-8 个方面时持续提升
蒸馏 R1-Distill 7B 超过了原始 MAoP 组合（教师-学生能力差距越大，蒸馏收益越明显）
旅行模拟中出现涌现行为：老年夫妇因长途火车疲劳自发放弃原计划晚餐，体现因果依赖的重要性

亮点与洞察¶

范式转换：从长链式推理到并行宽视野思维的框架转换概念清晰，适用于所有多约束规划场景（不限旅行）
路由机制巧妙：策略师路由解决了朴素方面分解的扩展性瓶颈——直接增加方面数在 3-5 个后饱和，但路由后可持续扩展到 8 个方面
评估范式创新：Travel-Sim 是首个同时具备规则评估、LLM裁判、多粒度反馈和因果一致性的旅行规划基准
蒸馏效率：3B 模型通过蒸馏达到接近 32B MAoP 组合的性能，说明宽视野思维模式可以被小模型学会

局限与展望¶

策略师-规划者分离开销：推理时需要两个模型协作，延迟和成本较高；蒸馏虽简化但损失了灵活性
评估器依赖：Travel-Sim 使用 Gemini 2.5-Pro 作为旅行者 Agent，评估结果受该模型能力影响
领域局限：仅在旅行规划上验证，其他多约束规划场景（如项目管理、资源调度）效果未知
训练数据：策略师 RFT 需要冻结规划者评估，RL pipeline 无法直接优化策略师

评分¶

新颖性: ⭐⭐⭐⭐ 宽视野思维概念新颖，策略师路由机制设计巧妙
实验充分度: ⭐⭐⭐⭐ 7城市 × 16旅行者类型 = 112 场景，蒸馏+扩展性分析完整
写作质量: ⭐⭐⭐⭐ 长/宽视野对比论述清晰，框架图表直观
价值: ⭐⭐⭐⭐ 对 LLM 规划方法设计和评测范式都有重要贡献