Learning to Solve Orienteering Problem with Time Windows and Variable Profits¶
会议: ICLR 2026
arXiv: 2603.06260
代码: GitHub
领域: 组合优化/车辆路径
关键词: 定向问题, 时间窗, 可变利润, 离散-连续解耦, 线性规划
一句话总结¶
提出DeCoST——一种学习式两阶段框架,将OPTWVP中耦合的离散路线决策和连续服务时间分配解耦:第一阶段并行解码器联合生成路径+初始服务时间,第二阶段LP精确优化服务时间(全局最优),通过pTAR反馈实现跨阶段协调。在50-500节点OPTWVP上优化间隙仅0.83%-3.31%,推理速度比元启发式快最高45倍。
研究背景与动机¶
领域现状:定向问题(OP)是VRP的重要变体,需要在固定时间预算内选择节点子集访问以最大化奖励。实际场景中——工厂调度、物流运输、机器人规划——奖励通常随服务时间增长(可变利润),且节点仅在特定时间窗内可访问。这催生了OPTWVP:同时优化离散路线和连续服务时间分配。
现有痛点:
- 离散-连续耦合:路线变化→重塑所有节点的可行服务时间区间→反过来影响奖励和路线决策→双向依赖导致联合搜索空间指数膨胀
- NCO方法的局限:现有神经组合优化(NCO)方法仅处理离散路线选择,不具备连续变量(服务时间)的分配能力
- 分解方法的短视性:简单分解→第一阶段路线决策无法预见最优服务时间→后续局部调整不足以纠正结构偏差
- 元启发式的可扩展性:手动设计启发规则+穷举局部搜索→每次路线变化需重新求解连续子问题→计算代价高
核心矛盾:离散路线和连续服务时间本质上相互依赖,但联合优化计算不可行,而简单解耦又导致短视决策。
本文方案:智能解耦+跨阶段协调。第一阶段感知连续变量(并行解码路线+时间)→第二阶段精确优化(LP全局最优)→pTAR反馈让第一阶段"预见"第二阶段后果。
方法详解¶
整体框架¶
DeCoST将OPTWVP建模为约束马尔可夫决策过程(CMDP),动作空间包含离散(节点选择)和连续(归一化服务时间比)两部分:
整体目标是最大化期望总奖励:
其中 \(R(\tau, \mathbf{d}|\mathcal{G}) = \sum_{i=1}^{l-1} p_{v^{(i)}} d_{v^{(i)}}\),受时间预算、服务时间上限和时间窗约束。
关键设计1:并行解码的第一阶段¶
第一阶段使用并行解码器结构:
- 路线解码器:基于注意力机制,选择下一个要访问的节点
- 服务时间解码器(STD):同步预测对应的初始服务时间分配
- 空间编码(Spatial Encoding):编码边特征(节点距离)为注意力偏置,增强图结构理解
- 可行性掩码(Feasibility Masking):动态排除违反约束的候选节点——(i) 无法在时间限制内返回起点;(ii) 下一节点的到达时间超出其时间窗
并行结构使路线决策在生成时就考虑服务时间的影响,避免纯路线导向的短视问题。
关键设计2:LP全局最优的第二阶段¶
固定第一阶段的路线 \(\tau\) 后,服务时间分配简化为线性规划:
提出STO算法通过贪心策略求解:按单位利润从高到低排序→依次分配最大可行服务时间→更新后续节点起始时间。严格证明了STO算法的全局最优性(Theorem 4.1),且支持并行计算。
关键设计3:pTAR跨阶段监督反馈¶
利润加权时间分配比(profit-weighted Time Allocation Ratio)衡量解的利润效率:
引入排斥性监督损失,防止STD过早收敛到LP条件最优(因为路线不同→条件最优不同):
总损失为REINFORCE损失与pTAR损失的加权和:\(\mathcal{L}_{total} = \beta_1 \mathcal{L} + \beta_2 \mathcal{L}_{pTAR}\)。
实验关键数据¶
主实验:不同规模OPTWVP性能¶
| 方法 | 类别 | n=50,TW100 Score(Gap) | n=100,TW100 Score(Gap) | n=50,TW500 Score(Gap) |
|---|---|---|---|---|
| B&C (Gurobi) | 精确 | 15.2 (0.00%) | 26.1 (0.00%) | 51.9 (0.00%) |
| Greedy-PRS | 启发式 | 12.9 (15.7%) | 21.9 (16.2%) | 46.1 (11.4%) |
| ILS | 元启发式 | 14.5 (4.34%) | 24.9 (4.2%) | 47.8 (7.82%) |
| POMO | NCO | 11.3 (25.3%) | 11.5 (55.7%) | 31.3 (39.6%) |
| GFACS | NCO | 12.3 (18.6%) | 25.2 (3.38%) | 47.4 (8.57%) |
| DeCoST | NCO | 15.1 (1.06%) | 25.6 (1.97%) | 51.4 (0.83%) |
DeCoST在所有设置下优化间隙最小(0.83%-3.31%),远优于其他NCO和元启发式方法。POMO因不处理服务时间而表现最差(Gap达55.7%)。
大规模实验(n=500, TW=100)¶
| 方法 | Score | Gap | Runtime (ms) |
|---|---|---|---|
| B&C (Gurobi) | 82.3 | 0.00% | 68,400 |
| ILS | 78.2 | 4.98% | 8,803 |
| POMO | 58.6 | 28.8% | 747 |
| DeCoST | 79.6 | 3.31% | 1,329 |
500节点规模下,DeCoST仍保持3.31%的优化间隙,推理速度比ILS快6.6倍,比Gurobi快51倍。
消融实验(n=50, TW=100)¶
| 配置 | SE | STO | SL | Score | Gap |
|---|---|---|---|---|---|
| 基线(POMO) | ✗ | ✗ | ✗ | 11.3 | 25.3% |
| +空间编码 | ✓ | ✗ | ✗ | 11.6 | 23.0% |
| +STO | ✓ | ✓ | ✗ | 14.9 | 2.28% |
| DeCoST(完整) | ✓ | ✓ | ✓ | 15.1 | 1.06% |
STO是最关键组件,将Gap从23.0%锐降至2.28%;pTAR监督进一步降至1.06%。
亮点与洞察¶
- "解耦但协调"的设计哲学:不是简单分开两个优化问题,而是通过pTAR反馈实现两阶段的信息互通——比联合优化更高效,比独立优化更好
- LP全局最优性的巧妙利用:固定路线后连续部分有精确LP解,这是OPTWVP特有结构的"幸运"——但关键在于发现并证明了这一点
- 对NCO领域的扩展意义:大多数NCO只处理纯离散问题,DeCoST首次系统解决离散-连续混合优化的NCO,填补了重要空白
- STO可作为通用插件:DeCoST的第二阶段可与不同的第一阶段构造式求解器组合,一致提升各种基线的解质量
局限性¶
- LP全局最优性依赖于线性利润函数假设(非线性利润需要非线性规划)
- 大规模实例(n=500)的Gap仍有3.31%,存在改进空间
- pTAR的权衡参数 \(\beta_1, \beta_2\) 需要手动调节
评分¶
- 新颖性: ⭐⭐⭐⭐ 两阶段解耦+LP最优+pTAR跨阶段反馈
- 实验充分度: ⭐⭐⭐⭐ 多规模+多时间窗+vs精确/启发式/NCO+消融
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,数学严谨
- 价值: ⭐⭐⭐⭐ 对带连续变量的组合优化有直接应用价值