Rethinking Neural Combinatorial Optimization for Vehicle Routing Problems with Different Constraint Tightness Degrees¶

会议: NeurIPS 2025
arXiv: 2505.24627
代码: GitHub
领域: 优化
关键词: 神经组合优化, 车辆路径问题, 约束紧度, 多专家模块, 泛化能力

一句话总结¶

揭示了现有NCO方法严重过拟合固定约束紧度（如CVRP的固定车辆容量C=50），提出变约束紧度训练方案和多专家模块(MEM)，使模型能有效处理从极紧到极松的全范围约束。

研究背景与动机¶

NCO方法在求解VRP时通常使用固定约束值训练（如CVRP100固定容量C=50、平均需求5），在同分布测试数据上表现优异。然而，实际应用场景中约束紧度高度多变。

核心痛点：当约束紧度偏离训练设定时，现有NCO模型性能急剧恶化。POMO在C=50时gap仅3.66%，但在C=10（紧约束）时暴涨至20.26%（5.5×），C=500（松约束）时达34.12%（9.3×）。所有主流NCO方法（AM、POMO、BQ、LEHD等）均存在此问题，平均gap至少扩大1.7倍。

问题根源分析：约束紧度的变化会根本性地改变最优解的结构—— - C极小（如C=10）时，每辆车只能服务2-3个客户，最优解结构接近开放式VRP（OVRP） - C极大（如C=500）时，一辆车可服务全部客户，最优解结构接近TSP

这意味着模型需要学习截然不同的求解策略。训练在C=50上的模型既不会OVRP的短路线策略，也不会TSP的长回路策略。

核心idea：通过在训练中均匀采样不同约束紧度，让模型学习跨约束的通用策略；同时用多专家模块让不同专家层专注于不同紧度范围，避免相互冲突的优化方向。

方法详解¶

整体框架¶

基于LEHD（轻量编码器-重解码器）骨干网络，在训练协议和神经架构两个层面进行改进：(1) 变约束紧度训练(VCT)；(2) 多专家模块(MEM)。

关键设计¶

变约束紧度训练(VCT)：训练时对每个实例独立地从 \([C_{min}, C_{max}]\) 均匀采样约束紧度。例如容量从 \(\{10, 11, \ldots, 500\}\) 中随机选取。关键决策是实例级采样而非批次级采样——即同一batch内不同实例可以有不同容量。这种做法相比批次级一致采样表现更好，因为它提供了更丰富的梯度信号。

训练数据由HGS求解器提供标注解，每个实例有随机容量和对应的最优解。使用监督学习训练LEHD模型。

多专家模块(MEM)：在LEHD解码器的 \(L\) 层堆叠注意力层之后，添加多专家模块。它由门控机制 \(G(\cdot)\) 和 \(m\) 个专家层 \(\{E_1, E_2, \ldots, E_m\}\) 组成。门控机制根据约束紧度 \(C_k\) 将实例硬路由到对应的专家层：

\[P_t = \text{MEM}(H_t, C_k) = \sum_{i=1}^{m} G(C_k) E_i(H_t)\]

门控为one-hot向量，第 \(i\) 个专家处理紧度在 \([(i-1)\beta, i\beta]\) 范围的实例，其中 \(\beta = |C_{max} - C_{min}| / m\)。每个专家层内部包含 \(m_e\) 层堆叠注意力层和最终的概率预测层。这种硬路由设计简单高效，避免了软路由中不同紧度间的梯度干扰。

约束紧度与问题相似性的理论联系：用实验验证了CVRP在不同约束下等价于不同问题的假说。专门用于OVRP的POMO模型在C=10时（gap 1.9%）远优于所有CVRP模型（最优17.44%）；专门用于TSP的POMO模型在C=500时（gap 2.5%）也优于CVRP模型（最优6.8%）。这为VCT的设计提供了问题结构层面的理论支撑。

损失函数 / 训练策略¶

使用监督学习，Adam优化器（初始学习率1e-4，每epoch衰减率0.9），训练40个epoch。100万CVRP100训练实例，batch size=512。每个实例的容量从 \(\{10, 11, \ldots, 500\}\) 随机采样，标注解由HGS求解器生成。

模型配置：embedding维度192，FFN隐层512，query维度16，12头注意力，\(L=6\) 层解码器attention，\(m=3\) 个专家，每个专家 \(m_e=3\) 层attention。

实验关键数据¶

主实验（CVRP100不同容量）¶

方法	C=10	C=50	C=100	C=200	C=300	C=400	C=500	平均Gap
POMO	20.26%	3.66%	11.17%	22.45%	29.56%	30.80%	34.12%	21.72%
BQ	18.02%	3.25%	3.48%	4.53%	6.53%	6.54%	8.16%	7.22%
LEHD	36.56%	4.22%	4.87%	4.18%	5.78%	4.92%	6.82%	9.62%
各数据集现有最优	7.47%	3.25%	3.48%	4.18%	5.78%	4.92%	6.82%	5.13%
Ours	1.54%	3.82%	3.67%	1.49%	0.87%	0.75%	0.87%	1.86%

消融实验¶

配置	C=10	C=50	C=500	平均Gap
Base Model (C=50训练)	45.64%	3.72%	7.29%	10.78%
Base Model + MEM	37.03%	3.28%	6.11%	8.95%
Base Model + VCT	1.88%	4.51%	1.25%	2.41%
Base Model + VCT + MEM	1.54%	3.82%	0.87%	1.86%

CVRPTW扩展实验¶

方法	α=0.2(紧)	α=1.0(松)	α=3.0(极松)	平均Gap
POMO	14.95%	11.39%	33.56%	19.58%
POMO+VCT	9.80%	12.37%	11.23%	12.14%
POMO+VCT+MEM	9.13%	11.91%	10.37%	11.58%

关键发现¶

VCT是主要贡献因素：仅加VCT就将平均gap从10.78%降至2.41%（减少78%），MEM进一步降至1.86%
MEM单独使用效果有限（8.95% vs 10.78%），但与VCT配合时一致提升所有约束范围
在C=300-500范围，本方法的gap低于1%，几乎达到HGS求解器水平
方法的通用性：同样的思路成功应用于POMO + CVRPTW，平均gap从19.58%降至11.58%
紧约束过拟合比松约束更严重——AM在C=10的gap高达45.16%

亮点与洞察¶

问题诊断的深刻性：不止发现了过拟合现象，还通过OVRP和TSP的对照实验解释了问题根源——不同约束紧度本质上对应不同的优化问题
方法极度简单高效：VCT只是改变训练数据采样策略（零额外计算），MEM只在解码器尾部加几层attention（极少参数增量），但效果显著
硬路由的设计选择：相比软混合专家的计算开销和训练不稳定性，硬路由的one-hot门控简单直接且足够有效
在C=50/100上的轻微退步说明VCT用更多策略覆盖度换取了特定点位的精度，这是合理的权衡

局限与展望¶

VCT使用均匀采样策略，自适应采样（如根据各紧度范围的当前性能调整采样频率）可能进一步提升
多专家的硬路由可能导致专家间的知识隔离，软路由或共享底层表示的方案值得探索
在C=50/100上的性能略低于专用基线，说明该方法更适合"一个模型覆盖所有"的场景
仅展示了CVRP和CVRPTW两种问题，对调度、装箱等其他带约束的组合优化问题适用性有待验证

评分¶

新颖性: ⭐⭐⭐⭐ 问题诊断有深度，方法设计虽简单但有效
实验充分度: ⭐⭐⭐⭐⭐ 极为全面的对比（9种NCO方法×7种容量），消融清晰，CVRPTW扩展验证
写作质量: ⭐⭐⭐⭐ 结构清晰，实验设计与分析逻辑严密
价值: ⭐⭐⭐⭐ 揭示了NCO训练中一个被忽视的系统性问题，解决方案简单实用