FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization¶
会议: ICLR 2026
arXiv: 2505.16952
代码: HuggingFace
领域: Agent / 组合优化
关键词: combinatorial optimization, ML solver, benchmark, real-world instances, LLM agent
一句话总结¶
FrontierCO 是一个涵盖 8 类组合优化问题(TSP、MIS、CVRP 等)的大规模真实世界基准测试,评估了 16 个 ML 求解器(神经网络方法 + LLM Agent)与 SOTA 传统求解器的差距,发现 ML 方法在结构复杂和极大规模实例上仍显著落后于传统方法,但在部分场景有超越潜力。
研究背景与动机¶
领域现状:ML 用于组合优化(CO)近年发展迅速,包括端到端神经求解器(GNN、RL、扩散模型)和 LLM Agent 方法(FunSearch、ReEvo 等),在小规模合成基准上展示了promising结果。
现有痛点:三大局限——① 规模:大多数评估在 toy 级别实例上进行(如 TSP ≤ 10K 节点),而实际应用需要处理百万级节点;② 真实性:合成数据集无法捕捉真实世界的结构多样性(如非欧几里得图、竞赛级不规则实例);③ 覆盖度:缺乏跨问题类型的统一评估协议。
核心矛盾:ML 方法在合成基准上的"进展"可能是因为问题太简单/太规则,而非方法真正有效。需要在真实结构和极端规模下检验。
本文要解决:提供一个严格的、基于真实世界的 CO 基准测试套件,统一评估 ML 求解器与传统 SOTA 求解器的差距。
切入角度:从竞赛库(DIMACS、TSPLib、PACE Challenge)收集真实实例,分为 easy(已可解决)和 hard(开放问题)两个测试集,将规模推到 TSP 1000万节点、MIS 800万节点。
核心idea:ML for CO 的进展需要在真实结构和极大规模下检验,而非仅在合成数据上刷分。
方法详解¶
整体框架¶
FrontierCO 是一套覆盖 8 类组合优化问题的真实世界评测基准,问题横跨路由(TSP、CVRP)、图(MIS、MDS)、设施选址(CFLP、CPMP)、调度(FJSP)和树结构(STP)五大类。每个问题都配齐 easy set(历史上困难但如今可解)、hard set(仍开放或极度耗算的实例)以及标准化的训练/验证数据,所有方法在统一时间预算和统一硬件下用同一指标对比,从而把"ML 求解器到底比传统求解器差多少"放在可复现的同一标尺上。
整套基准统一以 primal gap 衡量解的质量。对实例 \(s\) 上的解 \(x\),定义为 \(\text{pg}(x;s) = |cost(x;s) - c^*| / \max(|cost(x;s)|, |c^*|)\),其中 \(c^*\) 是已知最优或最佳参考解,取值落在 \([0,1]\),越接近 0 越优。这种归一化让不同规模、不同量纲的问题可以横向比较,也直接暴露 ML 方法在 gap 上的退化幅度。
关键设计¶
1. 真实数据 + 极端规模:把评测从 toy 推到百万级
以往 ML for CO 的评估几乎都停在合成的小规模实例上——TSP 最大约 1 万节点、MIS 最大约 1.1 万节点,且节点服从均匀分布,结构过于规则。FrontierCO 直接从竞赛级数据源(TSPLib、DIMACS Challenge、PACE Challenge 2025、BHOSLib 等)收集真实实例,把规模一举推到 TSP 1000 万节点、MIS 800 万节点。这样做的关键在于:真实世界的 CO 实例往往是非欧几里得、不规则的图,合成均匀分布根本无法代表,只有在真实结构和极大规模下,ML 方法是否真的"学会了求解"才会显形。
2. Hard Set 强调"难"而非只是"大":堵死启发式黑客
Hard set 的构建刻意区别于简单地放大规模,转而强调结构复杂性,例如 STP 中的 PUC 超立方体图、MIS 中由 SAT 实例诱导出的图,这类结构对依赖局部模式的神经方法尤其致命。更关键的是,hard set 里很多实例并没有已知最优解,这就从机制上防止了"启发式黑客"(heuristic hacking)与对答案的记忆化——方法无法靠背下参考解蒙混,只能展示真正的泛化能力。
3. 统一评测协议:16 个 ML 求解器同台对决 SOTA
评测纳入 16 个 ML 求解器,既包含神经求解器(DiffUCO、SDDS、LEHD、DIFUSCO、SIL、DeepACO 等),也包含 LLM Agent 方法(FunSearch、Self-Refine、ReEvo),并以各问题的传统 SOTA 作为参照——MIS 用 KaMIS、TSP 用 LKH-3、CVRP 用 HGS、MDS/CFLP 用 Gurobi、FJSP 用 CPLEX。为保证可比性,所有方法被卡在同一约束下:每个实例最多 1 小时、统一使用单 CPU 核加单 GPU,避免靠堆算力制造虚假优势。
4. 标准化训练/验证数据:终结"苹果比橘子"
跨论文比较长期受困于各家自造合成数据、口径不一。FrontierCO 为每个问题提供统一的训练/验证集,并附带数据加载器、评估函数和 LLM Agent 模板,让不同方法在相同数据上训练、相同函数下打分。其中评估函数对 LLM 隐藏,以防 Agent 直接读到评分逻辑造成数据泄露,保证 LLM Agent 路线的结果同样可信。
实验关键数据¶
主实验——Easy Set 上的 Primal Gap (%)¶
| 领域 | SOTA 传统 | 最佳 Neural | 最佳 LLM |
|---|---|---|---|
| TSP | 0.00 (LKH-3) | 0.16 (LEHD) | 3.82 (ReEvo) |
| MIS | 0.00 (KaMIS) | 0.37 (SDDS) | 7.21 |
| CVRP | 0.14 (HGS) | 1.73 (SIL) | 12.5 |
| CFLP | 0.00 (Gurobi) | 0.91 (SORREL) | 5.4 |
| FJSP | 0.00 (CPLEX) | 8.2 (MPGN) | 15.3 |
Hard Set 上的 Gap 分析¶
- 在 Hard Set 上差距急剧扩大
- TSP 10M 节点: 传统方法 gap ~1%, 最佳 Neural gap ~15%
- MIS 结构化实例: Neural 方法在 SAT-induced 图上几乎完全失败
- LLM Agent 方法普遍高方差,有时能偶然超越传统方法,但不稳定
消融/分析¶
| 维度 | 发现 |
|---|---|
| 规模扩展 | Neural 性能随规模指数退化,传统方法线性退化 |
| 结构复杂度 | 非欧/不规则结构对 Neural 方法打击最大 |
| 泛化 | 合成→真实的分布迁移导致显著性能下降 |
| LLM 稳定性 | ReEvo 等方法方差极大,同问题不同 run 差异巨大 |
关键发现¶
- ML 方法在 easy 实例上有竞争力但在 hard 实例上全面落后,差距在结构复杂和大规模实例上加剧
- Neural 方法能增强简单启发式但无法替代精细工程的专用求解器
- LLM Agent 偶尔能超越 SOTA 传统方法但高方差,因为它们无法理解自己生成的算法中哪些真正有效
- 合成→真实的分布迁移是 Neural 方法的核心瓶颈
- 调度和设施选址等约束复杂问题对 ML 方法尤其困难
亮点与洞察¶
- 规模对比震撼: TSP 从 10K 推到 10M,MIS 从 11K 推到 8M——暴露了 ML 方法在规模上的根本缺陷
- "Hard ≠ Large"的设计哲学: Hard set 强调结构复杂性而非仅仅规模,如 PUC 超立方体和 SAT-induced 图——这比单纯增大规模更有意义
- LLM Agent 的双刃剑特性: 高方差但偶尔超越 SOTA——说明 LLM 的代码生成能力有创造性但缺乏稳定性和深层理解
- 标准化的价值: 提供统一的训练数据/评估协议,终结了跨论文比较中"苹果比橘子"的混乱
局限与展望¶
- 每实例 1 小时的时间限制可能不足以让某些方法收敛
- 仅评估单 GPU 设置,未考虑分布式并行
- 某些问题(如 STP)的 Neural baseline 较弱,可能低估了 ML 的潜力
- 未包含一些新兴方法(如 Neural 引导的 Branch-and-Bound 最新进展)
- Hard set 的 BKS 可能不是真正最优解,primal gap 受参考解质量影响
相关工作与启发¶
- vs CO-Bench: FrontierCO 聚焦真实世界实例和极端规模,CO-Bench 更偏向 LLM Agent 评估
- vs 现有 Neural CO 评估: 此前评估都在合成数据和小规模上,FrontierCO 暴露了这种评估方式的不可靠性
- vs DIMACS Competition: 借鉴竞赛评估思路但面向 ML 社区,降低了参与门槛
- 对 ML for CO 研究方向有重要指引:应更关注泛化能力和结构适应性,而非在合成基准上刷分
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个真正大规模真实世界的 ML for CO 基准
- 实验充分度: ⭐⭐⭐⭐⭐ 8 类问题 × 16 个 ML 求解器 + SOTA 传统方法的全面评测
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据呈现直观
- 价值: ⭐⭐⭐⭐⭐ 对 ML for CO 社区有"照妖镜"般的警示价值