FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization¶
会议: ICLR 2026
arXiv: 2505.16952
代码: HuggingFace
领域: Agent / 组合优化
关键词: combinatorial optimization, ML solver, benchmark, real-world instances, LLM agent
一句话总结¶
FrontierCO 是一个涵盖 8 类组合优化问题(TSP、MIS、CVRP 等)的大规模真实世界基准测试,评估了 16 个 ML 求解器(神经网络方法 + LLM Agent)与 SOTA 传统求解器的差距,发现 ML 方法在结构复杂和极大规模实例上仍显著落后于传统方法,但在部分场景有超越潜力。
研究背景与动机¶
领域现状:ML 用于组合优化(CO)近年发展迅速,包括端到端神经求解器(GNN、RL、扩散模型)和 LLM Agent 方法(FunSearch、ReEvo 等),在小规模合成基准上展示了promising结果。
现有痛点:三大局限——① 规模:大多数评估在 toy 级别实例上进行(如 TSP ≤ 10K 节点),而实际应用需要处理百万级节点;② 真实性:合成数据集无法捕捉真实世界的结构多样性(如非欧几里得图、竞赛级不规则实例);③ 覆盖度:缺乏跨问题类型的统一评估协议。
核心矛盾:ML 方法在合成基准上的"进展"可能是因为问题太简单/太规则,而非方法真正有效。需要在真实结构和极端规模下检验。
本文要解决:提供一个严格的、基于真实世界的 CO 基准测试套件,统一评估 ML 求解器与传统 SOTA 求解器的差距。
切入角度:从竞赛库(DIMACS、TSPLib、PACE Challenge)收集真实实例,分为 easy(已可解决)和 hard(开放问题)两个测试集,将规模推到 TSP 1000万节点、MIS 800万节点。
核心idea:ML for CO 的进展需要在真实结构和极大规模下检验,而非仅在合成数据上刷分。
方法详解¶
整体框架¶
FrontierCO 涵盖 8 类 CO 问题(路由: TSP/CVRP; 图: MIS/MDS; 设施选址: CFLP/CPMP; 调度: FJSP; 树: STP),统一使用 primal gap 作为评价指标:\(\text{pg}(x;s) = |cost(x;s) - c^*| / \max(|cost(x;s)|, |c^*|)\),范围 [0,1],0 为最优。每个问题提供:easy set(历史上困难但现在可解)+ hard set(开放/计算密集型实例)+ 标准化训练/验证集。
关键设计¶
-
实例规模与数据来源:
- TSP: 最大 1000万节点(此前 ML 评估最大 1万)
- MIS: 最大 800万节点(此前最大 1.1万)
- 数据源: TSPLib, DIMACS Challenge, PACE Challenge 2025, BHOSLib 等
- 设计动机: 真实世界的 CO 实例具有不规则结构,合成均匀分布无法代表
-
Hard Set 的构建逻辑:
- 不仅仅是"更大"——强调结构复杂性
- 如 STP 的 PUC 超立方体图、MIS 的 SAT-induced 实例
- 很多实例没有已知最优解,防止"启发式黑客"(heuristic hacking)和记忆化
- 设计动机: 迫使 ML 方法展示真正的泛化能力
-
评估体系:
- 16 个 ML 求解器: 含神经求解器(DiffUCO, SDDS, LEHD, DIFUSCO, SIL, DeepACO 等)和 LLM Agent(FunSearch, Self-Refine, ReEvo)
- 传统 SOTA: KaMIS(MIS), LKH-3(TSP), HGS(CVRP), Gurobi(MDS/CFLP), CPLEX(FJSP) 等
- 统一时间限制: 每实例 1 小时
- 统一硬件: 单 CPU 核 + 单 GPU
-
标准化训练/验证数据:
- 解决跨论文比较中合成数据不一致的问题
- 包含数据加载器、评估函数和 LLM Agent 模板
- 对 LLM 隐藏评估函数以防数据泄露
实验关键数据¶
主实验——Easy Set 上的 Primal Gap (%)¶
| 领域 | SOTA 传统 | 最佳 Neural | 最佳 LLM |
|---|---|---|---|
| TSP | 0.00 (LKH-3) | 0.16 (LEHD) | 3.82 (ReEvo) |
| MIS | 0.00 (KaMIS) | 0.37 (SDDS) | 7.21 |
| CVRP | 0.14 (HGS) | 1.73 (SIL) | 12.5 |
| CFLP | 0.00 (Gurobi) | 0.91 (SORREL) | 5.4 |
| FJSP | 0.00 (CPLEX) | 8.2 (MPGN) | 15.3 |
Hard Set 上的 Gap 分析¶
- 在 Hard Set 上差距急剧扩大
- TSP 10M 节点: 传统方法 gap ~1%, 最佳 Neural gap ~15%
- MIS 结构化实例: Neural 方法在 SAT-induced 图上几乎完全失败
- LLM Agent 方法普遍高方差,有时能偶然超越传统方法,但不稳定
消融/分析¶
| 维度 | 发现 |
|---|---|
| 规模扩展 | Neural 性能随规模指数退化,传统方法线性退化 |
| 结构复杂度 | 非欧/不规则结构对 Neural 方法打击最大 |
| 泛化 | 合成→真实的分布迁移导致显著性能下降 |
| LLM 稳定性 | ReEvo 等方法方差极大,同问题不同 run 差异巨大 |
关键发现¶
- ML 方法在 easy 实例上有竞争力但在 hard 实例上全面落后,差距在结构复杂和大规模实例上加剧
- Neural 方法能增强简单启发式但无法替代精细工程的专用求解器
- LLM Agent 偶尔能超越 SOTA 传统方法但高方差,因为它们无法理解自己生成的算法中哪些真正有效
- 合成→真实的分布迁移是 Neural 方法的核心瓶颈
- 调度和设施选址等约束复杂问题对 ML 方法尤其困难
亮点与洞察¶
- 规模对比震撼: TSP 从 10K 推到 10M,MIS 从 11K 推到 8M——暴露了 ML 方法在规模上的根本缺陷
- "Hard ≠ Large"的设计哲学: Hard set 强调结构复杂性而非仅仅规模,如 PUC 超立方体和 SAT-induced 图——这比单纯增大规模更有意义
- LLM Agent 的双刃剑特性: 高方差但偶尔超越 SOTA——说明 LLM 的代码生成能力有创造性但缺乏稳定性和深层理解
- 标准化的价值: 提供统一的训练数据/评估协议,终结了跨论文比较中"苹果比橘子"的混乱
局限与展望¶
- 每实例 1 小时的时间限制可能不足以让某些方法收敛
- 仅评估单 GPU 设置,未考虑分布式并行
- 某些问题(如 STP)的 Neural baseline 较弱,可能低估了 ML 的潜力
- 未包含一些新兴方法(如 Neural 引导的 Branch-and-Bound 最新进展)
- Hard set 的 BKS 可能不是真正最优解,primal gap 受参考解质量影响
相关工作与启发¶
- vs CO-Bench: FrontierCO 聚焦真实世界实例和极端规模,CO-Bench 更偏向 LLM Agent 评估
- vs 现有 Neural CO 评估: 此前评估都在合成数据和小规模上,FrontierCO 暴露了这种评估方式的不可靠性
- vs DIMACS Competition: 借鉴竞赛评估思路但面向 ML 社区,降低了参与门槛
- 对 ML for CO 研究方向有重要指引:应更关注泛化能力和结构适应性,而非在合成基准上刷分
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个真正大规模真实世界的 ML for CO 基准
- 实验充分度: ⭐⭐⭐⭐⭐ 8 类问题 × 16 个 ML 求解器 + SOTA 传统方法的全面评测
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据呈现直观
- 价值: ⭐⭐⭐⭐⭐ 对 ML for CO 社区有"照妖镜"般的警示价值