ICLR 2026 优化/理论组合优化启发式生成 Agentic Benchmark LLM 评测迭代式精炼 Quality-Yield Index

HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HWxHUO15Yy
代码: 开源 benchmark（链接见论文仓库）
领域: 组合优化 / LLM Agent / 评测基准
关键词: 组合优化, 启发式生成, Agentic Benchmark, LLM 评测, 迭代式精炼, Quality-Yield Index

一句话总结¶

HeuriGym 把 LLM 丢进一个"读题—写代码—执行反馈—迭代修正"的 agentic 闭环里，让它从零为 9 个真实组合优化问题（EDA、生物、物流等）手写完整启发式算法，并用新指标 QYI 衡量解的质量与可行率——结果连最强的 GPT-o4-mini-high 和 Gemini-2.5-Pro 也只有 0.6 分（专家为 1.0），暴露出 LLM 在工具使用、长程规划和自适应推理上的硬伤。

研究背景与动机¶

领域现状：评估 LLM 推理与 agent 能力的主流基准分两类。一类是有标准答案的客观题（AIME、HumanEval、GPQA Diamond、HLE），另一类是主观偏好打分（Chatbot Arena、LLM-as-a-judge）。

现有痛点：客观题基准正在快速饱和——SOTA 模型在 AIME/HumanEval 上已超 80%，连号称"博士级"的 HLE 也在几个月内从 3% 飙到 25%，且静态题库面临训练数据污染风险；而主观偏好评测方差极高，评判常被回答结构、emoji 等表面因素带偏，在需要专业知识的技术任务上可靠性差。

核心矛盾：现实世界的工程任务要求迭代推理、创造性算法设计、自适应工具使用，解既不唯一也无预定义，这恰恰是两类现有基准都覆盖不到的盲区。

本文目标：构造一个既有明确目标函数、又有巨大解空间的评测范式，能同时考察 LLM 的工具增强推理、多步规划、指令遵从和基于运行时反馈的迭代精炼四个维度。

核心 idea：组合优化天然兼具"目标清晰"与"解空间巨大"两大特性，是理想载体。作者刻意避开 TSP/SAT 这类被预训练语料"背烂"的经典问题，转而选取被引量 <1000 的冷门但真实的 CO 问题，强迫模型真正推理而非背答案；并把评测从单轮静态改成交互式 agentic 闭环，让模型生成完整自洽的优化程序（自定义数据结构 + 端到端流水线），而非像 FunSearch/ReEvo 那样只在模板里填空。

方法详解¶

整体框架¶

HeuriGym 是一个三阶段流水线 + 反馈回路：模型读到结构化问题描述后，按标准函数签名 solve(input_file, solution_file) 生成完整启发式程序；程序经编译/解释执行后，由验证器检查约束、评估器计算目标代价；执行日志、验证结果、小样本 demo 集上的代价会被拼回 prompt，驱动模型进入下一轮迭代精炼。

flowchart LR
    A[结构化问题描述<br/>Background+Formalization+IO] --> B[LLM 生成完整 solve 程序]
    B --> C[Stage I 执行<br/>编译/解释 + IO]
    C --> D[Stage II 解生成<br/>超时内产出合规输出]
    D --> E[Stage III 验证<br/>问题特定约束检查]
    E --> F[评估器算代价 cn]
    F -->|日志+错误+demo代价拼回 prompt| B
    E -->|稳定后| G[evaluation set 终测]

关键设计¶

1. 无脚手架的从零生成：只给接口、不给套路。 与以往工作手工提供部分实现或限制设计空间不同，HeuriGym 的 user prompt 只暴露函数名、输入路径、输出路径，不给任何数据结构或算法提示。模型必须整体性地推理——自己解析输入、构建内部表示、从零设计并实现启发式。System prompt 则注入机器配置（CPU 核数、内存上限）、可用库及版本号、执行超时等环境约束，逼模型生成既正确又不违反运行时限制的现实解。这种设计让基准更贴近"成败取决于能否挖掘问题特定结构"的真实 CO 场景。

2. SOLVEs@i：把"会不会做"拆成三个里程碑。 传统 PASS@k 只看能否命中标准答案，无法刻画多轮 agentic 推理。作者定义 \(\text{SOLVEs@}i := \frac{1}{N}\sum_{n=1}^{N}\mathbb{1}(\text{在前 }i\text{ 轮内通过阶段 }s)\)，其中 \(s\in\{\text{I},\text{II},\text{III}\}\) 分别对应执行通过（编译/IO 正常）、解生成（超时内产出合规输出）、验证通过（满足全部约束）。这样能精确定位 agent 到底卡在哪一关，把"调试能力""约束理解""迭代修复"逐级显影。

3. Quality-Yield Index：可行率与解质量的调和平均。 仅有 SOLVEs@i 不反映解的好坏，作者再引入两个量：\(\text{QUALITY}=\frac{1}{\hat N}\sum_{n=1}^{\hat N}\min(1, c^\star_n/c_n)\) 衡量 LLM 解代价 \(c_n\) 相对专家解代价 \(c^\star_n\) 的接近度（封顶为 1，即与专家持平算满分），\(\text{YIELD}=\hat N/N\) 即通过验证的实例占比。最终 QYI 取二者的加权调和平均：\(\text{QYI}=\frac{(1+\beta^2)\cdot\text{QUALITY}\cdot\text{YIELD}}{\beta^2\cdot\text{QUALITY}+\text{YIELD}}\)，默认 \(\beta=1\)。这套类 F-score 的设计对"质量高但能解的少"或"能解的多但质量差"的失衡情形施以更重惩罚，专家基线被锚定为 QYI=1.0 以凸显差距。

4. 防记忆的问题选取准则 + human-in-the-loop 题面校验。 候选问题须满足：最高被引论文 <1000 次（排除已进训练语料的教科书问题）、可用纯自然语言+LaTeX 无歧义表述、解空间巨大（单实例可达 \(10^{65000}\) 量级）、demo 集与 evaluation 集规模差至少一个数量级、附带可复现的专家基线。题面经人类标注后再用较弱模型（DeepSeek-V3）反复标注歧义并迭代消歧——其假设是"若弱模型都能确认题面无歧义，强模型自然能理解"，且该流程只用于澄清描述、绝不用于提升求解性能。

实验关键数据¶

主实验¶

9 个问题、218 个评测实例，评测 9 个 2024 末至 2025 中发布的 SOTA 模型，温度固定为 0。SOLVEs@i 结果（节选）：

模型	SOLVE_III@10	SOLVE_III@1	SOLVE_II@1
GPT-o4-mini-high	74.8%	53.2%	93.1%
DeepSeek-R1	73.4%	44.0%	60.6%
Gemini-2.5-Flash	67.4%	25.2%	56.4%
Gemini-2.5-Pro	65.1%	20.2%	42.7%
Claude-3.7-Sonnet	60.1%	9.2%	41.3%
LLaMA-4-Maverick	35.8%	6.0%	13.3%

QYI 上限仅 0.62（Gemini-2.5-Pro），即最优模型平均也只有专家解的 ~60% 效果；LLaMA-3.3/4-Maverick 的 QYI <0.30。迭代显著有效：GPT-o4-mini-high 的 SOLVE_III 从 @1 的 53.2% 升到 @10 的 74.8%。

进化框架对比¶

统一用 Gemini-2.5-Pro 为底座，外层进化循环 10 轮、种群 10：

框架	SOLVE_III@10	QYI
Gemini-2.5-Pro（基线）	0.6514	0.6170
HSEvo	0.5000	0.4491
EoH	0.4954	0.4492
ReEvo	0.4771	0.4486

进化框架反而比裸基线更差——根因是它们不吸收程序执行反馈、跨迭代打断上下文，导致反复在同一个有缺陷的初始程序上打补丁；且这些框架原本只针对 <20 行的玩具问题（TSP、装箱），而 HeuriGym 通常需要 300+ 行代码。

消融实验（pickup and delivery，QYI）¶

配置	QYI
5 demos / 10 轮反馈	0.4196
3 demos / 10 轮	0.2829
0 demos / 10 轮	0.2351
5 demos / 5 轮	0.3330
5 demos / 1 轮	0.2350

demo 数量和反馈轮数都对性能有显著正向贡献。

关键发现¶

质量—可行率权衡：温度升高（T=0→1）提升多样性与质量但降低可行率（更多无效输出），贪心解码 yield 最高但质量次优——这是 LLM 必须直面的根本矛盾。
错误归因：主要失败模式为幻觉 API（调用不存在/过时的库）、算法逻辑错误、约束误解、超时。
案例研究（technology mapping）：GPT-o4-mini-high 能从朴素 6-LUT 映射逐步演化到带剪枝的 DP 启发式，最终在 yield 与 quality 间取得最佳平衡，证明 LLM 确能学习并精炼启发式，但仍差专家工具 ~40%。

亮点与洞察¶

范式选得精准：用"目标清晰 + 解空间巨大"的组合优化破解了客观题饱和与主观题高方差的两难，且"被引 <1000"这条防记忆红线把"会推理"和"会背书"切得很干净。
指标设计有诊断力：SOLVEs@i 三阶段拆解让人一眼看出 agent 卡在执行、生成还是约束满足；QYI 用调和平均同时压住"质量"和"可行率"，比单一 ELO/PASS@k 信息量大得多。
无脚手架是真考试：要求生成 300+ 行完整自洽程序，而非模板填空，直接把 FunSearch 式进化框架打回原形，揭示了"上下文断裂 + 不吸收执行反馈"是这类方法的死穴。

局限与展望¶

仅跑 Python：易于上手但有执行开销，C++ 仅给出初步结果，因依赖领域库、生成高效正确并行 C++ 困难而难以完整集成。
pipeline 仍是基线配置：未纳入高级 prompting / 多智能体 / 摘要压缩 / 自动 prompt 工程，作者明确把这些作为可在 HeuriGym 上继续探索的方向。
代理指标的真实性差距：当前用形式化的高效代理指标，但科学领域需物理实验验证、EDA 需后端综合确认，真实质量与代理分数间仍有 gap。
测试时扩展空间：迭代自精炼可视为一种 test-time scaling，未来可接入 best-of-N、beam search、进化算法、外部 autotuner 及自验证机制。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把组合优化作为评测载体、配合防记忆准则和无脚手架设定，加上 SOLVEs@i / QYI 双指标，整体范式设计有原创性。
实验充分度: ⭐⭐⭐⭐ 覆盖 9 问题 218 实例 × 9 模型，含进化框架对比、温度/demo/反馈轮数消融与错误归因、案例研究，相当扎实；扣分点在多数消融受预算限制只在单一代表模型上做。
写作质量: ⭐⭐⭐⭐ 动机—范式—指标—实验的逻辑链清晰，Table 1 的横向定位和指标公式交代到位。
价值: ⭐⭐⭐⭐⭐ 暴露了 SOTA LLM 在真实 CO 上仅达专家 60% 的硬差距，开源基准可作为长期演进的公共试验台，对 agentic 推理与科学/工程 LLM 评测有持续价值。