ICLR 2026 优化/理论元启发式算法超参数动态调优大语言模型探索性景观分析(ELA) 零样本控制组合优化

AutoEP: LLMs-Driven Automation of Hyperparameter Evolution for Metaheuristic Algorithms¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hit3hGBheP
代码: https://github.com/YiZheZhang12/AutoEP
领域: optimization
关键词: 元启发式算法, 超参数动态调优, 大语言模型, 探索性景观分析(ELA), 零样本控制, 组合优化

一句话总结¶

AutoEP 把"在线探索性景观分析(ELA)量化指标"喂给一条多 LLM 推理链，让大模型在零训练前提下逐代动态调节遗传算法/PSO/蚁群等元启发式的超参数，靠数据接地避免幻觉，使开源 30B 模型也能逼平 GPT-4 的调参效果。

研究背景与动机¶

领域现状：元启发式算法（GA、PSO、ACO）求解组合优化问题的成败，取决于"探索 vs 利用"这对超参数（变异率、交叉率等）的动态平衡。传统做法分两类：手工规则式调参（按迭代数/多样性硬编码地涨变异率）和数据驱动式调参（用深度强化学习从零学一个自适应策略）。

现有痛点：手工规则脆弱、需要大量人工标定、换问题/换算法就失效；而 DRL 路线虽然能自动化，却要跑上百万次算法执行才能训出一个策略，样本复杂度高得吓人，且策略容易过拟合到训练分布，遇到没见过的实例或算法变体就崩。Meta-BBO 这一支即便引入了神经 ELA、双 agent RL，仍然摆脱不了昂贵的 meta-training。

核心矛盾：既想要 Meta-BBO 那种状态感知的自适应性，又不想付出 instance-specific 的训练代价——缺一个零样本的调参框架。

本文目标：让 LLM 充当"即插即用"的零样本推理引擎，对任意元启发式算法做在线超参数控制，不做任何训练。

核心 idea（接地推理 + 推理链分解）：作者主张 LLM 最优的角色不是"替代求解器去生成解"（那会卡在浮点表示和上下文长度上），而是当"高层监督者"。两个关键支撑：(1) 用实时搜索轨迹的量化指标(ELA)给 LLM 的抽象推理"接地"，把"收敛""多样性"等先验知识锚定到当前优化状态的可观测动态上，从而抑制幻觉；(2) 用一条多 LLM 协作推理链(CoR)把复杂控制任务拆成专职子步骤，让小模型组合也能匹敌单个巨型专有模型。

方法详解¶

整体框架¶

AutoEP 是一个闭环控制系统：每个决策点先用 ELA 把元启发式算法的黑箱状态提炼成机器可读的量化特征，结合经验池(Experience Pool)里的历史状态-动作-收益拼成结构化 prompt，交给由三个专职 LLM 组成的推理链(CoR)做"诊断状态→决定探索/利用→翻译成具体超参数"，新配置回灌算法继续搜索，结果再写回经验池，形成 State-Sensing → Reasoning → Action 的持续 in-context learning 循环。

flowchart LR
    A[元启发式算法<br/>GA/PSO/ACO] -->|当前种群| B[ELA 状态感知<br/>S/K/R²/Dratio/V]
    B --> C[经验池<br/>历史 状态-动作-收益]
    C --> D[CoR 多LLM推理链]
    subgraph D[CoR 多LLM推理链]
        D1[Strategist<br/>一次性控制映射] --> D2[Analyst<br/>诊断探索/利用]
        D2 --> D3[Actuator<br/>选参数+定幅度]
    end
    D -->|新超参数配置| A
    A -->|性能反馈| C

关键设计¶

1. ELA 在线状态感知：把黑箱搜索翻成五个量化"病征"。 由于元启发式是黑箱，AutoEP 用探索性景观分析(Exploratory Landscape Analysis)从当前种群里实时抽取一组紧凑而互补的特征，覆盖四个维度。适应度分布用偏度 \(S=\frac{\frac{1}{n}\sum_i (y_i-\bar y)^3}{(\frac{1}{n}\sum_i (y_i-\bar y)^2)^{3/2}}\) 和峰度 \(K\) 来判断：偏度正值意味着大量劣质解拖尾、应围绕少数精英加强利用，负值则预示种群正收敛、有早熟风险需加探索。景观结构用拟合优度 \(R^2=1-\frac{\sum_i(y_i-f(\vec x_i))^2}{\sum_i(y_i-\bar y)^2}\) 判断地形是漏斗型(\(R^2\approx1\)，宜利用)还是崎岖多峰(\(R^2\approx0\)，宜探索）。多样性用离散比 \(D_{ratio}=\frac{D(Q_{best})}{D(Q_{worst})}\)（精英解与劣质解平均两两距离之比），\(D_{ratio}\ll1\) 说明精英挤成一团（单漏斗，宜利用），\(\approx1\) 说明精英散落多个区域（多峰，宜探索）。搜索进度用变化率 \(V=\frac{\frac{1}{m}\sum_{m=g-m}^{g-1}\bar y_m}{\bar y_g}\) 衡量当前代相对前 \(m\) 代的改善：\(V>1\) 进展充分可加强局部利用，\(V\le1\) 则停滞、需要多样化。这五个指标把"搜索现在卡在哪"变成可读的数字，是 LLM 推理的经验地基。

2. 闭环 in-context 控制架构：用经验池做无梯度的持续学习。 AutoEP 不更新任何权重，而是把每次决策的"状态(ELA特征)→动作(超参数设置)→结果(适应度改善)"三元组存进经验池。下一个决策点把实时 ELA 特征与经验池里的相关历史一起塞进 prompt，让 LLM 既看到当前态势又看到"过去类似情况下怎么调有效"。这等价于在一次优化运行内做 in-context learning：随着搜索推进，框架持续根据观测到的性能自适应调整策略，而无需任何离线训练。

3. Chain-of-Reasoning(CoR)三角色分解：把单一巨型 prompt 拆成专职流水线。 把"理解任务 + 诊断状态 + 精确决策"全压给一个 LLM 会导致高延迟和输出不稳定，CoR 因此拆成三个协作 agent。Strategist（一次性）在运行开始时读问题描述和所选算法，生成一张静态"控制映射"，定性说明每个超参数对搜索的作用（如"变异率↑→促进探索"），供后续 agent 参考。Analyst（状态诊断）在每个决策点综合 ELA 信号与历史数据，识别"共识"（多个指标都指向探索，如低多样性+停滞）或"冲突"（指标矛盾，如低多样性但快速进展），输出明确的战略指令如 ACTION: Increase Exploration。Actuator（决策调参）拿到战略指令和控制映射后分两步落地：先按映射选出要改哪些超参数（增大变异率、减小交叉率），再通过经验池里的相似案例用 in-context learning 推断调整幅度（稳定进展时小步微调、深度停滞时大幅激进调整）。这套分解让无结构的复杂控制变成一串聚焦、可交叉验证的推理任务，从而即便用 30B 级小模型也稳定可靠。

实验关键数据¶

在 TSP、CVRP、FSSP 及更现实的 UAV-IoT 数据采集轨迹优化上，以 GA、PSO、ACO 为载体评测；AutoEP 默认用开源 Qwen3-30B，EoH/ReEvo 用 GPT-3.5-turbo，所有实验重复 30 次取均值。

主实验表格（TSP，Opt.gap 越小越好，%）¶

方法	eil51	Rd100	Kroa150	rd300	rat575	dsj1000
DACT（神经组合优化 SOTA）	0.00	0.09	0.13	0.93	2.55	4.97
LEHD（神经组合优化 SOTA）	0.08	0.21	0.96	1.38	2.64	5.54
GA（裸算法）	1.47	3.61	5.26	11.33	14.75	21.94
GA+GLEET（RL 调参 SOTA）	0.07	1.49	3.23	7.11	8.06	16.23
GA+ReEvo（LLM 增强算子）	0.27	1.97	3.39	7.58	8.39	16.53
GA+AutoEP	0.11	1.06	2.15	6.27	6.92	14.02
GA-2opt+GLEET	0.00	0.02	0.09	0.33	0.91	5.47
GA-2opt+AutoEP	0.00	0.01	0.01	0.09	0.08	3.58

AutoEP 在所有规模上都拿下最优，叠加局部搜索的 GA-2opt+AutoEP 甚至超过 DACT/LEHD 这类神经组合优化 SOTA；把 AutoEP 再套到已被 ReEvo/EoH 增强的算法上仍有进一步提升，验证其"即插即用增强器"属性。

消融实验表格（TSP，Opt.gap %）¶

方法	eil51	Rd100	Kroa150	rd300	rat575	dsj1000
GA-2opt（基线）	0.17	0.43	0.87	1.62	3.35	7.14
AutoEP 去 ELA	0.06	0.33	0.57	1.30	3.11	6.46
AutoEP 去 CoR（单 LLM）	0.16	0.43	0.81	1.60	3.37	7.11
AutoEP 去 ELA+CoR	0.21	0.56	1.37	1.84	3.91	7.93
AutoEP（完整）	0.00	0.01	0.01	0.09	0.08	3.58

去掉 ELA 则 LLM 失去态势感知、性能大跌；去掉 CoR（单 LLM 直接吃原始特征）几乎退回基线；两者皆去甚至比裸算法更差（盲目乱调）——证明"接地 + 分解"缺一不可。

关键发现¶

CoR vs 单个巨型模型：用 30B 开源模型组成的 CoR，效果与 GPT-o1 / Claude 3.7 / Gemini 2.5 Pro / DeepSeek-R1 持平，但时间快一个数量级（eil51 上 5.8 min vs 44~54 min）。
对底座模型鲁棒：EoH/ReEvo 靠 LLM 原始生成力，换小模型即大幅退化；AutoEP 因为结构化框架（ELA 接地 + CoR 推理），换弱模型仍保持高性能。
开销极小：单次决策推理延迟约 30 ms，整轮数百次调整仅增加 2~5 分钟。
频率可调 + 滑动窗口：每代调整收敛最快，但每 3~5 代调一次仍保留大部分增益；经验池用滑动窗口（L≈20）而非全历史，否则 prompt 膨胀反而拖累效率与质量。

亮点与洞察¶

"LLM 当监督者而非求解器"这个定位很对：直接让 LLM 生成数值解会被浮点精度和上下文窗口卡死，转而让它控制超参数，既绕开了数值短板又用上了它的语义先验。
ELA 是抑制幻觉的关键拼图：用可量化、可解释的搜索指标把抽象推理"钉"在真实动态上，是一个通用且可迁移到其他"LLM 控制黑箱系统"的范式。
CoR 把"大模型才行"打成"小模型组队也行"：对算力受限、要本地部署、要复现性的场景非常友好，降低了 LLM 驱动算法控制的门槛。

局限与展望¶

ELA 特征是人工选定的：偏度/峰度/R²/Dratio/V 这套指标和它们的"探索↔利用"映射规则仍带手工先验，换到非组合优化或高维连续问题上是否仍合适、能否自动发现特征，未充分讨论。
决策仍依赖 prompt 工程：三个 agent 的 prompt（附录 C）质量直接影响输出稳定性，框架对 prompt 设计的敏感度、跨模型可移植性缺少系统分析。
dsj1000 仍有 3.58% gap：大规模实例上提升明显收窄，说明在搜索空间极大时 LLM 调参的边际收益下降。
可拓展方向：把"控制映射"和特征选择本身也交给学习/自动搜索，或扩展到连续黑箱优化、AutoML 超参数调度等更广义的算法控制场景。

评分¶

新颖性: ⭐⭐⭐⭐ — "ELA 量化接地 + 多 LLM 推理链 + 零样本超参数控制"的组合是新的，把 LLM 定位成监督者而非求解器的视角清晰且有说服力。
实验充分度: ⭐⭐⭐⭐ — 覆盖 3 类算法 + 4 类问题、对比 RL/Bayesian/神经组合优化/LLM 增强多条 SOTA 线、30 次重复、含组件消融与模型鲁棒性/频率/窗口分析；扣分在 CVRP/FSSP/UAV 主结果挪到附录、正文主表只充分展开了 TSP。
写作质量: ⭐⭐⭐⭐ — 动机—矛盾—方法逻辑顺畅，ELA 指标与三 agent 职责讲得清楚，图 1/2/3 配合到位。
价值: ⭐⭐⭐⭐ — 即插即用、免训练、开源小模型可落地，对元启发式调参实践和"LLM 控制黑箱算法"这条线都有直接参考价值。