跳转至

Task-free Adaptive Meta Black-box Optimization

会议: ICLR 2026 Oral
arXiv: 2601.21475
代码: 无
领域: 遥感
关键词: 黑盒优化, 元学习, 进化算法, 自适应参数学习, 零样本优化

一句话总结

提出 ABOM——一种无需预定义训练任务的自适应元黑盒优化器,通过将进化算子(选择、交叉、变异)参数化为可微注意力模块,在优化过程中利用自生成数据在线更新参数,在合成基准和无人机路径规划上实现零样本竞争性能。

研究背景与动机

领域现状:黑盒优化(BBO)广泛应用于超参数调优、神经架构搜索等场景。传统进化算法(EA)依赖手工设计的算子和参数,Meta-BBO 方法通过元学习自动配置优化器,但需要在人工设计的训练任务分布 \(\mathcal{F}\) 上预训练。

现有痛点:Meta-BBO 方法的核心限制在于对手工训练任务分布的依赖。在实际应用中,目标任务的分布往往未知或独特(如特定的工程优化问题),无法获得合适的训练任务集合。

核心矛盾:NFL 定理表明没有通用最优算法,因此需要自适应。但现有自适应方法要么需要领域知识设计规则(传统自适应 EA),要么需要训练任务分布(Meta-BBO)。如何在既无领域知识又无训练任务的情况下实现自适应?

本文目标:(a) 消除对预定义训练任务分布的依赖;(b) 将离散的算法选择空间替换为连续可微的参数空间;(c) 用优化过程中自生成的数据实现在线参数学习。

切入角度:将进化算子参数化为注意力机制,使其可微,然后用"让后代逼近精英档案"作为监督信号在线更新参数。

核心 idea:用注意力机制参数化进化算子,将 meta-learning 的"先训后用"模式转变为"边用边学"的闭环自适应。

方法详解

整体框架

输入为黑盒目标函数 \(f_T(\mathbf{x})\)(仅可查询函数值),输出为近似最优解 \(\mathbf{x}^*\)。ABOM 把传统进化算法的一轮迭代拆成一条闭环流水线:先用拉丁超立方采样初始化种群,再依次过三个参数化进化算子——双路径注意力选择决定谁来重组、可微交叉融合父代、基因维度间注意力变异注入扰动——生成一批后代;评估后代适应度后用精英主义保留最优 \(N\) 个个体,最后以"后代该向精英档案靠拢"为监督信号反传梯度、就地更新算子参数 \(\theta\),再进入下一轮。整个过程无需预训练,直接在目标任务上"边优化边学习"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["黑盒目标函数 f_T(x)<br/>(仅可查询函数值)"] --> B["拉丁超立方采样<br/>初始化种群"]
    B --> C["双路径注意力选择<br/>(适应度 + 空间位置)"]
    C --> D["可微交叉<br/>(注意力加权混合 + 残差 MLP)"]
    D --> E["基因维度间注意力变异<br/>(建模变量耦合)"]
    E --> F["评估后代适应度"]
    F --> G["精英主义保留<br/>最优 N 个个体"]
    G --> H["自适应参数学习<br/>(后代逼近精英档案 L2 损失)"]
    H -->|梯度更新 θ| C
    G -->|收敛| I["近似最优解 x*"]

关键设计

ABOM 的核心是把进化算法里三个原本靠手工规则的算子——选择、交叉、变异——全部改写成带可学习参数的注意力模块,再加一个在线更新这些参数的闭环。前三个设计回答"后代怎么生成",第四个回答"参数怎么在没有训练任务的情况下自己学好"。

1. 双路径注意力选择:让"谁参与重组"同时看适应度和空间位置

传统选择(如锦标赛选择)只按适应度排名挑个体,等于丢掉了"谁离谁近"这层信息。ABOM 把选择做成一个 \(N \times N\) 的注意力矩阵 \(\mathbf{A}^{(t)}\),决定每个个体重组时该从哪些个体取材。它开两条路径:一路用位置坐标 \(\mathbf{P}\) 做 Query-Key 投影编码解之间的空间关系,另一路用适应度 \(\mathbf{F}\) 做投影编码排名优劣,两者相加后过 softmax 融合:

\[\mathbf{A}^{(t)} = \text{softmax}\left(\frac{(\mathbf{P}\mathbf{W}^{QP})(\mathbf{P}\mathbf{W}^{KP})^\top + (\mathbf{F}\mathbf{W}^{QF})(\mathbf{F}\mathbf{W}^{KF})^\top}{\sqrt{d_A}}\right)\]

这样权重同时体现"谁更好"和"谁更近",重组比纯按排名挑更有针对性。

2. 可微交叉:用注意力加权的父代混合 + 残差 MLP 替代固定交叉规则

有了选择矩阵后,交叉这一步要把被选中的父代信息融合成中间种群 \(\mathbf{P}'^{(t)}\)。ABOM 先用 \(\mathbf{A}^{(t)}\mathbf{P}^{(t)}\) 对父代做注意力加权混合,得到一个"交叉池",再过 MLP 学一个非线性偏移量,最后以残差形式叠回原种群:

\[\mathbf{P}'^{(t)} = \mathbf{P}^{(t)} + \text{MLP}_{\theta_c}(\mathbf{A}^{(t)}\mathbf{P}^{(t)})\]

残差连接保住父代本身的信息,MLP 负责学非线性的交叉模式。关键细节是交叉里的 Dropout(概率 \(p_C\))在推理时也保持启用——它顶替了传统 EA 里那个手调的交叉概率超参数,成为持续注入探索随机性的来源。

3. 基因维度间注意力变异:让变异考虑变量之间的耦合

传统变异(如高斯扰动)对每一维独立加噪,忽略了"改第 \(j\) 维往往得连带调第 \(k\) 维"这种变量耦合。ABOM 为每个个体单独算一个 \(d \times d\) 的变异矩阵 \(\mathbf{M}_i^{(t)}\),用自注意力建模各基因维度之间的依赖强度,再以残差方式作用到中间个体上:

\[\hat{\mathbf{p}}_i = \mathbf{p}'_i + \text{MLP}_{\theta_m}(\mathbf{M}_i^{(t)}\mathbf{p}'_i)\]

于是变异不再是各维独立的随机扰动,而是能学到问题特定的维度交互结构(可视化里能看到 \(\mathbf{M}_i\) 从随机初始化演化出有序模式)。

4. 自适应参数学习:用"后代逼近精英档案"当监督信号,把先训后用变成边用边学

前三个算子的所有参数 \(\theta\) 都要学,但 task-free 设定下没有训练任务、也没有标注,监督信号从哪来?ABOM 的答案是拿精英档案 \(\mathbf{E}^{(t)}\)(当前保留的最优 \(N\) 个个体)当目标,让本轮生成的后代 \(\hat{\mathbf{P}}^{(t)}\) 在 L2 距离上向它靠拢:

\[\mathcal{L}^{(t)} = \|\hat{\mathbf{P}}^{(t)} - \mathbf{E}^{(t)}\|^2\]

每轮用 AdamW 做一步梯度更新 \(\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L}^{(t)}\)。精英档案携带了"目前已知哪里更优"的信息,把后代往这个方向拉,相当于"适者生存"的梯度版本——这条自生成的监督信号就是 ABOM 不需要预定义训练任务、能在目标问题上原地自适应的关键。

损失函数 / 训练策略

  • 损失函数:\(\mathcal{L}^{(t)} = \|\hat{\mathbf{P}}^{(t)} - \mathbf{E}^{(t)}\|^2\),后代与精英档案的 L2 距离
  • 无预训练,参数随机初始化后在优化过程中在线学习
  • 理论保证:在紧致搜索空间和连续目标函数下,ABOM 保证全局收敛

实验关键数据

主实验(BBOB 合成基准 \(d=500\)

在 16 个测试函数上与 10 个基线对比(30 次独立运行,Wilcoxon 检验):

方法类别 代表方法 vs ABOM 胜/平/负 说明
传统 EA RS/PSO/DE 0/0/16 ABOM 在所有函数上显著更好
自适应 EA CMAES/JDE21 2~3/1~2/11~13 ABOM 总体显著更优
MetaBBO GLEET/RLDEAFL/LES/GLHF 1~4/1~3/9~14 ABOM 无需训练任务即可匹配或超越

实际应用(无人机路径规划 - 28个问题)

指标 ABOM 最佳MetaBBO 最佳自适应EA
归一化代价收敛速度 最快 中等
最终归一化代价 最低 中等 较高
运行时间 GPU加速,最快之一 需预训练 CPU-bound

消融实验

配置 BBOB \(d=500\) 排名 说明
ABOM(完整) 最优 选择+交叉+变异+自适应学习
w/o 自适应学习 显著下降 固定随机参数,退化为随机搜索
w/o 选择注意力 下降 均匀选择,类似随机重组
w/o 变异注意力 下降 独立维度变异

关键发现

  • ABOM 在 无需任何训练任务 的情况下匹配或超越需要训练任务的 MetaBBO 方法
  • 可视化揭示选择矩阵自动学会"适者生存"模式(高适应度个体权重更高),但不总是选最优个体(保持多样性)
  • 变异矩阵从随机初始化演化出有序结构,反映了问题特定的基因交互模式
  • 参数对 dropout 率 \(p_C, p_M\) 较敏感,过低导致过早收敛,过高导致搜索过于随机

亮点与洞察

  • 将元学习从"先训后用"变为"边用边学"是核心创新:通过让后代逼近精英档案作为监督信号,将无监督的 BBO 问题转化为在线监督学习。这个思路可迁移到其他需要在线适应的元学习场景。
  • 注意力机制作为进化算子的类比非常自然:选择 = 个体间注意力权重,交叉 = 加权重组 + MLP 变换,变异 = 维度间自注意力。关键是 dropout 在推理时也保持启用来维持探索性。
  • 提供了全局收敛的理论保证,尽管在实际中收敛速度取决于问题结构。

局限与展望

  • 计算复杂度为 \(O(d^3)\)\(d\) 为搜索空间维度),对超高维问题(\(d > 1000\))不实用
  • 精英档案逼近损失可能导致种群多样性丧失——没有显式的多样性保持机制
  • 仅在 BBOB 合成函数和 UAV 路径规划上验证,缺少更多实际应用场景
  • 与传统自适应 EA(如 CMA-ES)在某些函数上仍有差距

相关工作与启发

  • vs CMA-ES: CMA-ES 通过协方差矩阵自适应实现搜索方向调整,但需要领域知识设计。ABOM 通过注意力机制自动学习类似的搜索策略。
  • vs GLHF/RLDEAFL: 这些 MetaBBO 方法需要在训练任务分布上预训练,ABOM 完全避免了这一依赖。
  • vs EvoTorch/OpenELM: 现有可微进化框架侧重 GPU 加速,ABOM 进一步实现了算子参数化和在线学习。

评分

  • 新颖性: ⭐⭐⭐⭐ 将进化算子完全参数化为可微注意力模块的思路新颖
  • 实验充分度: ⭐⭐⭐⭐ BBOB 三个维度 + UAV应用 + 消融 + 可视化
  • 写作质量: ⭐⭐⭐⭐ 从 MetaBBO 到 ABOM 的推导清晰
  • 价值: ⭐⭐⭐⭐ 对元黑盒优化领域有重要贡献