Task-free Adaptive Meta Black-box Optimization¶

会议: ICLR 2026 Oral
arXiv: 2601.21475
代码: 无
领域: 遥感
关键词: 黑盒优化, 元学习, 进化算法, 自适应参数学习, 零样本优化

一句话总结¶

提出 ABOM——一种无需预定义训练任务的自适应元黑盒优化器，通过将进化算子（选择、交叉、变异）参数化为可微注意力模块，在优化过程中利用自生成数据在线更新参数，在合成基准和无人机路径规划上实现零样本竞争性能。

研究背景与动机¶

领域现状：黑盒优化（BBO）广泛应用于超参数调优、神经架构搜索等场景。传统进化算法（EA）依赖手工设计的算子和参数，Meta-BBO 方法通过元学习自动配置优化器，但需要在人工设计的训练任务分布 \(\mathcal{F}\) 上预训练。

现有痛点：Meta-BBO 方法的核心限制在于对手工训练任务分布的依赖。在实际应用中，目标任务的分布往往未知或独特（如特定的工程优化问题），无法获得合适的训练任务集合。

核心矛盾：NFL 定理表明没有通用最优算法，因此需要自适应。但现有自适应方法要么需要领域知识设计规则（传统自适应 EA），要么需要训练任务分布（Meta-BBO）。如何在既无领域知识又无训练任务的情况下实现自适应？

本文目标：(a) 消除对预定义训练任务分布的依赖；(b) 将离散的算法选择空间替换为连续可微的参数空间；(c) 用优化过程中自生成的数据实现在线参数学习。

切入角度：将进化算子参数化为注意力机制，使其可微，然后用"让后代逼近精英档案"作为监督信号在线更新参数。

核心 idea：用注意力机制参数化进化算子，将 meta-learning 的"先训后用"模式转变为"边用边学"的闭环自适应。

方法详解¶

整体框架¶

输入为黑盒目标函数 \(f_T(\mathbf{x})\)（仅可查询函数值），输出为近似最优解 \(\mathbf{x}^*\)。ABOM 把传统进化算法的一轮迭代拆成一条闭环流水线：先用拉丁超立方采样初始化种群，再依次过三个参数化进化算子——双路径注意力选择决定谁来重组、可微交叉融合父代、基因维度间注意力变异注入扰动——生成一批后代；评估后代适应度后用精英主义保留最优 \(N\) 个个体，最后以"后代该向精英档案靠拢"为监督信号反传梯度、就地更新算子参数 \(\theta\)，再进入下一轮。整个过程无需预训练，直接在目标任务上"边优化边学习"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["黑盒目标函数 f_T(x)<br/>(仅可查询函数值)"] --> B["拉丁超立方采样<br/>初始化种群"]
    B --> C["双路径注意力选择<br/>(适应度 + 空间位置)"]
    C --> D["可微交叉<br/>(注意力加权混合 + 残差 MLP)"]
    D --> E["基因维度间注意力变异<br/>(建模变量耦合)"]
    E --> F["评估后代适应度"]
    F --> G["精英主义保留<br/>最优 N 个个体"]
    G --> H["自适应参数学习<br/>(后代逼近精英档案 L2 损失)"]
    H -->|梯度更新 θ| C
    G -->|收敛| I["近似最优解 x*"]

关键设计¶

ABOM 的核心是把进化算法里三个原本靠手工规则的算子——选择、交叉、变异——全部改写成带可学习参数的注意力模块，再加一个在线更新这些参数的闭环。前三个设计回答"后代怎么生成"，第四个回答"参数怎么在没有训练任务的情况下自己学好"。

1. 双路径注意力选择：让"谁参与重组"同时看适应度和空间位置

传统选择（如锦标赛选择）只按适应度排名挑个体，等于丢掉了"谁离谁近"这层信息。ABOM 把选择做成一个 \(N \times N\) 的注意力矩阵 \(\mathbf{A}^{(t)}\)，决定每个个体重组时该从哪些个体取材。它开两条路径：一路用位置坐标 \(\mathbf{P}\) 做 Query-Key 投影编码解之间的空间关系，另一路用适应度 \(\mathbf{F}\) 做投影编码排名优劣，两者相加后过 softmax 融合：

\[\mathbf{A}^{(t)} = \text{softmax}\left(\frac{(\mathbf{P}\mathbf{W}^{QP})(\mathbf{P}\mathbf{W}^{KP})^\top + (\mathbf{F}\mathbf{W}^{QF})(\mathbf{F}\mathbf{W}^{KF})^\top}{\sqrt{d_A}}\right)\]

这样权重同时体现"谁更好"和"谁更近"，重组比纯按排名挑更有针对性。

2. 可微交叉：用注意力加权的父代混合 + 残差 MLP 替代固定交叉规则

有了选择矩阵后，交叉这一步要把被选中的父代信息融合成中间种群 \(\mathbf{P}'^{(t)}\)。ABOM 先用 \(\mathbf{A}^{(t)}\mathbf{P}^{(t)}\) 对父代做注意力加权混合，得到一个"交叉池"，再过 MLP 学一个非线性偏移量，最后以残差形式叠回原种群：

\[\mathbf{P}'^{(t)} = \mathbf{P}^{(t)} + \text{MLP}_{\theta_c}(\mathbf{A}^{(t)}\mathbf{P}^{(t)})\]

残差连接保住父代本身的信息，MLP 负责学非线性的交叉模式。关键细节是交叉里的 Dropout（概率 \(p_C\)）在推理时也保持启用——它顶替了传统 EA 里那个手调的交叉概率超参数，成为持续注入探索随机性的来源。

3. 基因维度间注意力变异：让变异考虑变量之间的耦合

传统变异（如高斯扰动）对每一维独立加噪，忽略了"改第 \(j\) 维往往得连带调第 \(k\) 维"这种变量耦合。ABOM 为每个个体单独算一个 \(d \times d\) 的变异矩阵 \(\mathbf{M}_i^{(t)}\)，用自注意力建模各基因维度之间的依赖强度，再以残差方式作用到中间个体上：

\[\hat{\mathbf{p}}_i = \mathbf{p}'_i + \text{MLP}_{\theta_m}(\mathbf{M}_i^{(t)}\mathbf{p}'_i)\]

于是变异不再是各维独立的随机扰动，而是能学到问题特定的维度交互结构（可视化里能看到 \(\mathbf{M}_i\) 从随机初始化演化出有序模式）。

4. 自适应参数学习：用"后代逼近精英档案"当监督信号，把先训后用变成边用边学

前三个算子的所有参数 \(\theta\) 都要学，但 task-free 设定下没有训练任务、也没有标注，监督信号从哪来？ABOM 的答案是拿精英档案 \(\mathbf{E}^{(t)}\)（当前保留的最优 \(N\) 个个体）当目标，让本轮生成的后代 \(\hat{\mathbf{P}}^{(t)}\) 在 L2 距离上向它靠拢：

\[\mathcal{L}^{(t)} = \|\hat{\mathbf{P}}^{(t)} - \mathbf{E}^{(t)}\|^2\]

每轮用 AdamW 做一步梯度更新 \(\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L}^{(t)}\)。精英档案携带了"目前已知哪里更优"的信息，把后代往这个方向拉，相当于"适者生存"的梯度版本——这条自生成的监督信号就是 ABOM 不需要预定义训练任务、能在目标问题上原地自适应的关键。

损失函数 / 训练策略¶

损失函数：\(\mathcal{L}^{(t)} = \|\hat{\mathbf{P}}^{(t)} - \mathbf{E}^{(t)}\|^2\)，后代与精英档案的 L2 距离
无预训练，参数随机初始化后在优化过程中在线学习
理论保证：在紧致搜索空间和连续目标函数下，ABOM 保证全局收敛

实验关键数据¶

主实验（BBOB 合成基准 \(d=500\)）¶

在 16 个测试函数上与 10 个基线对比（30 次独立运行，Wilcoxon 检验）：

方法类别	代表方法	vs ABOM 胜/平/负	说明
传统 EA	RS/PSO/DE	0/0/16	ABOM 在所有函数上显著更好
自适应 EA	CMAES/JDE21	2~3/1~2/11~13	ABOM 总体显著更优
MetaBBO	GLEET/RLDEAFL/LES/GLHF	1~4/1~3/9~14	ABOM 无需训练任务即可匹配或超越

实际应用（无人机路径规划 - 28个问题）¶

指标	ABOM	最佳MetaBBO	最佳自适应EA
归一化代价收敛速度	最快	中等	慢
最终归一化代价	最低	中等	较高
运行时间	GPU加速，最快之一	需预训练	CPU-bound

消融实验¶

配置	BBOB \(d=500\) 排名	说明
ABOM（完整）	最优	选择+交叉+变异+自适应学习
w/o 自适应学习	显著下降	固定随机参数，退化为随机搜索
w/o 选择注意力	下降	均匀选择，类似随机重组
w/o 变异注意力	下降	独立维度变异

关键发现¶

ABOM 在 无需任何训练任务 的情况下匹配或超越需要训练任务的 MetaBBO 方法
可视化揭示选择矩阵自动学会"适者生存"模式（高适应度个体权重更高），但不总是选最优个体（保持多样性）
变异矩阵从随机初始化演化出有序结构，反映了问题特定的基因交互模式
参数对 dropout 率 \(p_C, p_M\) 较敏感，过低导致过早收敛，过高导致搜索过于随机

亮点与洞察¶

将元学习从"先训后用"变为"边用边学"是核心创新：通过让后代逼近精英档案作为监督信号，将无监督的 BBO 问题转化为在线监督学习。这个思路可迁移到其他需要在线适应的元学习场景。
注意力机制作为进化算子的类比非常自然：选择 = 个体间注意力权重，交叉 = 加权重组 + MLP 变换，变异 = 维度间自注意力。关键是 dropout 在推理时也保持启用来维持探索性。
提供了全局收敛的理论保证，尽管在实际中收敛速度取决于问题结构。

局限与展望¶

计算复杂度为 \(O(d^3)\)（\(d\) 为搜索空间维度），对超高维问题（\(d > 1000\)）不实用
精英档案逼近损失可能导致种群多样性丧失——没有显式的多样性保持机制
仅在 BBOB 合成函数和 UAV 路径规划上验证，缺少更多实际应用场景
与传统自适应 EA（如 CMA-ES）在某些函数上仍有差距

评分¶

新颖性: ⭐⭐⭐⭐ 将进化算子完全参数化为可微注意力模块的思路新颖
实验充分度: ⭐⭐⭐⭐ BBOB 三个维度 + UAV应用 + 消融 + 可视化
写作质量: ⭐⭐⭐⭐ 从 MetaBBO 到 ABOM 的推导清晰
价值: ⭐⭐⭐⭐ 对元黑盒优化领域有重要贡献