ICLR 2026 优化/理论 Bayesian Optimization Entropy Search Local Optimization Descent Sequence Gaussian Process Mutual Information

Local Entropy Search over Descent Sequences for Bayesian Optimization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=cPxmLZmFa7
代码: https://github.com/Data-Science-in-Mechanical-Engineering/local-entropy-search
领域: 贝叶斯优化 / 概率方法 / 信息论采集函数
关键词: Bayesian Optimization, Entropy Search, Local Optimization, Descent Sequence, Gaussian Process, Mutual Information

一句话总结¶

把熵搜索（entropy search）的"信息增益"目标从全局最优点改成迭代优化器（如梯度下降）能从初始点走到的局部最优，通过把 GP 后验"喂"进优化器得到一族"下降序列"分布，每步选择让该分布信息增益最大的查询点，从而在高维高复杂度黑盒优化上更省样本。

研究背景与动机¶

领域现状：贝叶斯优化（BO）是昂贵黑盒函数的主流方法，但经典 BO 以最小化相对全局最优的 regret 为目标，需要在整个定义域上削减不确定性；而梯度下降、拟牛顿、进化算法这类局部迭代优化器在高维复杂问题（如训练上亿参数网络）上恰恰是 state-of-the-art，只是因为样本效率低无法直接用于昂贵黑盒。

现有痛点：一边是"全局 BO 在高维上不可行"，一边是"局部优化在高维上很有效但不能直接用于黑盒"，二者存在明显张力。已有的局部 BO 大多走两条路——信赖域（TuRBO）或线搜索（GIBO 用 GP 学梯度 $\nabla f$ 来定方向和步长），但它们对"迭代下降的整条轨迹结构"只做了局部利用：GIBO 只看当前点的梯度一步，信赖域只是限制查询范围，都没有把"优化器从初始点会走出怎样一条序列、终点落在哪"作为信息论上的显式目标。

核心矛盾：熵搜索框架（ES/PES/MES/JES）天然适合"用信息增益指导采样"，但它们全都瞄准全局最优的位置或函数值，从未有人把这套信息论机器对准"一个具体优化器可达的局部最优"。

本文目标：提出第一个局部版熵搜索，显式以"从初始设计 $x_0$ 出发、由任意迭代优化器 $\mathcal{O}$ 生成的下降序列及其终点（局部最优）"为信息论目标，在昂贵黑盒设定下用尽量少的样本逼近这个可达解。

核心 idea：【把优化器变成随机变量】 用 GP 后验 $p(f|D_t)$ 表示对目标的信念，把这个分布通过优化器 $\mathcal{O}$ 传播（push-forward），就得到一个"下降序列"上的概率分布 $Q_{x_0}$；然后选下一个查询点 $x$ 去最大化 $(x,y(x))$ 与 $Q_{x_0}$ 的互信息——序列搞清楚了，局部最优 $x^*$ 自然也就清楚了。

方法详解¶

整体框架¶

LES 把"全局最优"换成"下降序列"，整套流程是一个围绕 GP 代理的主动学习循环：拟合 GP → 从 GP 后验抽 $L$ 条样本路径 → 对每条样本路径从当前最优 $\hat{x}^*_t$ 跑优化器 $\mathcal{O}$ 得到一条下降序列 → 用"预测熵 − 条件熵"的采集函数在这些序列的候选点上挑出信息增益最大的点去评估 → 更新 GP，并用一个概率停止规则判断是否已收敛到局部最优。

flowchart TD
    A[数据 D_t] --> B[拟合 GP 代理 f]
    B --> C[识别当前最优 x*_t]
    B --> D["抽 L 条后验样本路径 f^l (Wilson 2020)"]
    D --> E["对每条 f^l 从 x*_t 跑优化器 O<br/>→ 下降序列 Q^l"]
    C --> E
    E --> F["LES 采集函数:<br/>预测熵 − 平均条件熵<br/>在 L×P 候选点上取 argmax"]
    F --> G[评估黑盒得 y, 加入 D]
    E --> H["估计局部 regret r^l<br/>满足阈值则停止"]
    G --> A

关键设计¶

1. 下降序列分布 $Q_{x_0}$：把"信念"通过优化器传播成"轨迹分布"。 给定优化器 $\mathcal{O}_{x_0}(f)=(z_0=x_0,z_1,\dots)$，当 $f$ 已知时序列是确定的；但黑盒设定下 $f$ 是 GP 后验里的随机函数，于是把每条采样路径喂进优化器就得到一族随机轨迹 $Q_{x_0}=((z_0,R_0),(z_1,R_1),\dots)$，其中 $R_n$ 是优化器决定下一步所需的观测（梯度下降里 $R_n=\nabla f(z_n)$，爬山法里 $R_n=f(z_n)$）。这一步是整个范式的支点：它把"我对函数的不确定性"翻译成"我对优化器会走哪条路的不确定性"，而削减后者的熵就等于削减对局部最优 $x^*=\lim_{n\to\infty}z_n$ 的不确定性。作者特意指出，直接对终点 $x^*$ 定义随机变量 $O^*_{x_0}$ 再算互信息 $I((x,y(x));O^*_{x_0})$ 是不可解的（要把 GP 条件在"终点恰好等于某点"这种涉及整条序列的事件上），所以转而对整条序列做信息论目标才是可行路径。

2. 互信息采集函数：预测熵减去条件熵的两项之差。 LES 选点准则是最大化 $\alpha_{\text{LES}}(x)=I((x,y(x));Q_{x_0}\mid D_t)$，按熵的可加性拆成 $$\alpha_{\text{LES}}(x)=\underbrace{H[y(x)\mid D_t]}_{\text{预测熵}}-\underbrace{\mathbb{E}_f\big[H[y(x)\mid D_t,Q_{x_0}]\big]}_{\text{条件熵}}.$$ 第一项是 GP 在 $x$ 处的整体不确定性，有闭式 $H[y(x)\mid D_t]=\tfrac12\log(2\pi e\,\sigma_y^2(x\mid D_t))$；第二项问的是"如果我已经知道 $x$ 会怎样影响那些下降序列，还剩多少不确定性"。直觉上，采集函数会在远离已有观测、且与高概率下降序列对齐的点上取高值（论文 Fig.3）——既要探索又要贴着优化器真正会走的路，这正是它比 GIBO（只看一步梯度）信息利用更充分的地方。

3. Monte-Carlo + 解析熵的混合近似：让不可解的期望可算。 条件熵那项没有闭式（要把优化器 $\mathcal{O}$ 作用到整个后验分布上），于是用 $L$ 条样本做蒙特卡洛近似：先按 Wilson 2020 的 Matheron 规则高效抽 $L$ 条解析可微的后验路径 $f^l_t(\cdot)=\sum_i w^l_i\phi_i(\cdot)+\sum_j v_j k(\cdot,x_j)$，对每条跑优化器得到 $Q^l_{x_0}$，把这些"参数-观测对"当作虚拟观测加进数据集再解析算后验方差，最终采集函数变成 $$\alpha_{\text{LES}}(x)\approx\tfrac12\log(2\pi e\,\sigma_y^2(x\mid D_t))-\frac1L\sum_{l=1}^{L}\tfrac12\log\!\big(2\pi e\,\sigma_y^2(x\mid D_t\cup Q^l_{x_0})\big).$$ 解析路径的好处是可对 $x$ 求导、能直接套梯度下降，把"采样函数→跑优化器→算熵"整条链路打通。

4. 实用化近似：从无穷序列到有限候选集。 要把它做成能跑的算法还需几处工程化：（i）实践中从当前最优 $\hat{x}^*_t$ 而非固定 $x_0$ 起步；（ii）不要求优化器真正收敛，跑有限步就停；（iii）只在插值后的序列上取 $P$ 个等距支撑点做条件，避免对整条序列条件化的高成本；（iv）用函数值代替梯度观测做条件，运行时间更短而性能相近；（v）高维下采集函数非凸难优化，干脆只在 $L\times P$ 个序列候选点这个有限集合上取 argmax——因为下降序列本身已经给出了"有前景的候选"。论文还顺带把 Wilson 2024 的停止判据适配过来：用蒙特卡洛估计局部 simple regret 低于容差 $\epsilon$ 的概率，满足即停，给出局部最优性的高概率证书，且因为"到达局部最优比全局更容易"，停得比全局版更早。

实验关键数据¶

主实验：GP 样本（不同复杂度 × 维度）¶

在用对数正态长度尺度先验采样出的 GP 目标上比较各方法（中位数终值，越低越好）。Out-of-Model（MAP 估超参）下高复杂度结果：

复杂度	方法	d=5	d=10	d=20	d=30	d=50
high	LES	−2.9	−5.0	−7.2	−8.5	−7.8
high	TuRBO	−3.7	−5.0	−7.1	−8.2	−7.1
high	logEI-DSP	−3.7	−4.1	−4.0	−4.0	−4.1
high	Sobol	−2.4	−2.7	−2.8	−3.2	−3.0
medium	LES	−3.0	−4.6	−7.1	−8.6	−8.8
medium	TuRBO	−3.1	−4.9	−7.0	−7.9	−8.0

关键趋势：维度越高、问题越复杂，LES 优势越明显；全局熵搜索基线 MES 完全不竞争，全局 logEI 只在 d=10 体现渐近优势。

消融实验¶

消融维度	设置	结论
内层优化器	GD / ADAM / CMA-ES	LES-ADAM、LES-GD 视复杂度交替最佳；CMA-ES 更偏全局、利于低维
近似精度	样本数 $L$、支撑点数 $P$	$L,P$ 越大性能越好，但运行时间越长（50 维 ADAM 中等精度约 17.8 秒/迭代）
LES 范式变体	局部 Thompson 采样 / 只条件最后一点	均更差，印证"条件整条序列 + 蒙特卡洛采样"才是关键
条件观测类型	梯度 vs 函数值	用函数值更快且性能相近

关键发现¶

累计 regret 更低：局部搜索的保守探索行为让 LES 在几乎所有问题（除 d=5 且最低复杂度）上累计 regret 显著更小。
停止规则有效：局部最优比全局最优更易达到，故 LES 停得比 Wilson 2024 全局版更早。
诚实暴露弱点：在专门设计来坑局部搜索的高度多模态地形上，LES 频繁陷入局部最优、run-to-run 方差大、整体不如全局法。

亮点与洞察¶

范式转换干净利落：把熵搜索"瞄全局"改成"瞄优化器可达的局部"，是一个概念上很小、效果上很大的视角切换——承认"全局最优不可达也没必要"，转而把成熟的局部优化器当成一等公民嵌进 BO。
优化器即先验：下降序列分布 $Q_{x_0}$ 让"你信任哪个优化器"直接变成采集函数的归纳偏置，GD/ADAM/CMA-ES 可插拔，等于把"局部搜索的经验"注入信息论框架。
候选集即副产品：跑优化器拿到的 $L\times P$ 序列点既是"条件信息"又是"采集函数候选集"，巧妙绕开了高维非凸采集函数优化这个老大难。
理论闭环：附带的概率停止规则给出局部最优性高概率证书，且复用采集步的样本不增开销。

局限与展望¶

承诺即困局：一旦进入某个盆地就没有内在逃逸机制，要覆盖全空间得靠多起点、更强的 incumbent 搜索或局部/全局切换启发式（作者列为未来方向，停止规则可改触发重启）。
复杂度难先验：真实场景里很难事先判断问题复杂度，而 LES 的优势恰恰依赖"高复杂度高维"这一前提。
代理依赖：所有决策由后验样本驱动，模型一旦 misspecified 就会放大错误信念；近似互信息每步要抽样并优化后验样本，开销随维度和复杂度上升。
理论缺口：目前没有 GP-UCB 式的有限时间 regret 保证，只有局部最优性的高概率证书；范式仅限无约束单目标，多保真/约束/批量/异步留待扩展。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一个局部版熵搜索，"把 GP 后验传播过优化器得到下降序列分布并最大化其互信息"是一个干净且有原创性的范式转换。
实验充分度: ⭐⭐⭐⭐ 跨 5–50 维、四档复杂度的 GP 样本 + 合成/应用基准 + 多组消融（优化器、近似精度、观测类型、范式变体），且诚实给出失败地形；缺有限时间理论保证。
写作质量: ⭐⭐⭐⭐ 动机—范式—可解化—算法层层递进，图示（下降序列分布、采集函数热图）直观；公式与近似链路交代清楚。
价值: ⭐⭐⭐⭐ 在高维高复杂度昂贵黑盒（机器人策略搜索等）上样本效率与累计 regret 双优，保守探索特性对真实世界优化有实用吸引力。