Generative Bayesian Optimization: Generative Models as Acquisition Functions¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GBWkRRJrdu
代码: 待确认
领域: 优化 / 贝叶斯优化 / 生成模型
关键词: Bayesian Optimization, 生成模型, DPO, 黑盒优化, 批量优化, 蛋白质设计

一句话总结¶

GenBO 把生成模型直接训练成「采样密度正比于采集函数」的提议分布，借鉴 DPO 的思路用噪声效用值一步训练，无需先拟合回归/分类代理模型，从而在高维、组合、大批量黑盒优化（如蛋白质设计）中既简单又可扩展。

研究背景与动机¶

领域现状：贝叶斯优化（BO）依赖高斯过程等概率代理模型，靠后验不确定性构造采集函数（如 PI、EI），再最大化采集函数选下一个查询点。当任务允许并行评估时，可以一次提交一个 batch；而面对高维、组合或离散设计空间（蛋白质、分子），经典 BO 难以扩展。

现有痛点：一条有前景的路线是训练生成模型作为提议分布、直接采样一批候选，避开「全局优化采集函数」这个难题。但既有的生成式黑盒优化方法（CbAS、VSD、LaMBO-2）几乎都是两阶段：先拟合一个回归或分类代理（近似 $p(y\ge\tau|x)$ 或 $f$），再在其之上训练生成器。

核心矛盾：两阶段管线把两个模型的近似误差叠加在一起，还额外消耗算力——既增加了出错的来源，又抬高了成本，而代理模型本身在高维空间中往往就不准。

本文目标：提出一个单模型框架，直接从（带噪的）观测效用值训练生成模型，让其密度逼近正比于采集函数的目标分布，彻底去掉中间代理。

核心 idea：「生成模型即采集函数」——把 BO 的采集函数 $a_t(x)=\mathbb{E}[u_t(y)|x,D_t]$ 看作伪似然，目标分布 $p^*_t(x)\propto p_0(x)a_t(x)$；借 DPO 把代理消掉——像 DPO 用语言模型自身充当奖励模型那样，直接用成对偏好损失或散度损失训练生成器逼近该目标，无需显式奖励/分类模型。

方法详解¶

整体框架¶

GenBO 把 BO 重新解释为对「最优解位置 $x^*$」的直接推断：以 $p_0$ 为先验，以采集值 $a_t(x)$ 为基于效用的伪似然，目标分布 $p^*_t(x)\propto p_0(x)a_t(x)$。算法每轮先用历史数据拟合提议分布 $q_{t-1}=\arg\min_q L_{t-1}(q)$，从中采样一个 batch，评估效用后更新数据，循环 $T$ 轮。关键在于损失 $L_t$ 怎么设计——分偏好式（DPO 风格、用效用差的符号）与散度式（直接匹配 $p^*_u$、用效用幅值）两类。

flowchart LR
    D[历史数据 D_t-1] --> F[拟合提议分布 q_t-1<br/>min L_t-1 偏好/散度损失]
    F --> S[从 q_t-1 采样 batch B_t]
    S --> E[并行评估黑盒 f<br/>得到带噪 y 与效用 u_t]
    E --> U[更新 D_t]
    U --> D

关键设计¶

1. 效用即采集，密度即提议：统一的目标分布。GenBO 不再去近似 $f$，而是把任何可写成期望效用的采集函数 $a_t(x)=\mathbb{E}[u_t(y)|x,D_t]$ 直接当作训练信号。以 PI 为例，由贝叶斯公式 $a(x)=p(y\ge\tau|x)\propto p(x|y\ge\tau)/p_0(x)$，于是「学一个采样 $p(x|y\ge\tau)$ 的生成模型」与「学一个改进事件的分类器」是等价的，但生成模型能直接在高密度（高效用）区域采样，省去对非凸采集曲面的全局优化。推广到一般非负效用即得目标 $p^*_t(x)\propto p_0(x)a_t(x)$（或 $\propto p_0(x)\exp a_t(x)$ 以容纳负效用）。常用效用包括 PI $u=\mathbb{I}[y\ge\tau]$、EI $u=\max(y-\tau,0)$、平滑版 sEI $u=\mathrm{softplus}(y-\tau)$、以及均值 $u=y$。

2. 偏好式损失（PL / 鲁棒 rPL）：把 DPO 搬进 BO。一般分类损失里的配分函数无法像 DPO 那样消掉，因此需要成对对比目标。把数据组织成成对样本 $(x_{i,1},x_{i,2})$ 及其效用 $u_{i,j}=u(y_{i,j})$，用 Bradley-Terry 偏好损失训练： $$\ell^{PL}_i(q)=-\log\sigma\!\Big(\eta\,\mathrm{sign}(\Delta u_i)\big[\log\tfrac{q(x_{i,1})}{p_0(x_{i,1})}-\log\tfrac{q(x_{i,2})}{p_0(x_{i,2})}\big]\Big)$$ 其中 $\Delta u_i=u_{i,1}-u_{i,2}$。这恰好让生成模型逼近 $p^*_u(x)\propto p_0(x)\exp(\tfrac1\eta\mathbb{E}[u(y)|x])$，全程不需要奖励模型。由于 BO 只能观测带噪 $y$，效用差的符号会以概率 $p_\mathrm{flip}$ 翻转，原始 DPO 损失在此有偏；GenBO 采用 Chowdhury 等人的鲁棒版本，对正负方向损失加权 $\ell^{rPL}_i=\frac{(1-p_\mathrm{flip})\ell^{PL}(q,\Delta u_i)-p_\mathrm{flip}\ell^{PL}(q,-\Delta u_i)}{1-2p_\mathrm{flip}}$，在温和假设下无偏且对观测噪声鲁棒。

3. 散度式损失（前向 KL / 平衡前向 KL）：用上效用幅值。偏好损失只看符号、丢掉了效用大小，散度式则让 $q$ 直接匹配 $p^*_u\propto p_0(x)a(x)$。由于没有 $p^*_u$ 的样本，用当前提议 $q_{t-1}$ 的样本做自适应重要性采样，得无偏目标 $\ell^{fKL}_i(q)=-\tfrac{p_0(x_i)}{q_{i-1}(x_i)}u(y_i)\log q(x_i)$，其全局最优可证收敛到 $p^*_u$。但 PI/EI 在 $y<\tau$ 处效用为 0、不惩罚低效用区，模型可能在差区域留高密度；为此从 Bregman 散度（凸函数 $u\log u$）导出平衡前向 KL，额外加一项软惩罚 $\ell^{bfKL}_i(q)=-\tfrac{p_0(x_i)}{q_{i-1}(x_i)}u(y_i)\log q(x_i)+\tfrac{q(x_i)}{q_{i-1}(x_i)}$，在长序列高维任务中收益最明显。实践中往往丢掉重要性权重 $1/q_{i-1}$ 以促进向最优点的后验集中（reward-weighted regression 的单调效用提升保证）。

4. 收敛性保证：逼近目标且趋向最优。理论分析假设模型对数密度 $g_\theta$ 落在与真值 $g^*$ 共享的 RKHS 中，损失对第一参数严格凸、正则强凸。Lemma 1 给出损失的强凸性与唯一极小；Theorem 1 表明最优参数的逼近误差像核方法一样集中，其中 $\|m\|_{H_n^{-1}}$ 项对应 GP 式的预测方差、在密度有下界时趋零。再借 reward-weighted regression 的结果（训练提议最大化 $\mathbb{E}[u(y)\log q(x)]$ 产生单调递增的期望效用），说明提议会逐步集中到 $f$ 的全局最优区域，简单遗憾可消失。

实验关键数据¶

主实验表格¶

评测指标为简单遗憾 $r_t=f(x^*)-\max_{i\le n_t}f(x_i)$ 与累积最大值，5 个随机种子。

任务	设置	GenBO 表现	主要对手
ALOHA 文本优化	5 字母，$\lvert\mathcal{X}\rvert>1.18\times10^7$，$D_0{=}64,B{=}8,T{=}10$	rPL+EI 最快改进，PI 末段达到精确最优	VSD 后期亦可，CbAS 因仅用末批数据落后
Ehrlich 蛋白（闭式）	$M{=}15/32/64$，$D_0{=}128,B{=}128,T{=}32$	KL 类损失最佳，长序列下 bfKL+指数正则优势明显	匹配/超过 VSD、CbAS、LaMBO-2、随机
FoldX 稳定性	mRouge 蛋白 $M{=}228$，$D_0{=}88,B{=}64,T{=}20$	GenBO 较吃力	VSD/CbAS 更好（低多样性纯利用占优）
FoldX SASA	同上	多数 GenBO 变体大幅且更快领先	优于全部基线，无信息先验更利于外推

消融实验表格¶

消融维度	关键发现
阈值 $\tau_t$ 退火	任务偏好更激进利用（终值分位 >90%）；GenBO 对退火方案不敏感，VSD 需更陡升至 >95%
先验 $p_0$	ALOHA 与 SASA 上无信息先验 $p_0\propto1$ 反而最好，说明利于外推
batch size $B$	单调改善，尤其 $B\ge32$ 大批量收益显著
运行时间	GenBO 因省去中间代理，平均比 VSD 快约 3 倍
多样性	稳定性任务低多样性（纯利用）更好；SASA 任务高多样性（探索）更好

关键发现¶

去代理 = 又快又准：单模型不仅减少近似误差，运行时间约为 VSD 的 1/3。
损失各有所长：偏好式（rPL）对噪声鲁棒、文本任务收敛快；散度式（KL/bfKL）用上效用幅值，在高维长序列蛋白任务上更强。
先验需慎选：可注入专家知识，但在偏外推的任务上无信息先验反而最佳，说明先验设错会拖累。
平衡 KL 的密度惩罚在高维更关键：长序列（$M=64$）下，bfKL 对低效用区的软惩罚能避免模型在差区域堆密度，收益随维度上升而放大。
大批量是优势而非负担：batch size 越大表现单调越好，与「生成式提议天然适合一次产大批候选」的设计初衷一致。

亮点与洞察¶

「生成模型即采集函数」的统一视角：把 BO 的采集函数当伪似然、生成模型当提议分布，给一大类生成式黑盒优化方法（CbAS/VSD/LaMBO-2）提供了统一解释。
DPO 跨界：首次系统地把 DPO 的「自身即奖励模型」重参数化搬进 BO，去掉中间代理且带来 Bradley-Terry 的理论保证，并用鲁棒版本应对 BO 固有的观测噪声。
generic 而非 diffusion-specific：与 LaMBO-2 等绑定扩散的方法不同，框架对任意有密度的生成模型通用，并预留了 proper scoring rule 推广到扩散/流匹配的接口。

局限与展望¶

先验与超参敏感：部分变体需在优化前固定先验 $p_0$；效用函数与温度 $\eta$ 的设置影响明显，相关理论尚待深入。
采集策略受限：当前框架要求采集函数能写成期望效用，无法直接覆盖 Thompson 采样、UCB 等非期望效用形式。
遗憾界不完整：理论证到目标分布收敛与简单遗憾消失，但次线性累积遗憾所需的速率控制留作未来工作。
稳定性任务偏弱：在 FoldX 稳定性这类纯利用占优的任务上，GenBO 不及 VSD/CbAS，说明探索-利用平衡仍需调。

评分¶

新颖性: ⭐⭐⭐⭐ — 「生成模型即采集函数」+ DPO 去代理的视角统一且新颖，理论与实践结合扎实。
实验充分度: ⭐⭐⭐⭐ — 覆盖文本、闭式蛋白、真实 FoldX 三类任务，含退火/先验/batch/时间多维消融；但仅蛋白与文本域，缺连续/混合空间的更广验证。
写作质量: ⭐⭐⭐⭐ — 从 DPO 到 BO 的推导清晰，损失家族层次分明；理论部分较密集，工程细节多放附录。
价值: ⭐⭐⭐⭐ — 单模型、快 3 倍、可扩展到大批量高维组合优化，对蛋白/分子设计等实际场景有直接吸引力。

任务	设置	GenBO 表现	主要对手
ALOHA 文本优化	5 字母，\(\lvert\mathcal{X}\rvert>1.18\times10^7\)，\(D_0{=}64,B{=}8,T{=}10\)	rPL+EI 最快改进，PI 末段达到精确最优	VSD 后期亦可，CbAS 因仅用末批数据落后
Ehrlich 蛋白（闭式）	\(M{=}15/32/64\)，\(D_0{=}128,B{=}128,T{=}32\)	KL 类损失最佳，长序列下 bfKL+指数正则优势明显	匹配/超过 VSD、CbAS、LaMBO-2、随机
FoldX 稳定性	mRouge 蛋白 \(M{=}228\)，\(D_0{=}88,B{=}64,T{=}20\)	GenBO 较吃力	VSD/CbAS 更好（低多样性纯利用占优）
FoldX SASA	同上	多数 GenBO 变体大幅且更快领先	优于全部基线，无信息先验更利于外推

消融维度	关键发现
阈值 \(\tau_t\) 退火	任务偏好更激进利用（终值分位 >90%）；GenBO 对退火方案不敏感，VSD 需更陡升至 >95%
先验 \(p_0\)	ALOHA 与 SASA 上无信息先验 \(p_0\propto1\) 反而最好，说明利于外推
batch size \(B\)	单调改善，尤其 \(B\ge32\) 大批量收益显著
运行时间	GenBO 因省去中间代理，平均比 VSD 快约 3 倍
多样性	稳定性任务低多样性（纯利用）更好；SASA 任务高多样性（探索）更好