跳转至

Generative Bayesian Optimization: Generative Models as Acquisition Functions

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GBWkRRJrdu
代码: 待确认
领域: 优化 / 贝叶斯优化 / 生成模型
关键词: Bayesian Optimization, 生成模型, DPO, 黑盒优化, 批量优化, 蛋白质设计

一句话总结

GenBO 把生成模型直接训练成「采样密度正比于采集函数」的提议分布,借鉴 DPO 的思路用噪声效用值一步训练,无需先拟合回归/分类代理模型,从而在高维、组合、大批量黑盒优化(如蛋白质设计)中既简单又可扩展。

研究背景与动机

领域现状:贝叶斯优化(BO)依赖高斯过程等概率代理模型,靠后验不确定性构造采集函数(如 PI、EI),再最大化采集函数选下一个查询点。当任务允许并行评估时,可以一次提交一个 batch;而面对高维、组合或离散设计空间(蛋白质、分子),经典 BO 难以扩展。

现有痛点:一条有前景的路线是训练生成模型作为提议分布、直接采样一批候选,避开「全局优化采集函数」这个难题。但既有的生成式黑盒优化方法(CbAS、VSD、LaMBO-2)几乎都是两阶段:先拟合一个回归或分类代理(近似 \(p(y\ge\tau|x)\)\(f\)),再在其之上训练生成器。

核心矛盾:两阶段管线把两个模型的近似误差叠加在一起,还额外消耗算力——既增加了出错的来源,又抬高了成本,而代理模型本身在高维空间中往往就不准。

本文目标:提出一个单模型框架,直接从(带噪的)观测效用值训练生成模型,让其密度逼近正比于采集函数的目标分布,彻底去掉中间代理。

核心 idea「生成模型即采集函数」——把 BO 的采集函数 \(a_t(x)=\mathbb{E}[u_t(y)|x,D_t]\) 看作伪似然,目标分布 \(p^*_t(x)\propto p_0(x)a_t(x)\)借 DPO 把代理消掉——像 DPO 用语言模型自身充当奖励模型那样,直接用成对偏好损失或散度损失训练生成器逼近该目标,无需显式奖励/分类模型。

方法详解

整体框架

GenBO 把 BO 重新解释为对「最优解位置 \(x^*\)」的直接推断:以 \(p_0\) 为先验,以采集值 \(a_t(x)\) 为基于效用的伪似然,目标分布 \(p^*_t(x)\propto p_0(x)a_t(x)\)。算法每轮先用历史数据拟合提议分布 \(q_{t-1}=\arg\min_q L_{t-1}(q)\),从中采样一个 batch,评估效用后更新数据,循环 \(T\) 轮。关键在于损失 \(L_t\) 怎么设计——分偏好式(DPO 风格、用效用差的符号)与散度式(直接匹配 \(p^*_u\)、用效用幅值)两类。

flowchart LR
    D[历史数据 D_t-1] --> F[拟合提议分布 q_t-1<br/>min L_t-1 偏好/散度损失]
    F --> S[从 q_t-1 采样 batch B_t]
    S --> E[并行评估黑盒 f<br/>得到带噪 y 与效用 u_t]
    E --> U[更新 D_t]
    U --> D

关键设计

1. 效用即采集,密度即提议:统一的目标分布。GenBO 不再去近似 \(f\),而是把任何可写成期望效用的采集函数 \(a_t(x)=\mathbb{E}[u_t(y)|x,D_t]\) 直接当作训练信号。以 PI 为例,由贝叶斯公式 \(a(x)=p(y\ge\tau|x)\propto p(x|y\ge\tau)/p_0(x)\),于是「学一个采样 \(p(x|y\ge\tau)\) 的生成模型」与「学一个改进事件的分类器」是等价的,但生成模型能直接在高密度(高效用)区域采样,省去对非凸采集曲面的全局优化。推广到一般非负效用即得目标 \(p^*_t(x)\propto p_0(x)a_t(x)\)(或 \(\propto p_0(x)\exp a_t(x)\) 以容纳负效用)。常用效用包括 PI \(u=\mathbb{I}[y\ge\tau]\)、EI \(u=\max(y-\tau,0)\)、平滑版 sEI \(u=\mathrm{softplus}(y-\tau)\)、以及均值 \(u=y\)

2. 偏好式损失(PL / 鲁棒 rPL):把 DPO 搬进 BO。一般分类损失里的配分函数无法像 DPO 那样消掉,因此需要成对对比目标。把数据组织成成对样本 \((x_{i,1},x_{i,2})\) 及其效用 \(u_{i,j}=u(y_{i,j})\),用 Bradley-Terry 偏好损失训练: $\(\ell^{PL}_i(q)=-\log\sigma\!\Big(\eta\,\mathrm{sign}(\Delta u_i)\big[\log\tfrac{q(x_{i,1})}{p_0(x_{i,1})}-\log\tfrac{q(x_{i,2})}{p_0(x_{i,2})}\big]\Big)\)$ 其中 \(\Delta u_i=u_{i,1}-u_{i,2}\)。这恰好让生成模型逼近 \(p^*_u(x)\propto p_0(x)\exp(\tfrac1\eta\mathbb{E}[u(y)|x])\),全程不需要奖励模型。由于 BO 只能观测带噪 \(y\),效用差的符号会以概率 \(p_\mathrm{flip}\) 翻转,原始 DPO 损失在此有偏;GenBO 采用 Chowdhury 等人的鲁棒版本,对正负方向损失加权 \(\ell^{rPL}_i=\frac{(1-p_\mathrm{flip})\ell^{PL}(q,\Delta u_i)-p_\mathrm{flip}\ell^{PL}(q,-\Delta u_i)}{1-2p_\mathrm{flip}}\),在温和假设下无偏且对观测噪声鲁棒。

3. 散度式损失(前向 KL / 平衡前向 KL):用上效用幅值。偏好损失只看符号、丢掉了效用大小,散度式则让 \(q\) 直接匹配 \(p^*_u\propto p_0(x)a(x)\)。由于没有 \(p^*_u\) 的样本,用当前提议 \(q_{t-1}\) 的样本做自适应重要性采样,得无偏目标 \(\ell^{fKL}_i(q)=-\tfrac{p_0(x_i)}{q_{i-1}(x_i)}u(y_i)\log q(x_i)\),其全局最优可证收敛到 \(p^*_u\)。但 PI/EI 在 \(y<\tau\) 处效用为 0、不惩罚低效用区,模型可能在差区域留高密度;为此从 Bregman 散度(凸函数 \(u\log u\))导出平衡前向 KL,额外加一项软惩罚 \(\ell^{bfKL}_i(q)=-\tfrac{p_0(x_i)}{q_{i-1}(x_i)}u(y_i)\log q(x_i)+\tfrac{q(x_i)}{q_{i-1}(x_i)}\),在长序列高维任务中收益最明显。实践中往往丢掉重要性权重 \(1/q_{i-1}\) 以促进向最优点的后验集中(reward-weighted regression 的单调效用提升保证)。

4. 收敛性保证:逼近目标且趋向最优。理论分析假设模型对数密度 \(g_\theta\) 落在与真值 \(g^*\) 共享的 RKHS 中,损失对第一参数严格凸、正则强凸。Lemma 1 给出损失的强凸性与唯一极小;Theorem 1 表明最优参数的逼近误差像核方法一样集中,其中 \(\|m\|_{H_n^{-1}}\) 项对应 GP 式的预测方差、在密度有下界时趋零。再借 reward-weighted regression 的结果(训练提议最大化 \(\mathbb{E}[u(y)\log q(x)]\) 产生单调递增的期望效用),说明提议会逐步集中到 \(f\) 的全局最优区域,简单遗憾可消失。

实验关键数据

主实验表格

评测指标为简单遗憾 \(r_t=f(x^*)-\max_{i\le n_t}f(x_i)\) 与累积最大值,5 个随机种子。

任务 设置 GenBO 表现 主要对手
ALOHA 文本优化 5 字母,\(\lvert\mathcal{X}\rvert>1.18\times10^7\)\(D_0{=}64,B{=}8,T{=}10\) rPL+EI 最快改进,PI 末段达到精确最优 VSD 后期亦可,CbAS 因仅用末批数据落后
Ehrlich 蛋白(闭式) \(M{=}15/32/64\)\(D_0{=}128,B{=}128,T{=}32\) KL 类损失最佳,长序列下 bfKL+指数正则优势明显 匹配/超过 VSD、CbAS、LaMBO-2、随机
FoldX 稳定性 mRouge 蛋白 \(M{=}228\)\(D_0{=}88,B{=}64,T{=}20\) GenBO 较吃力 VSD/CbAS 更好(低多样性纯利用占优)
FoldX SASA 同上 多数 GenBO 变体大幅且更快领先 优于全部基线,无信息先验更利于外推

消融实验表格

消融维度 关键发现
阈值 \(\tau_t\) 退火 任务偏好更激进利用(终值分位 >90%);GenBO 对退火方案不敏感,VSD 需更陡升至 >95%
先验 \(p_0\) ALOHA 与 SASA 上无信息先验 \(p_0\propto1\) 反而最好,说明利于外推
batch size \(B\) 单调改善,尤其 \(B\ge32\) 大批量收益显著
运行时间 GenBO 因省去中间代理,平均比 VSD 快约 3 倍
多样性 稳定性任务低多样性(纯利用)更好;SASA 任务高多样性(探索)更好

关键发现

  • 去代理 = 又快又准:单模型不仅减少近似误差,运行时间约为 VSD 的 1/3。
  • 损失各有所长:偏好式(rPL)对噪声鲁棒、文本任务收敛快;散度式(KL/bfKL)用上效用幅值,在高维长序列蛋白任务上更强。
  • 先验需慎选:可注入专家知识,但在偏外推的任务上无信息先验反而最佳,说明先验设错会拖累。
  • 平衡 KL 的密度惩罚在高维更关键:长序列(\(M=64\))下,bfKL 对低效用区的软惩罚能避免模型在差区域堆密度,收益随维度上升而放大。
  • 大批量是优势而非负担:batch size 越大表现单调越好,与「生成式提议天然适合一次产大批候选」的设计初衷一致。

亮点与洞察

  • 「生成模型即采集函数」的统一视角:把 BO 的采集函数当伪似然、生成模型当提议分布,给一大类生成式黑盒优化方法(CbAS/VSD/LaMBO-2)提供了统一解释。
  • DPO 跨界:首次系统地把 DPO 的「自身即奖励模型」重参数化搬进 BO,去掉中间代理且带来 Bradley-Terry 的理论保证,并用鲁棒版本应对 BO 固有的观测噪声。
  • generic 而非 diffusion-specific:与 LaMBO-2 等绑定扩散的方法不同,框架对任意有密度的生成模型通用,并预留了 proper scoring rule 推广到扩散/流匹配的接口。

局限与展望

  • 先验与超参敏感:部分变体需在优化前固定先验 \(p_0\);效用函数与温度 \(\eta\) 的设置影响明显,相关理论尚待深入。
  • 采集策略受限:当前框架要求采集函数能写成期望效用,无法直接覆盖 Thompson 采样、UCB 等非期望效用形式。
  • 遗憾界不完整:理论证到目标分布收敛与简单遗憾消失,但次线性累积遗憾所需的速率控制留作未来工作。
  • 稳定性任务偏弱:在 FoldX 稳定性这类纯利用占优的任务上,GenBO 不及 VSD/CbAS,说明探索-利用平衡仍需调。

相关工作与启发

  • 隐空间 BO(LSBO,LaMBO-2 等):在学到的低维流形上做 BO,受限于隐空间固定导致的样本效率差、重构误差;GenBO 全程在观测空间推断,规避这些问题。
  • 扩散用于 BBO:靠回归代理导出的效用引导扩散过程,方法绑定扩散;GenBO 面向任意生成模型。
  • LLM + BO:用 LLM 注入先验或自适应选采集函数;最相关的是用 LLM 偏好建模做蛋白工程的 reward-model-free 方法,但其依赖通用 LLM,而 GenBO 面向无语言接口的任务专用生成优化。
  • 启发:把「对齐」领域成熟的 DPO/偏好优化工具迁移到决策与优化问题,是一条值得继续挖掘的跨界路径——凡是「想让采样密度正比于某个评分」的场景都可能套用这套单模型配方。

评分

  • 新颖性: ⭐⭐⭐⭐ — 「生成模型即采集函数」+ DPO 去代理的视角统一且新颖,理论与实践结合扎实。
  • 实验充分度: ⭐⭐⭐⭐ — 覆盖文本、闭式蛋白、真实 FoldX 三类任务,含退火/先验/batch/时间多维消融;但仅蛋白与文本域,缺连续/混合空间的更广验证。
  • 写作质量: ⭐⭐⭐⭐ — 从 DPO 到 BO 的推导清晰,损失家族层次分明;理论部分较密集,工程细节多放附录。
  • 价值: ⭐⭐⭐⭐ — 单模型、快 3 倍、可扩展到大批量高维组合优化,对蛋白/分子设计等实际场景有直接吸引力。