Unleashing LLMs in Bayesian Optimization: Preference-Guided Framework for Scientific Discovery¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=LktUOZayG9
代码: 暂未公开
领域: 贝叶斯优化 / 科学发现
关键词: 贝叶斯优化, 大语言模型偏好, 区域提升, 科学实验优化, 湿实验

一句话总结¶

LGBO 把 LLM 对“哪里更值得试”的语义偏好持续转成 GP 代理模型的可控均值偏移，让 Bayesian optimization 在科学发现任务中既能借用领域知识加速冷启动，又不把最终选点权交给可能不稳定的 LLM。

研究背景与动机¶

领域现状：科学发现里的许多优化任务本质上都是昂贵黑盒优化：一次实验可能意味着合成材料、测量电池电解液、打印结构或跑色谱流程，成本高、反馈慢、真实目标函数不可解析。Bayesian optimization 因此常被用在自驱实验室和 AI for Science 场景中，用 GP 等代理模型估计目标函数，再通过 EI、UCB 或 qEI 这类采集函数选择下一次实验，在探索未知区域和利用高均值区域之间折中。

现有痛点：标准 BO 的一个老问题是冷启动慢。刚开始只有很少实验点时，GP 后验基本靠核函数外推，高维空间里尤其容易把预算浪费在没有物理意义的区域。LLM 看起来能补上这块，因为它可能从文献、化学常识、材料经验或任务描述里推断哪些区域更有希望；但已有 LLM+BO 方法通常只是让 LLM 做初始化，或者让 LLM 生成候选点后再交给 acquisition 过滤。这样 LLM 的作用要么只发生在最开始，要么只是候选生成器，真正的优化闭环仍然由标准 BO 主导。

核心矛盾：LLM 的知识很有用，但它的输出又粗糙、噪声大、可能随轮次漂移。若直接让 LLM 修改 acquisition function 或直接决定下一点，BO 的统计结构会被破坏；若只让 LLM 提几个候选点，它的偏好又会被 GP 和采集函数轻易覆盖。本文要解决的矛盾就是：如何把 LLM 的语义偏好嵌进 BO 的每一轮，同时保持 GP 后验和 acquisition 决策的稳定性。

本文目标：作者把问题拆成三步：第一，让 LLM 以点或区域的形式表达粗粒度偏好，而不是要求它给精确函数值；第二，把这种偏好转成一个数学上可处理的 GP prior/posterior 变换；第三，在每一轮 BO 中反复更新 LLM 偏好，使它随实验历史演化，而不是一次性 warm start。

切入角度：论文的关键观察是，LLM 更擅长说“高温低压附近可能更好”“某类配方比例更值得探索”这种区域级建议，而不是判断两个具体点的函数值谁大。于是作者不把 LLM 偏好写成点对比较，而是把它提升成对一个区域内函数值整体偏高的偏好，并利用 Gaussian measure 的指数线性 tilting 性质，把这件事等价为 GP 均值函数的平移。

核心 idea：用“区域提升偏好”把 LLM 的点/区域建议转成 GP 代理模型的均值偏移，让 LLM 在每轮 BO 中持续提供语义方向，而最终选点仍由标准采集函数完成。

方法详解¶

整体框架¶

LGBO 的输入是一个科学优化任务、已观测实验历史和参数约束，输出是下一轮要执行的实验点。它沿用标准 BO 的 GP 代理模型和采集函数，但在每一轮额外询问 LLM：根据背景知识、约束、历史结果和上一轮 reasoning，下一步更应该偏向哪个点或哪个区域；随后把这个建议转成区域提升项，平移 GP 的均值，再用 qEI 等 acquisition 在更新后的代理模型上选点。

这套框架最重要的边界是：LLM 不直接控制实验点。LLM 只提供偏好方向，偏好以可校准的均值偏移进入代理模型；不确定性、采集函数和真实实验反馈仍然维持 BO 的闭环结构。因此当 LLM 有知识时，搜索会更快靠近有希望区域；当 LLM 偏好较弱或错误时，模型仍能依靠 GP uncertainty 和 acquisition 的探索机制纠偏。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["科学优化任务<br/>约束与历史实验"] --> B["语义 warm start<br/>给出初始点"]
    B --> C["区域提升偏好<br/>点/区域 + 置信度"]
    C --> D["均值偏移的 GP 代理<br/>协方差保持不变"]
    D --> E["采集函数闭环<br/>选择下一实验"]
    E --> F["真实实验反馈<br/>更新历史"]
    F --> C

关键设计¶

1. 区域提升偏好：把 LLM 的粗粒度建议变成 GP 可处理的先验信号

这篇论文没有把 LLM 当成精确预测器，因为在科学优化里，LLM 很难可靠地说某个具体配方的目标值是多少。作者让 LLM 只输出两种受控格式：point mode 是一个点加置信度，region mode 是一个超矩形区域加置信度。对区域模式，系统在区域 \(R \subseteq X\) 中构造 Sobol grid \(G=\{x_g\}_{g=1}^G\)，再用非负权重 \(a_g\) 表示区域内各网格点的重要性；对点模式，则把权重设计成围绕该点平滑衰减的邻域平均。

偏好函数写成指数线性提升：\(\rho(f)=\exp(\lambda a^\top F_G)\)，其中 \(F_G=[f(x_1),\ldots,f(x_G)]^\top\)。这相当于鼓励被 LLM 指出的区域整体函数值更高，而不是硬性假设该区域一定包含最优点。这个设计很关键：它保留了 LLM “这个方向可能好”的软信息，也避免了 argmax 型偏好带来的不可处理后验。

2. 均值偏移：只移动 GP 的均值，不破坏不确定性结构

区域提升看起来像是在重写后验，但作者证明，对于 GP 而言，指数线性 lift 可以精确等价为均值函数平移，协方差核保持不变。若原始过程是 \(f\sim GP(\mu,k)\)，那么提升后的均值为 \(\mu_\lambda(x)=\mu(x)+\lambda\sum_{g=1}^{G}a_g k(x,x_g)\)，有限查询集上对应 \(F_X\sim N(\mu_X+\lambda\Sigma_{XG}a,\Sigma_{XX})\)。

这给 LGBO 带来一个很实用的接口：LLM 偏好不是另起炉灶的规则，也不是 acquisition 上的 ad-hoc 加分项，而是直接变成 GP surrogate mean 的一项 kernel-induced bump。靠近 LLM 偏好区域、且与核函数相关性高的点会被抬高均值；远离该区域的点影响较弱；协方差不变意味着探索项仍按数据和核结构计算，不会因为 LLM 说了某句话就虚假降低不确定性。

3. 置信度校准：用 posterior variance 控制 LLM 偏好的力度

如果 LLM 的偏好强度固定，很容易出现两个问题：在已知区域过度推高均值，导致过早 exploitation；或者在高不确定区域推力太小，无法帮助冷启动。作者用 LLM 输出的置信度 \(c\in[0,1]\) 来定义 \(\lambda\)，并按区域函数量 \(a^\top F_G\) 的后验方差归一化：\(\lambda = c / \sqrt{a^\top \Sigma_{GG} a}\)。

这个公式的直觉是把提升量校准到“\(c\) 个标准差”的尺度。若某个区域已经被数据了解得比较充分，\(a^\top \Sigma_{GG}a\) 小，实际新增偏移不会无脑放大；若某个区域还很不确定，偏好可以更明显地影响均值，引导 acquisition 去试有科学理由但数据尚少的区域。这样 LLM 的 confidence 不再是随口给的分数，而是被映射成和 GP 不确定性同量纲的偏移强度。

4. 采集函数闭环：持续用 LLM 更新方向，但让 BO 保留最终决策权

LGBO 每一轮都会重新训练 GP、总结实验历史，并把动态历史和上一轮 reasoning 一起喂给 LLM。LLM 产出点或区域后，系统把它转成 region-lifted preference，再在均值平移后的 surrogate 上运行 qEI 等采集函数。真实实验执行后，观测值加入数据集，下一轮再重复这个过程。

这个闭环和 LLAMBO 类方法的差别在于，LLM 不只是第一轮 warm start，也不只是每轮丢一批候选点。它的偏好被连续嵌入代理模型，但 acquisition function 仍然负责在偏好、均值和不确定性之间做最终折中。论文的理论分析也围绕这个设计展开：在固定 lift 的简化情形下，若偏好与目标函数对齐，有效 RKHS 半径会缩小，regret bound 更紧；若偏好误导，半径只增加一个与 lift 大小相关的常数项，最坏情形仍与标准 GP-UCB 同阶。

一个完整示例¶

假设要优化 Fe-Cr 氧化还原液流电池电解液，参数包括 HCl、Fe、Cr 和添加剂浓度，目标是综合考虑黏度、导电性和实际应用优先级的加权标量。标准 BO 在前几轮只有极少测量点时，GP 可能只看到某些离散浓度组合的结果，很难知道该往哪个化学区域试。

在 LGBO 中，LLM 会先根据电化学背景判断：过高金属离子浓度可能提高导电性但也会增加黏度，酸度和 Fe/Cr 比例会影响离子稳定性和反应动力学。它可以输出一个区域，例如 Fe 和 Cr 落在某个中高浓度范围、添加剂保持在较窄区间，并给出置信度。系统不会直接采这个区域中心点，而是在该区域内建网格，把区域偏好转成 GP 均值 bump。随后 qEI 会在“LLM 认为有化学意义的方向”和“GP 仍然不确定的地方”之间做选择。

几轮之后，如果真实实验发现某个浓度组合表现更好，LLM 的下一轮 reasoning 会看到最新历史，但 prompt 又要求它优先依据机理而非盲目贴近历史最优点。这样它可以收缩区域，也可以在机理上合理时偏离当前 best point。论文湿实验中，LGBO 在第 6 轮左右就达到已观测最佳值的 90%，而 GPBO 和已有 LLM 增强 BO 基线需要超过 10 轮，说明这种“软偏好 + acquisition 决策”的分工在实验预算稀缺时很有价值。

损失函数 / 训练策略¶

本文不是训练一个新的神经网络模型，因此没有传统意义上的 supervised loss。训练/优化策略主要是 BO 循环中的 GP 后验更新和 acquisition maximization：所有方法使用 Matérn-5/2 kernel 的 GP surrogate，GP 超参数每轮通过 marginal likelihood 重新优化，采集函数采用 log-qEI。

理论部分把 LGBO 的动态偏好简化为 fixed lift 分析。设 LLM 给出的区域偏好对应 \(g(x)=\sum_i a_i k(x,x_i)\)，提升项为 \(\tau(x)=\lambda g(x)\)，则可以在 residual label \(y'_t=y_t-\tau(x_t)\) 上运行 GP-UCB。若原目标满足 \(\|f-\mu\|_{H_k}\le B_0\)，误导偏好下保守半径是 \(B_{out}=B_0+\lambda\|g\|_{H_k}\)；对齐偏好下有效半径可写成 \(B_{in}=B_0\sqrt{1-c^2}\)，其中 \(c\) 衡量偏好方向和目标函数的 RKHS 对齐程度。这个结论不是完整刻画每轮自适应 LLM 的全部行为，但说明了 region-lifted preference 这个核心机制为什么能“坏时不至于太坏，好时明显加速”。

实验关键数据¶

主实验¶

论文用 dry benchmark 和 wet-lab 两类实验验证 LGBO。dry benchmark 来自已有科学数据集，可以离线查询 oracle 或插值 oracle；wet-lab 是真实 Fe-Cr 电解液实验，目标未知且有实验噪声，更接近实际自驱科学发现场景。需要注意，正文图多以曲线和热图呈现，论文没有为所有任务给出逐轮精确数值表，下面表格保留作者明确描述的相对结论和可读出的关键比较。

场景	任务 / 指标	对比方法	LGBO 结果	主要结论
Dry	LNP3 脂质纳米颗粒，多目标归一化求和	GPBO, LLAMBO	更快收敛，最终 objective 更高，跨 seed 更稳定	GPBO 冷启动慢，LLAMBO 早期有帮助但较快 plateau
Dry	HPLC 色谱 peak area	GPBO, LLAMBO	噪声较大但最终表现最高	在高噪声过程优化中仍能维持较窄优势
Dry	Cross-barrel 结构 toughness	GPBO, LLAMBO	达到最佳 toughness	低维任务中 GPBO 已较强，但 LGBO 仍更好地围绕高性能区域探索
Dry	Concrete compressive strength	GPBO, LLAMBO	后期超过两类 baseline	LLM warm start 初期有利，连续偏好帮助逃离局部最优
Wet	Fe-Cr 电池电解液综合目标	GPBO, LLAMBO	约第 6 轮达到已观测最佳值的 90%	标准 BO 和已有 LLM 增强基线需要超过 10 轮
Extended	COF Xe/Kr selectivity，14 维	GPBO, LLAMBO, ColaLLM, BOPRO, CAKE	最高或接近最高，COF 上最佳	高维科学搜索中 region-lifted preference 仍有扩展性

扩展实验还加入 ColaLLM、BOPRO 和 CAKE 等 LLM-BO 方法。作者在 Cross-barrel、LNP3、HPLC、Concrete 和 14 维 COF 上都观察到 LGBO 最高或接近最高，尤其在前 10 轮的样本效率和最终稳定性上更突出。COF 任务用 14 个孔结构、文本性质和元素组成特征优化 Xe/Kr selectivity，是论文中用来说明高维可扩展性的关键补充。

消融实验¶

配置	关键指标	说明
LGBO full	HPLC 上收敛更快、最终 peak area 更高	同时使用 LLM warm start 和每轮 region-lifted preference
Sobol 初始化的 LGBO	仍优于 GPBO 和随机 lift	去掉 LLM warm start 后，连续偏好仍贡献明显
Random region lifting BO	早期收敛慢，需要更多轮探索	说明提升机制本身不够，区域必须含有有效语义信息
不同 LLM backbone	大模型和科学预训练模型稳定性更强	Intern-S1 科学模型表现稳；Qwen3 Thinking 变体最终值可高但收敛更慢
LLAMBO	有相同 LLM 初始点但不持续嵌入偏好	说明提升不只是来自初始化，而是来自每轮持续偏好注入

关键发现¶

LGBO 的核心收益来自“连续偏好嵌入”，不是只靠 LLM 给初始点；LLAMBO 和 LGBO 共享 LLM-suggested 初始化，但后者在多任务上明显更快。
随机区域提升不能复现 LGBO 的优势，甚至会拖慢早期收敛，说明 region lift 必须由有信息的语义偏好驱动。
在 Fe-Cr 湿实验中，LGBO 用约 6 轮达到 90% 已观测最佳值，这个结果比 dry benchmark 更有说服力，因为它不能依赖公开 benchmark 的记忆。
在 HPLC 这类高噪声任务上，所有方法曲线都会波动，但 LGBO 仍保持较高最终性能，说明偏好以均值偏移方式进入 surrogate 比直接让 LLM 选点更稳。
COF 14 维扩展任务显示，方法不只适用于低维 toy optimization，也能应对更高维材料筛选问题。

亮点与洞察¶

把 LLM 输出限制为点/区域 + 置信度是很克制但有效的设计。它承认 LLM 不擅长给精确数值，却善于提供“哪个方向更有科学意义”的先验。
区域提升偏好和 GP 均值偏移之间的等价关系是本文最漂亮的地方。它让一个看似启发式的 LLM 偏好模块落到了标准 GP 结构里，避免了另写一套不稳定的 acquisition bonus。
置信度归一化把 LLM confidence 和 GP posterior variance 接到一起。这个细节让偏好强度随不确定性变化，而不是固定推力，降低了过早 exploitation 的风险。
框架保留 acquisition function 的最终控制权，适合科学发现这类“知识有用但不能盲信”的场景。LLM 可以把搜索推向更合理区域，但 BO 仍然负责基于数据和不确定性做实验选择。
这套思路可以迁移到其他 expensive black-box optimization：药物配方、材料组成、反应条件、机器人实验参数，甚至工程仿真调参，只要 LLM 能给出可审计的区域级先验，就有机会用类似 lift 机制嵌入代理模型。

局限与展望¶

理论分析采用 fixed lift 简化，而真实 LGBO 每轮都会根据历史自适应更新 LLM 偏好。这个证明能解释核心机制，但还不能完整覆盖动态、非平稳、可能自相矛盾的 LLM 序列。
实验主要和 GPBO、LLAMBO 以及若干 LLM-BO 方法比较，尚缺少与更多高维 BO、trust-region BO、multi-fidelity BO 或约束 BO 方法的系统对照。
LLM prompt 设计对方法效果可能很敏感。论文给出模块化 prompt 和 anti-collapse 规则，但没有深入量化不同 prompt、不同 evidence hierarchy、不同 confidence calibration 对结果的影响。
当前框架假设 LLM 能输出合法点或超矩形区域。对于复杂离散结构、图结构分子、组合设计空间，region lift 的定义和 Sobol 网格离散可能需要重新设计。
Wet-lab 只有 Fe-Cr 电解液一个真实任务，虽然很有价值，但还不足以说明所有实验科学领域都能稳定受益。后续最好在多种真实闭环实验上验证，包括失败偏好、测量漂移和安全约束场景。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 区域级 LLM 偏好到 GP 均值偏移的连接很清晰，比“LLM 生成候选点”更深入地嵌入 BO。
实验充分度: ⭐⭐⭐⭐ 覆盖 dry benchmark、扩展高维 COF 和一个 wet-lab 任务，但真实湿实验数量仍偏少。
写作质量: ⭐⭐⭐⭐ 方法叙述和理论动机清楚，图表多为曲线形式，部分实验缺少精确数值表导致复述时不够方便。
价值: ⭐⭐⭐⭐⭐ 对 AI for Science 的实验优化很有实用潜力，尤其适合预算少、但可利用领域知识的科学发现流程。