Online Black-Box Prompt Optimization with Regret Guarantees under Noisy Feedback¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=7MzaG8dHRv
代码: https://github.com/fangjj2000/ICLR_AOZPT_2026
领域: 零阶优化 / 在线学习 / 黑盒提示优化
关键词: 黑盒提示调优, 零阶优化, 在线学习, 局部 regret, 不确定性尺度

一句话总结¶

本文提出 AOZPT，首个把黑盒提示优化放进在线学习 + 含噪反馈场景的零阶方法：用一个自适应不确定性尺度调整机制压住「生成模型输出噪声 + 零阶梯度高方差」这两类不确定性，并在非凸设定下证明可达到亚线性 regret，在文本和图像生成任务上比离线/在线基线更稳更好。

研究背景与动机¶

领域现状：当只能通过 API 调用商用生成模型、拿不到内部表示和梯度时，调优只能落在输入侧的「黑盒提示优化」上。主流做法（BBT、RLPrompt、BDPL、ZOPO 等）几乎都是离线的：在一个固定数据集上反复评估、用贝叶斯优化 / 进化算法 / 强化学习把提示优化到收敛。

现有痛点：离线范式有两个硬伤。其一，它假设数据分布静止，无法适应实时变化的数据流——客服、电商推荐、情感陪伴这类系统每来一批新交互就得在全量数据上重训，代价高且响应慢。其二，它普遍忽略生成模型输出的随机性：即便参数和输入都固定，采样温度、随机种子也会让同一个提示得到不同输出，这种随机性在优化视角下就是噪声，会污染对提示好坏的评估。

核心矛盾：要做在线，就得用「来一个样本更新一次」的轻量梯度方法；但提示是离散自然语言、没有可微梯度，只能用零阶优化（ZOO）靠有限次函数评估去近似梯度，而零阶估计本身方差极高。于是问题叠加成「生成噪声 + 零阶方差」两重不确定性，直接套用现成的贝叶斯 / 进化方法（需要频繁更新代理模型或评估大量样本）在在线流式场景下不可行。

本文目标：在流式数据上做黑盒提示优化，要求 (1) 每轮只用当前样本增量更新、不重训；(2) 抑制两重不确定性让更新稳定；(3) 给出可证明的 regret 保证。

切入角度：把零阶优化和在线非凸学习缝在一起——用滑动窗口的局部 regret（local regret）作为在线非凸的评价标准，再借鉴 Adam 类自适应优化的「动量 + 自适应分母」思想，但把它重新设计成专门压制不确定性的尺度调整项。

核心 idea：用一个自适应不确定性尺度调整机制，把历史含噪零阶梯度的指数加权均值（动量）除以其平方的指数加权均值（自适应项），在每个维度上自动缩放梯度幅度，从而同时吃掉生成噪声和零阶方差，并证明这样能换来亚线性 regret。

方法详解¶

整体框架¶

AOZPT 在每一轮 \(t\) 处理一个流式样本 \(\xi_t=(x_t,y_t)\)，目标是优化提示 \(\phi\) 使损失 \(f^t(\phi^t)=\ell(G(\phi^t;x_t),y_t)\) 最小（\(G\) 是黑盒生成模型）。由于 \(\phi\) 是离散文本无法求导，整条管线绕道「软提示」来做：维护一个低维连续向量 \(z_t\in\mathbb{R}^d\)（软提示），经随机投影矩阵 \(A\) 升维后喂给一个冻结的开源 LLM \(F\)，由 \(F\) 生成语义化的离散硬提示 \(\phi_t=F(Az_t+\phi_0;\xi_t)\)；硬提示再送进黑盒生成模型 \(G\) 拿到损失。优化只发生在低维软提示 \(z_t\) 上：用含噪两点零阶估计器近似梯度，再过一道自适应不确定性尺度调整后更新 \(z_t\)，形成闭环。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["流式样本 ξₜ=(xₜ,yₜ)"] --> B["软提示 zₜ"]
    B --> C["ICL 提示生成器<br/>随机投影 A + 冻结开源 LLM F<br/>软提示→硬提示 φₜ"]
    C --> D["黑盒生成模型 G<br/>得损失 ℓ(G(φₜ),yₜ)"]
    D --> E["含噪零阶梯度估计<br/>两点中心扰动"]
    E --> F["自适应不确定性尺度调整<br/>动量 mₜ / 自适应项 √vₜ"]
    F -->|更新软提示 zₜ₊₁| B

关键设计¶

1. ICL 提示生成器：把离散提示优化偷换成连续软提示优化

痛点很直接——提示 \(\phi\) 是自然语言，含大量离散结构，梯度类方法根本无从下手。本文复用 InstructZero 的思路：不去直接优化离散硬提示，而是优化一个低维连续软提示 \(z_t\in\mathbb{R}^d\)，再让一个冻结的开源 LLM 把它「翻译」成高质量硬提示。具体地，用随机投影矩阵 \(A\in\mathbb{R}^{D\times d}\)（\(D\gg d\)）把 \(z_t\) 投到 LLM 的高维 embedding 空间，与基础提示拼接后输入 \(F\) 生成 \(\phi_t=F(Az_t+\phi_0;\xi_t)\)。这一步的价值在于两点：把不可微的离散优化转成可做零阶估计的低维连续优化（\(d\) 远小于 \(D\)，零阶方差随维度增长，低维很关键），同时借开源 LLM 的语言理解能力保证生成的硬提示语义通顺，而不是乱码式扰动。

2. 含噪零阶梯度估计：在没有梯度的黑盒上用两点扰动近似方向导数

软提示连续了，但 \(G\) 仍是黑盒、且输出带随机性。本文把生成模型的随机性显式建模为 \(\delta(z_t)\)，带噪目标记作 \(f^t_\delta(z_t)=f^t(z_t)+\delta(z_t)\)。对软提示 \(z\) 用两点中心随机梯度估计：

\[\hat\nabla_z f^t_\delta(z_t)=\frac{f^t_\delta(z_t+\mu u_t)-f^t_\delta(z_t-\mu u_t)}{2\mu}\,u_t,\]

其中 \(\mu\) 是平滑参数，\(u_t\) 从单位球面 \(S^d=\{u\in\mathbb{R}^d:\|u\|_2=1\}\) 采样。每轮只需把 \(z_t\pm\mu u_t\) 分别走一遍「LLM 生成硬提示 → \(G\) 出损失」即可，契合在线「一样本一更新」的预算。但正因为只用两次评估、且评估本身被 \(\delta\) 污染，这个估计是含噪且高方差的，单独用它更新会抖得很厉害——这正是下一个设计要解决的。

3. 自适应不确定性尺度调整：用滑动窗口的动量/自适应项同时压噪声与方差

这是全文的核心机制。它借 Adam 的「一阶动量 / 二阶自适应」骨架，但改造成在滑动窗口上、专门对付不确定性的版本。更新式为

\[z_{t+1}\leftarrow z_t-\eta\cdot\frac{m_t}{\sqrt{v_t}+\epsilon},\]

其中动量项 \(m_t=\frac{1}{W}\sum_{i=0}^{w-1}\alpha^i\,\hat\nabla_z f^{t-i}_\delta(z_{t-i})\) 是最近 \(w\) 步含噪零阶梯度的指数加权均值，让更新方向更平滑稳定；自适应项 \(v_t=\frac{1}{M}\sum_{i=0}^{w-1}\beta^i\,[\hat\nabla_z f^{t-i}_\delta(z_{t-i})]^2\) 是历史梯度平方的指数加权均值（\(0<\alpha,\beta<1\)，\(W,M\) 为归一化常数）。把 \(v_t\) 放进分母，等于按各维度梯度的历史能量逐维缩放步长：某个方向噪声/方差大、平方累积高，就自动收小步长，反之放大。这样「生成噪声」和「零阶方差」两类不确定性都被压进同一个尺度因子里，而不是靠固定学习率硬扛。与普通 Adam 的区别在于它用有限滑动窗口而非全历史累积，既贴合在线场景的非平稳性，又是后面 regret 证明里能把窗口长度 \(w\) 当旋钮来控误差的关键。

损失函数 / 训练策略¶

理论保证用滑动窗口局部 regret 衡量在线非凸优化质量。指数加权滑窗平均函数为 \(F^t_{w,\alpha}(z_t)=\frac{1}{W}\sum_{i=0}^{w-1}\alpha^i f^{t-i}(z_{t-i})\)，局部 regret 定义为其梯度范数的累积：

\[R(T)\triangleq\sum_{t=1}^{T}\big\|\nabla_z F^t_{w,\alpha}(z_t)\big\|_2^2.\]

在 Lipschitz 梯度、\(f\)/噪声/梯度有界等假设下，论文用两条引理分别界定含噪零阶梯度的范数（Lemma 4.7）和它与真实梯度的偏差（Lemma 4.8），最终（Theorem 4.9）把 regret 拆成三项 \(R(T)\le E_1+E_2+E_3\)：\(E_1\) 是标准一阶梯度误差，\(E_2\) 是零阶方差与生成噪声的累积项（可由窗口长度 \(w\) 调控），\(E_3\) 是自适应算法的常见项。整理后得

\[R(T)=O\!\left(\frac{T}{W}+\frac{T M^{1/2}}{W}\right),\]

并指出当 \(\alpha,\beta\to1^-\)、\(\beta\le\alpha\le\beta^{1/2}\) 且 \(w=T^{1/2}\) 时，该界可压成关于 \(T\) 亚线性——即平均 regret 随时间趋于零，给出了在线黑盒提示优化首个带噪声的收敛性证明。

实验关键数据¶

任务覆盖文本生成（CNN/DailyMail 摘要用 F1、GSM8K 数学用准确率）和图文生成（Anime / Painting 用美学评分 Aesthetic Score Predictor，基于 CLIP embedding）。软提示由 Vicuna-7B/13B 生成；下游黑盒模型包括 Llama-3.1-8B、GPT-3.5-turbo、Qwen2.5-14B（文本）与 Dreamlike-2.0、Stable Diffusion v1.5（图像），每组 3 个随机种子。主对比对象 ZO-OGD 是去掉自适应机制的在线零阶基线，另有 MP / ICL / BDPL / RLPrompt / SFT / Promptist 等改自离线设定的经典基线。

主实验¶

任务 / 数据集	模型	指标	AOZPT	ZO-OGD	最强经典基线
摘要 CNN/DailyMail	Qwen2.5-14B	F1	24.767	22.034	23.064 (ICL)
数学 GSM8K	Llama-3.1-8B	Acc	69.733	65.067	66.867 (RLPrompt)
数学 GSM8K	Qwen2.5-14B	Acc	92.933	92.533	89.000 (BDPL)
图像 Anime	SD v1.5	美学	5.930	5.892	5.710 (ICL)
图像 Painting	SD v1.5	美学	6.313	6.287	6.103 (SFT)

AOZPT 在多数「数据集×模型」组合下取得最佳，且稳定超过 ZO-OGD，直接验证自适应不确定性尺度调整带来的增益。注意横向比较需谨慎：不同模型/任务难度不可直接比大小，GPT-3.5-turbo 上 GSM8K 经典基线 MP（69.2）反而高于若干方法，说明黑盒提示优化的收益与底座模型强相关。

消融实验¶

配置	作用	说明
Full（AOZPT）	完整	软提示 + 含噪零阶 + 自适应尺度
w/o 自适应尺度调整	退化为 ZO-OGD	主表中 ZO-OGD 普遍低于 AOZPT，验证该机制是稳定性来源
w/o 开源 LLM 生成	去 ICL 生成器	Table 10 显示开源 LLM 对生成高质量硬提示必要
数据漂移强度 (10/50/75/150)	鲁棒性	Table 6 中在线算法在各漂移水平下美学评分更高
vs 其他自适应梯度算法	机制对比	Table 12 比较本文尺度调整与常见自适应优化器

关键发现¶

贡献最大的模块是自适应不确定性尺度调整：去掉它（即 ZO-OGD）在几乎所有设置上掉点，且方差（标准差）更大，印证它主要买的是「稳定性」而非单纯峰值性能。
开源 LLM 生成器不可省：直接优化离散提示或去掉语义生成会显著降质，说明软提示→硬提示的语言化是有效性前提。
在线优势在数据漂移下最明显：分布越非平稳，在线增量更新相对离线重训的收益越大，呼应动机里客服/陪伴/教育等实时场景。

亮点与洞察¶

把 Adam 重新解释成「不确定性压制器」：同样是动量/自适应分母，本文不再把它当通用加速器，而是论证 \(\sqrt{v_t}\) 分母恰好按维度吸收零阶方差与生成噪声，并把窗口长度 \(w\) 变成 regret 界里可调的误差旋钮——这个「机制↔理论」的对应很巧。
首个给在线黑盒提示优化带噪声 regret 保证：以往黑盒提示工作几乎只报实验，本文在非凸 + 含噪 + 零阶三重困难下给出亚线性界，理论上把「为什么这个尺度调整有效」讲清楚了。
低维软提示是零阶可行的隐藏前提：零阶方差随维度爆炸，借随机投影把优化压到低维 \(d\) 才让两点估计在在线预算内可用，这个迁移技巧可用到其他黑盒 API 调优场景。

局限与展望¶

依赖一个本地开源 LLM 做生成器：软提示→硬提示要额外跑 Vicuna-7B/13B，部署上并非纯 API 轻量，且生成质量受这个开源模型上限约束。
「噪声」建模较粗：把生成随机性统一抽象成有界 \(\delta(z)\)，真实场景中温度、采样策略、对抗扰动带来的噪声结构各异，有界假设是否处处成立存疑（⚠️ 以原文假设为准）。
在线场景为模拟流式数据：实验用固定数据集切成流来近似在线，真实非平稳分布/概念漂移下的表现仍待更贴近生产的验证；提升幅度在强底座（如 Qwen2.5-14B）上较小，收益空间受底座挤压。
改进方向：自适应调整 \(\mu\)、\(w\)、\(\alpha/\beta\) 而非固定超参；探索多点/方差缩减零阶估计进一步压方差；把噪声建模做成分布感知而非简单有界。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把黑盒提示优化做成在线 + 含噪并给出 regret 保证，机制与理论结合扎实
实验充分度: ⭐⭐⭐⭐ 覆盖文本/图像多任务多模型 + 数据漂移消融，但在线为模拟流式、强底座增益偏小
写作质量: ⭐⭐⭐⭐ 动机—机制—理论链条清晰，理论部分符号略密
价值: ⭐⭐⭐⭐ 为实时、黑盒、分布漂移场景的提示优化提供可证明的稳定方案