Combinatorial Bandit Bayesian Optimization for Tensor Outputs¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=BgX4s1d2d0
代码: 待确认
领域: 贝叶斯优化 / 组合多臂老虎机 / 高斯过程 / 张量学习 / 学习理论
关键词: 张量输出、贝叶斯优化、组合老虎机、张量高斯过程、regret 界

一句话总结¶

针对"输出是一整块多模态张量"的昂贵黑箱系统，本文提出张量输出贝叶斯优化框架 TOBO（用一种能捕捉跨模态相关性的张量高斯过程 TOGP 当代理模型 + UCB 采样），并进一步把它扩展到"只有张量中一部分元素计入目标"的组合老虎机贝叶斯优化（CBBO）设定，设计 CMAB-UCB2 准则联合选输入点和子集，两者都给出了 \(\tilde{O}(\sqrt{T})\) 的次线性 regret 证明。

研究背景与动机¶

领域现状：贝叶斯优化（Bayesian Optimization, BO）是优化"昂贵、黑箱、求一次值代价很高"目标函数的主流手段，广泛用于超参搜索、实验设计、机器人控制。它的标准套路是：用已观测数据拟合一个高斯过程（GP）代理模型，再优化一个采集函数（acquisition function，如 UCB）在"探索"和"利用"间权衡，逐步挑下一个查询点。绝大多数 BO 处理标量输出，近年也被扩展到多输出（multi-output BO, MOBO）。

现有痛点：但据作者所知，没有任何工作处理过张量值输出——即系统对一个输入 \(x\) 的响应是一整块 \(m\) 模态张量 \(f(x)\in\mathbb{R}^{t_1\times\cdots\times t_m}\)。最直接的办法是把张量拉直（vectorize）成向量再套 MOBO，但拉直会抹掉张量天然的跨模态结构相关性（mode-wise dependency），而这种相关在时空过程等复杂系统里恰恰至关重要。

核心矛盾：已有的张量输出 GP（HOGP）为了算得动，普遍采用可分离（separable）协方差——联合协方差被写成输入核与各模态核的 Kronecker 乘积。可分离的代价是：它假设"跨模态的相关结构不随输入变化"，这个假设在复杂系统里经常被违背，导致预测精度差、后验推断数值不稳，最终 BO 表现退化。

本文目标：(1) 造一个既灵活、又可扩展、还能捕捉"输入相关（input-dependent）的张量内相关"的 GP 代理；(2) 为张量输出 BO 设计采集函数和序贯查询策略并给出 regret 保证；(3) 进一步处理更实际的设定——只有张量里 \(k<T\) 个元素真正计入目标，需要联合选"查询点 + 元素子集"。

切入角度：把"线性共区域化模型"（Linear Model of Coregionalization, LMC）从向量值输出推广到张量值输出，用一组基核的混合让跨元素相关性可以随输入变化，从而摆脱可分离假设；把"只选部分元素"自然建模成组合多臂老虎机（CMAB）——每个张量元素是一个 base arm，每轮选一个大小为 \(k\) 的 super-arm。

核心 idea：用"LMC 张量核 + UCB"做张量输出 BO（TOBO），再把"GP 代理 + 组合老虎机 UCB"耦合成 CMAB-UCB2 解决子集选择（TOCBBO），并对两者都证出次线性 regret。

方法详解¶

整体框架¶

把问题分两层。第一层是 TOBO（张量输出 BO）：目标函数 \(f:\mathcal{X}\to\mathcal{Y}\) 输入 \(x\in\mathcal{X}\subset\mathbb{R}^d\)、输出是 \(m\) 模态张量。因为没法直接最大化一整块张量，先用一个有界线性算子 \(\mathcal{L}_f\) 把张量标量化，求

\[x^\star=\arg\max_{x\in\mathcal{X}}\mathcal{L}_f f(x).\]

TOBO 的循环是经典 BO 三步：用张量输出高斯过程（TOGP）拟合 \(f\) → 算后验均值/方差 → 用 UCB 采集函数挑下一个 \(x_{n+1}\) → 观测带噪输出 \(y_i=f(x_i)+\varepsilon_i\) → 回到第一步。

第二层是 TOCBBO（组合老虎机 BO）：现在只有张量里 \(k\) 个元素计入目标，用二值指示向量 \(\lambda\in\{0,1\}^T,\ \mathbf{1}^\top\lambda=k\) 表示选哪些（等价于选一个大小 \(k\) 的 super-arm \(S\)），目标变成联合优化

\[(x^\star,\lambda^\star)=\arg\max_{x\in\mathcal{X},\lambda\in\Lambda}\mathcal{H}_f\,\tilde f(x,\lambda),\quad \tilde f(x,\lambda)=e(\lambda)\,\mathrm{vec}(f(x)).\]

直接在 \(x\) 和 \(\lambda\) 上联合搜索不可行（从 \(T\) 个元素里选 \(k\) 个有 \(\binom{T}{k}\) 种），所以用 CMAB-UCB2 把它解耦成两步：先固定当前最优 super-arm 选 \(x\)，再固定 \(x\) 用组合老虎机 UCB 选 \(\lambda\)。下面四个关键设计依次撑起这两层。

关键设计¶

1. LMC 张量输出核：让跨元素相关随输入变化，摆脱可分离假设

这是全文地基，针对的就是"可分离协方差假设跨模态相关不随输入变"这个痛点。作者把向量值的 LMC 推广到张量：令 \(\mathrm{vec}(f(x))=\sum_{\ell=1}^{m}\sum_{j=1}^{r_\ell} a_{\ell j}\,u_{\ell j}(x)\)，其中 loading 向量 \(a_{\ell j}=\mathrm{vec}(A_{\ell j})\) 由张量 core \(A_{\ell j}\in\mathbb{R}^{t_1\times\cdots\times t_m}\) 参数化，\(\{u_{\ell j}\}\) 是一组独立的标量 GP、协方差为基核 \(k_{\ell j}(x,x')\)。由此得到非可分离核（Definition 1）：

\[K(x,x')=\sum_{l=1}^{m}\sum_{j=1}^{t_l}\mathrm{vec}(A_l)\,\mathrm{vec}(A_l)^\top k_{lj}(x,x').\]

关键在于：跨元素相关由一组基核 \(\{k_{lj}\}\) 的混合支配，所以相关结构能随输入 \(x\) 变化——这正是可分离核做不到的。当所有分量共享同一个基核、卷积退化时，它就坍缩回可分离核（Definition 2）\(K(x,x')=\mathrm{vec}(A)\,\mathrm{vec}(A)^\top k(x,x')\)。作者证明（Proposition 1）两类核都对称半正定，因此 TOGP 先验良定义。这套构造比已有张量核更一般：已有张量核可被看成"某种低秩张量分解诱导的特例"，而本文用共区域化结构能编码更广的张量约束。为控参数量，core 张量可再加 CP / Tensor-Train 低秩分解；为应对大 \(nT\)，用 Nyström 低秩近似把 \((K_n+\eta I_{nT})^{-1}\) 的求逆降到 \(O(nTn_\ell^2+n_\ell^3)\)。

2. TOGP 代理 + UCB 采集：把张量后验不确定性接进序贯查询

有了核就能写出 TOGP 后验。给 \(n\) 个观测，新点 \(x\) 处 \(\mathrm{vec}(f(x))\) 的后验仍是高斯，均值

\[\hat\mu_n(x)=\mu+K_n^\top(x)(K_n+\eta I_{nT})^{-1}(Y_n-\mathbf{1}_n\otimes\mu),\]

协方差 \(\hat K_n(x,x)=\sigma^2[K(x,x)-K_n^\top(x)(K_n+\eta I_{nT})^{-1}K_n(x)]\)。超参用极大似然估计。采集函数把标量化目标 \(\mathcal{L}_f\) 套到后验上：

\[\alpha_{\text{UCB}}(x\mid\mathcal{D}_n)=\mathcal{L}_f\hat\mu_n(x)+\beta_n\,\hat K_n(x,x)^{1/2},\]

下一个查询点 \(x_{n+1}=\arg\max_x\alpha_{\text{UCB}}\)。这一步的价值在于：\(\hat K_n(x,x)\) 是张量后验的整体不确定性，UCB 因此会朝"张量预测最不确定的方向"探索，而不是逐元素独立地看不确定性——这正好把设计 1 捕捉到的跨元素相关用上了。

3. 部分观测 TOGP（PTOGP）：让 GP 能在"只看到 k 个元素"时仍做后验

进入 CBBO 后，每轮只观测 super-arm \(S_i\) 对应的 \(k\) 个元素，其余未观测。直接用 TOGP 不行，因为它假设整块张量都看得到。作者用二值选择矩阵 \(e(\lambda)\in\{0,1\}^{k\times T}\) 把 TOGP 投影到被选子集上，得到部分观测 TOGP：先验 \(\tilde f(x,\lambda)\sim\mathcal{PTOGP}(e(\lambda)\mu,\ \tau^2 e(\lambda)K(x,x')e(\lambda')^\top)\)。对新 pair \((x,\lambda)\) 的后验仍是 \(\mathbb{R}^k\) 上高斯，均值

\[\tilde\mu_n(x,\lambda)=e(\lambda)\mu+\sigma^2 e(\lambda)K_n^\top(x)E_n^\top\tilde\Sigma_n^{-1}(\mathrm{vec}(\tilde Y_n)-E_n(\mathbf 1_n\otimes\mu)),\]

其中 \(E_n\) 是按各轮 super-arm 拼出的块对角选择矩阵、\(\tilde\Sigma_n=\sigma^2 E_nK_nE_n^\top+\tau^2 I_{nk}\)。关键意义：因为协方差核（设计 1）本身编码了跨元素相关，已观测的 \(k\) 个元素能反过来推断未观测元素的后验，这让"在没全看到的情况下评估任意候选 super-arm"成为可能——CMAB-UCB2 第二步正靠它。

4. CMAB-UCB2：把"联合选输入+子集"解耦成两步序贯 UCB

直接在连续 \(x\) 和组合 \(\lambda\) 上联合优化是 \(\binom{T}{k}\) 级组合爆炸。CMAB-UCB2 把它拆开：第 \(n+1\) 轮，先取目前最优 pair \((x_n^\star,\lambda_n^\star)\)，固定 super-arm 为 \(\lambda_n^\star\) 选输入

\[x_{n+1}=\arg\max_{x\in\mathcal{X}}\mathcal{H}_f\tilde\mu_n(x,\lambda_n^\star)+\tilde\beta_n\|\tilde K_n(x,x;\lambda_n^\star,\lambda_n^\star)\|^{1/2};\]

再固定 \(x_{n+1}\) 选 super-arm，给每个候选 super-arm 建 UCB 并取最大

\[\lambda_{n+1}=\arg\max_{\lambda\in\Lambda}\mathcal{H}_f\tilde\mu_n(x_{n+1},\lambda)+\tilde\rho_n\|\tilde K_n(x_{n+1},x_{n+1};\lambda,\lambda)\|^{1/2}.\]

两步都是 UCB 形式，但作用对象不同：第一步是连续输入空间的 BO，第二步是离散子集空间的组合老虎机。这种解耦把不可解的联合搜索降成两个可解子问题，且和已有 BBO（如 CoCaBO 把每个类别变量当独立老虎机）本质不同——本文是联合选多个可能相关的 arm组成 super-arm，而非逐变量独立选。

损失函数 / 训练策略¶

没有可训练网络，"训练"指 TOGP/PTOGP 的超参 \(\Theta=\{\theta,a,\sigma^2,\tau^2\}\) 用极大似然估计；core 张量的秩用交叉验证按 MAE 选（\(r^\star=\arg\min_r \mathrm{MAE}(r)\)）。理论侧给出两条 regret 保证：在 \(f\) 服从 TOGP 先验、标量化算子 Lipschitz 的假设下，TOBO（Theorem 1）以高概率满足

\[R_N\le L\sqrt{C_1 N\gamma_N(K,\eta)}\,\beta_N+\tfrac{\pi^2}{6},\]

其中 \(\gamma_N\) 是最大信息增益；TOCBBO（Theorem 2）的 regret 多出 super-arm 选择那一项 \(\sqrt{C_4 TN\tilde\gamma_N}\,\tilde\rho_N\)。结合可分离核下 \(\gamma_n=O(T(\log n)^{d+1})\)（高斯核），两者都达到 \(O(\sqrt{T\log T})\) 的次线性 regret——这是首个针对张量值输出的贝叶斯 regret 分析。

实验关键数据¶

评测分合成数据和真实案例两块，统一对比把张量拉直 + MOGP 当代理的基线：sMTGP、MLGP、MVGP，每个再配 UCB / 随机两种采样；并用"TOGP + 随机采样"（TOGP-RS）做消融。

主实验：合成数据预测与优化¶

三种合成设置（不同模态数 \(m\)、不同张量尺寸），CBBO 任务取 \(k=T/6\)。先看代理模型的预测精度（NLL / MAE，越低越好）：

设置	指标	TOGP（本文）	sMTGP	MLGP	MVGP
(1)	NLL	503.0	749.4	707937.1	11152.2
(1)	MAE	0.1571	0.1684	0.9428	0.6746
(2)	NLL	-18.1	-5.0	7066.9	46.54
(3)	MAE	0.1372	0.1501	1.1670	1.0000

TOGP 在三种设置都拿到最低 NLL / MAE。MLGP 最差（其拟合协方差在该配置下退化为奇异）；sMTGP 因为还建模了张量各模态、好于完全忽略张量结构的 MVGP。

再看优化性能（\(\text{MSE}_x\) / \(\text{MAE}_y\) 越低越好，Acc 是 CBBO 选对子集的准确率）：

任务	方法	设置(1) MSE\(_x\)	设置(1) Acc	设置(3) MSE\(_x\)	设置(3) Acc
BO	TOBO	0.0000	–	0.0001	–
BO	sMTGP-UCB	0.0001	–	0.0048	–
CBBO	TOCBBO	0.0023	1.00	0.0021	1.00
CBBO	sMTGP-UCB	0.1832	0.67	0.0075	0.86
CBBO	MVGP-UCB	0.0032	1.00	0.0151	0.71

TOBO / TOCBBO 在三种设置都拿最小 \(\text{MSE}_x\)、\(\text{MAE}_y\)，且 TOCBBO 的子集选择准确率在三种设置都达到 1.00。逐轮 log 瞬时 regret 曲线（Figure 1）显示 TOBO / TOCBBO 始终最低，和理论上 UCB 比随机采样更优一致。

消融实验¶

配置	说明	现象
TOBO / TOCBBO（Full）	TOGP + UCB	各设置最优
TOGP-RS	TOGP + 随机采样（去掉 UCB）	\(\text{MSE}_x\) 明显变差，如设置(1) BO 从 0.0000 升到 0.0893
sMTGP-UCB / MVGP-UCB	换掉 TOGP 代理	预测与优化均退化，印证 TOGP 核的作用

两条消融轴说明：UCB 采集（vs 随机）和 TOGP 代理（vs 拉直 MOGP）各自都有贡献，且二者的优劣排序在预测表和优化表之间一致。

关键发现¶

TOGP 代理是性能根因：去掉它（换 sMTGP/MVGP）后预测和优化同步退化；UCB 与随机采样的差距说明采集函数同样不可省。
可分离 vs 非可分离按需选：作者在设置 (1)(2) 用可分离核、设置 (3) 用非可分离核来平衡灵活性与算力，说明非可分离核虽更强但有计算代价。
真实数据同样成立：在 REEN 数据集上 TOGP 取得最优 NLL（15.67 vs sMTGP 33.32 / MLGP 88.27 / MVGP 48.72）与 MAE（0.0883 最低），四个真实案例（CHEM / MAT / PRINT / REEN）上 TOBO / TOCBBO 的优化曲线都领先。

亮点与洞察¶

把 LMC 从向量推广到张量是最漂亮的一步：用 core 张量 + 基核混合，一举既保留张量结构、又让跨元素相关随输入变化，还能把已有可分离张量核统一成自己的特例。
PTOGP 让"部分观测也能推全张量"：因为核里编码了跨元素相关，已看到的 \(k\) 个元素能反推没看到的元素后验——这是组合老虎机那一步能评估任意候选 super-arm 的前提，设计上环环相扣。
CMAB-UCB2 的解耦很务实：把 \(\binom{T}{k}\times\) 连续空间的不可解联合优化拆成"先选点、再选子集"两个 UCB 子问题，既绕开组合爆炸又保住了 regret 证明。
首个张量输出 BO 的 regret 分析：理论上把 BO 的 \(O(\sqrt{T})\) 经典结论延伸到张量值输出和组合老虎机设定，填了一块此前空白；"先证可分离核下信息增益 \(\gamma_n\) 的阶、再代回 regret 模板"的思路可迁移到其他结构化输出。

局限与展望¶

可分离 vs 非可分离的取舍靠人工：非可分离核更灵活但更贵，文中按设置手动选用哪种，缺少自动判定机制。
组合规模仍受限：CMAB-UCB2 第二步要对候选 super-arm 建 UCB，当 \(T\)、\(k\) 很大时枚举/搜索候选集合的代价仍可能成为瓶颈，文中实验 \(k=T/6\) 且张量尺寸不大。
实验规模偏小：合成与真实数据的张量维度都不算高（如 REEN 为 \(10\times2\)），更高阶、更大模态张量上的可扩展性（Nyström 近似之外）有待检验。
依赖 GP 先验假设：regret 保证建立在"\(f\) 真服从 TOGP 先验 + 标量化算子 Lipschitz"上，先验失配时的鲁棒性未讨论。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个张量输出 BO + 组合老虎机 BO 框架，并给出对应 regret 分析，填补明确空白。
实验充分度: ⭐⭐⭐⭐ 合成三设置 + 四个真实案例，预测/优化/消融齐全，但张量规模偏小、可扩展性验证有限。
写作质量: ⭐⭐⭐⭐ 理论推导完整、对比表清晰；符号较密集，部分定义在正文重复。
价值: ⭐⭐⭐⭐ 为结构化输出黑箱优化提供了可迁移的核构造 + 解耦 + regret 分析范式。