跳转至

Follow-the-Perturbed-Leader for Decoupled Bandits: Best-of-Both-Worlds and Practicality

会议: ICML 2026
arXiv: 2510.12152
代码: 未公开
领域: 在线学习 / Bandits / 优化
关键词: Follow-the-Perturbed-Leader, 解耦 bandits, Best-of-Both-Worlds, Pareto 扰动, 无凸优化

一句话总结

本文给 decoupled multi-armed bandit 问题(每轮分别选一个臂"利用"、一个臂"探索")设计了首个 Best-of-Both-Worlds (BOBW) FTPL 算法:用 Pareto 扰动做利用、用一个仅依赖累积估损排名的代理量 \(q_{t,i}\) 直接定义探索分布——既不需要 FTRL 的每步凸优化,也不需要 FTPL 标准做法中的几何重采样,对抗与随机两种环境下均达到与现有最优 FTRL 算法同阶的 \(\mathcal{O}(\sqrt{KT})\) / \(\mathcal{O}(K/\Delta_{\min})\) 后悔界,实测对 \(K=2\) 比基线快约 130×。

研究背景与动机

领域现状:标准 multi-armed bandit (MAB) 每轮必须用同一个臂同时承担探索和利用。Avner 等 2012 提出 decoupled bandit:每轮选 \(i_t\) 承担损失(不观测)、再选 \(j_t\) 观测损失(不承担),探索和利用解耦。该设定起源于超宽带通信(感知与传输可用不同信道)、sim-to-real 机器人(仿真器探索、真实系统利用)、推荐系统(一小撮用户探索、其他用户利用)。Rouyer & Seldin 2020 用 Decoupled-Tsallis-INF 拿到了 BOBW 保证:对抗 \(\mathcal{O}(\sqrt{KT})\)、随机 \(\mathcal{O}(K/\Delta_{\min})\),是当前理论 SOTA。

现有痛点:Decoupled-Tsallis-INF 属于 FTRL 框架,每轮要在 \(K-1\) 维单纯形上解一个 Tsallis 熵正则化的凸优化得到利用概率向量 \(w_t\),再用 \(w_t\) 算探索概率 \(p_t\)。即便 Newton 迭代+热启动,凸优化对超宽带通信这种"每步必须毫秒级响应"的实际场景仍是负担,实测 \(K=2\) 时已比 FTPL 慢约 130×。

核心矛盾:FTPL(一种用随机扰动代替正则化、纯 argmin 即出动作的轻量框架)天然便宜,但所有现有 decoupled bandit 算法都规定"探索概率 \(p_{t,i}\) 必须由利用概率 \(w_{t,i}\) 算出"——而 FTPL 一般没有 \(w_t\) 的闭式表达,要通过几何重采样 (GR) 估它,单步代价 \(\mathcal{O}(K^2)\)\(\mathcal{O}(K\log K)\);如果要估整个向量 \(w_t\)(不只是被选中的那一个)再灌进探索分布,代价升到 \(\mathcal{O}(K^2\log K)\),反而比 FTRL 还慢,FTPL 的速度优势全失。

本文目标:在 decoupled 设定下设计一个 FTPL 算法,既保留 FTPL 的 \(\mathcal{O}(K\log K)\) 量级单步开销,又拿到与 Decoupled-Tsallis-INF 同阶的 BOBW 后悔界。

切入角度:先前的探索分布"\(p_t\)\(w_t\) 的函数"只是一个充分条件,不是必要条件——只要能找到一个仅用当前已有量(累积估损 \(\hat L_t\)、学习率 \(\eta_t\)、排名 \(\sigma_{t,i}\))就能算出的代理向量 \(q_t\),使得它在分析上能与 \(w_t\) 建立紧的不等式联系,就可以绕开 \(w_t\)

核心 idea:用 Pareto(\(\alpha\)) 扰动做 FTPL 利用(对应 \(\beta=1-1/\alpha\) 的 Tsallis 熵 FTRL),同时用 \(q_{t,i}=\big(\min\{1/(1+\eta_t\hat{\underline L}_{t,i}),\,1/\sigma_{t,i}^{1/\alpha}\}\big)^{(\alpha+1)/2}\) 作为 \(w_{t,i}^{1/2+1/(2\alpha)}\) 的可计算上界代理,再归一化得到探索分布 \(p_{t,i}=q_{t,i}/\sum_j q_{t,j}\)——纯排序+赋值,无凸优化、无重采样。

方法详解

整体框架

算法每轮做三件事:① 从 Pareto 分布 \(\mathcal{P}_\alpha\)\(K\) 个扰动 \(r_{t,i}\),挑利用臂 \(i_t=\arg\min_i\{\hat L_{t,i}-r_{t,i}/\eta_t\}\);② 用排名直接算探索分布 \(p_t\) 并采样 \(j_t\sim p_t\),观测 \(\ell_{t,j_t}\);③ 用 IW 估计更新累积损失 \(\hat L_{t+1}=\hat L_t+\ell_{t,j_t}p_{t,j_t}^{-1}e_{j_t}\)。整个过程没有任何凸优化、没有任何重采样,单步开销主导项是维护排序 \(\mathcal{O}(K)\)(增量 + 二分插入 \(\mathcal{O}(\log K)\))。

注意 \(p_t\)\(w_t\) 互不依赖:利用臂的选择只看 \(\hat L_t\) 加噪扰动后取 argmin,探索臂的采样只看 \(\hat L_t\) 的排名和损失差,二者共享同一份累积估损但走完全独立的两条计算路径——这是绕开"\(p_t\) 必须由 \(w_t\) 算出"这一历史约定的核心结构。

关键设计

  1. Pareto 扰动 FTPL 做利用:

    • 功能:在不解优化的前提下得到与 \(\beta\)-Tsallis-INF 同阶的利用策略。
    • 核心思路:用 shape \(\alpha>1\) 的 Pareto 分布 \(f(x)=\alpha/x^{\alpha+1}\) 采扰动 \(r_{t,i}\),利用臂直接选 \(i_t=\arg\min_i\{\hat L_{t,i}-r_{t,i}/\eta_t\}\)。Kim & Tewari 2019 + Lee 2025 早就证明 Pareto 扰动 FTPL 与 \(\beta=1-1/\alpha\) 的 Tsallis 熵 FTRL 在隐含的利用概率上完全对应,所以 BOBW 所需的"利用概率衰减率"自动具备——只是 \(w_{t,i}=\phi_i(\eta_t\hat L_t)\) 没有闭式表达。
    • 设计动机:先前 FTPL bandit 用 Gumbel 扰动(对应 Exp3)虽然 \(w_t\) 有 softmax 闭式,但在随机环境下后悔界次优;用 Pareto 扰动是为了 BOBW,但代价是没有 \(w_t\) 闭式——这恰恰是后面"必须绕开 \(w_t\)"动机的来源。
  2. 基于排名的代理向量 \(q_t\) 替代 \(w_t\) 定义探索分布:

    • 功能:在没有 \(w_t\) 闭式的情况下,构造一个仅依赖 \(\hat L_t\)\(\eta_t\) 的可计算量直接生成探索概率 \(p_t\),彻底绕过几何重采样。
    • 核心思路:定义损失差 \(\hat{\underline L}_{t,i}=\hat L_{t,i}-\min_j\hat L_{t,j}\) 和排名 \(\sigma_{t,i}\)(最小者 = 1,最大者 = \(K\)),令 \(q_{t,i}=\big(\min\{1/(1+\eta_t\hat{\underline L}_{t,i}),\,1/\sigma_{t,i}^{1/\alpha}\}\big)^{(\alpha+1)/2}\),再令 \(p_{t,i}=q_{t,i}/\sum_{j}q_{t,j}\)。直觉上 \(q_{t,i}\) 近似 \(w_{t,i}^{1/2+1/(2\alpha)}\),对应 Decoupled-Tsallis-INF 中的 \(w_{t,i}^{1-\beta/2}\)(取 \(\alpha=1/(1-\beta)\)),所以理论分析路线类似但用 \(q_{t,i}\) 取代 \(w_{t,i}\),关键的紧不等式 \(q_{t,i}\le w_{t,i}^{1/2+1/(2\alpha)}\lesssim w_{t,i}^{1-1/\alpha}\) 由论文 Lemma D.2 给出。
    • 设计动机:探索分布需要"对当前坏臂衰减但不为零"的形状,原本要靠 \(w_{t,i}\) 给出这个形状,但 \(w_{t,i}\) 没法直接算。本文发现"\(\hat L\) 上小、排名靠前的臂应该多探"这个直觉用 \(\min\{\cdot,\cdot\}\) 同时套住两个维度即可——前一个 \(1/(1+\eta_t\hat{\underline L}_{t,i})\) 控制损失大小,后一个 \(1/\sigma_{t,i}^{1/\alpha}\) 控制排名,二者取较小者再做 \((\alpha+1)/2\) 次方,正好能对应到分析需要的 \(w_{t,i}\) 上界,从而保持紧的后悔界。
  3. 增量排名维护 + 自界 (self-bounding) 后悔分析:

    • 功能:把单步复杂度从 \(\mathcal{O}(K\log K)\)(重新排序)压到 \(\mathcal{O}(K)\) 平均开销;并把 \(p_t\) 引入的额外难度合并进经典 FTPL 后悔分解。
    • 核心思路:实现层面,由于 IW 估计每轮只对一个臂 \(j_t\) 更新 \(\hat L\),其他 \(K-1\) 个臂的排名最多改变 1。算法对 \(j_t\) 用二分查找定位新位置 \(\mathcal{O}(\log K)\),对受影响的连续区间做 \(\mathcal{O}(K)\) 修正。分析层面,作者用 Lemma 3.4 把后悔拆成 stability + penalty 两项(这一步省掉了 Honda 2023/Lee 2024 中的额外 \(\log T\) 因子),Lemma 3.5 给 penalty 项的上界(依赖 Pareto 的尾),Lemma 3.6 用 \(q_{t,j}q_{t,i}\) 上界 stability。再借助辅助事件 \(D_t=\{\sum_{i\ne i^*}1/(2^{1/\alpha}+\eta_t\hat{\underline L}_{t,i})^\alpha\le 1/2\}\)\(q_{t,i}\) 在好事件上换成 \(w_{t,i}^{1-1/\alpha}\),最后用 self-bounding \(\max_{w}\{Aw^{1-1/\alpha}/\sqrt{t}-\Delta_i w\}\le\mathcal{O}(A^\alpha\Delta_i^{1-\alpha}t^{-\alpha/2})\) 收敛到 \(\mathcal{O}(\sqrt{KT})\)(对抗)和 \(\mathcal{O}(K/\Delta_{\min})\)(SCA)。
    • 设计动机:让算法在工程实现和理论分析两侧都不依赖凸优化或重采样,最终在 Pareto \(\alpha=3\)(对应 \(\beta=2/3\),Decoupled-Tsallis-INF 最优配置)时拿到与 FTRL 同阶的 BOBW 后悔。

实验关键数据

主实验

实验设定 指标 EXP3 (β=1) FTRL (β=2/3, Decoupled-Tsallis-INF) FTPL (本文, α=3)
对抗 8 臂, \(\Delta=0.125\) 累积后悔 (越低越好) 最高 最低
随机 5 臂, 简单 \(\mu_1\), \(\Delta_{\min}=0.05\) 累积后悔 较高 较低 最低
随机 5 臂, 困难 \(\mu_2\), \(\Delta_{\min}=0.002\) 累积后悔 最低
SCS 凸求解器, \(K\in\{2,\ldots,64\}\) 单步耗时 (ms) 显著高 ↓约 130× (\(K=2\))
Newton+warm start, \(K\) 增大 单步耗时斜率 斜率最大 斜率最小

消融 / 实现对比

维度 FTRL (Newton + warm start) FTPL(sorting) FTPL(improved, 本文实现)
每轮算法依赖 凸优化迭代 整向量重排序 增量二分定位 + 块修正
平均单步复杂度 无形式化保证 (≥ \(\mathcal{O}(K)\) × #iter) \(\mathcal{O}(K\log K)\) \(\mathcal{O}(K)\) 平均
需要 \(w_t\) 估计 是 (优化解)
需要几何重采样 否 (本文绕开)
对抗后悔界 \(\mathcal{O}(\sqrt{KT})\) \(\mathcal{O}(\sqrt{KT})\) \(\mathcal{O}(\sqrt{KT})\)
SCA / 随机后悔界 \(\mathcal{O}(K/\Delta_{\min})\) \(\mathcal{O}(K/\Delta_{\min})\) \(\mathcal{O}(K/\Delta_{\min})\)

关键发现

  • "FTPL 比 FTRL 慢"的直觉只在不优化实现的情况下成立;本文证明只要绕开 \(w_t\) 估计这一步,FTPL 的实现复杂度(\(\mathcal{O}(K)\) 增量)本来就低于 FTRL(凸优化迭代);实测 \(K=2\) 已快约 130×,且随 \(K\) 增长斜率更小,规模化优势随 \(K\) 放大。
  • 用排名而不是用估损值本身做代理量是设计精髓:排名是个鲁棒统计量,对损失噪声/量级不敏感,且增量维护代价低,使理论紧界与高效实现能同时达成。
  • \(\alpha\in(1,3]\) 时分析最紧,\(\alpha=3\) 等价 \(\beta=2/3\),与 Rouyer & Seldin 2020 的最优 Tsallis 配置吻合,说明 FTPL 和 FTRL 在这个问题上的"理论最优形状"是对应的,本文只是把实现路径换了。
  • 在"困难"随机实例(\(\mu_2\),所有臂均值都接近 0.9、\(\Delta_{\min}=0.002\))下,所有 BOBW 算法都需更多轮才收敛,但 FTPL 在每个时间点都领先 FTRL/EXP3——经验上 self-bounding 推出的常数也最优。
  • 在对抗设定的 16 个 \((K,\Delta)\) 网格扫描(附录 E.2)中,FTPL 的领先稳定地出现在各种 \(K\) 和各种 gap 上,不存在某个区域被基线反超的现象,说明改进是结构性的而不是某种特殊调参的副产物。

亮点与洞察

  • "用代理量代替真实概率"是一个可外推的方法论:FTPL 的 \(w_t\) 难算的问题在很多 bandit 变体里(contextual、组合臂、半 bandit)都出现,本文证明只要能找到一个有"对的紧不等式"的可计算上界,BOBW 都可以照搬,这给后续工作提供了一个明确的设计范式。
  • 把"排名"当作合法的状态量利用,是论文里最便宜也最聪明的一步——它把一个本来要凸优化才能算清楚的几何对象(概率单纯形上的最优解)简化成 \(\sigma_{t,i}\in\{1,\ldots,K\}\),分析和实现都顺势变简单。
  • 增量排名 + 二分定位的实现把 \(\mathcal{O}(K\log K)\) 排序压成 \(\mathcal{O}(K)\) 平均,是一个"理论上量级、实现上常数"都吃干净的工程优化,很值得复用到其他 FTPL 类算法。
  • 作者指出可以把同样的代理思路推广到 Prod family (Cesa-Bianchi 2007) 等其他在线学习框架——一个本来为 decoupled bandit 量身定制的技巧,其抽象层次足以撑起一类新工具,论文做了开放式留白。

局限与展望

  • SCA 随机后悔界的第二项 \(K/\Delta_{\min}\) 比 FTRL 用 log-barrier + arm-dependent learning rate (Jin 2023) 的 \(\sqrt{K}/\Delta_{\min}\) 松一个 \(\sqrt{K}\) 因子;论文指出对 FTPL 加 arm-dependent learning rate 等价于用 arm-dependent 扰动 + non-i.i.d. perturbation,分析非常复杂,留作 future work。
  • \(\alpha>3\)\(K\) 依赖会从 \(\sqrt{K}\) 退化到 \(K^{(\alpha-2)/(\alpha-1)}\),所以 \(\alpha\) 不能任意大,需要在 \((1,3]\) 内调,调节灵活度有限。
  • 算法依赖 unique best arm 假设,对存在多个等优臂的极端实例没有保证;SCA 假设每对臂的均值差恒定,对非平稳环境(drift)需要进一步分析。
  • 实证只评了 \(T=10^4\) 量级和 \(K\le 256\),超大规模 bandit(推荐系统场景常见 \(K\gtrsim 10^4\))下的实际效益还需补充;对超大 \(K\) 时 PRG 重生成扰动+增量维护排名的常数项是否仍小于 FTRL Newton 迭代的常数项,需要新一轮 benchmark。
  • 代理量 \(q_t\) 的具体形式(双约束 \(\min\) + \((\alpha+1)/2\) 次方)是为现有分析路径定制的,对 stability-penalty matching 等更细的分析技巧能否同样兼容,目前不明。

相关工作与启发

  • vs Decoupled-Tsallis-INF (Rouyer & Seldin 2020):同阶 BOBW 后悔界,但本文绕开了凸优化求 \(w_t\);用 Pareto 扰动 + 排名代理是关键差异。
  • vs Avner et al. 2012 (decoupled Exp3):Avner 是 Exp3 + 方差最优探索,本文也是 FTPL 但用 Pareto 扰动(更强的尾),并把 BOBW 第一次带到 FTPL 框架下。
  • vs Honda 2023 / Lee 2024 (标准 MAB 的 FTPL-BOBW):他们在标准 MAB 下证明了 FTPL 的 BOBW,但用 GR 估 \(1/w_{t,i_t}\);本文扩展到 decoupled 设定,但要估整个向量 \(w_t\) 时 GR 不再划算,于是用 \(q_t\) 代理跳过 GR,是一个非平凡的推广。
  • vs Chen et al. 2025 (近线性时间 GR):把 GR 单步成本从 \(\mathcal{O}(K^2)\) 压到 \(\mathcal{O}(K\log K)\),但仍是 GR;本文完全不需要 GR,结构上更轻。
  • vs Jin et al. 2023 (log-barrier + arm-dependent LR FTRL):在 SCA 第二项常数上更紧(\(\sqrt{K}/\Delta_{\min}\) vs 本文 \(K/\Delta_{\min}\)),但每轮要解带 log-barrier 的凸优化,实际开销显著更高;本文走的是"在算法侧让步一点常数、在系统侧换回大量延迟"的权衡。