A Near-optimal, Scalable and Parallelizable Framework for Stochastic Bandits Robust to Adversarial Corruptions and Beyond¶
会议: NeurIPS 2025
arXiv: 2502.07514
代码: 无
领域: 强化学习
关键词: adversarial corruptions, multi-armed bandits, elimination-based algorithm, regret bound, parallelizable
一句话总结¶
提出 BARBAT 框架,改进了经典的 BARBAR 算法,通过固定 epoch 长度和逐 epoch 调整失败概率,将对抗腐蚀下随机多臂老虎机的 regret 从 \(O(\sqrt{K}C)\) 降至近最优的 \(O(C)\)(消除了 \(\sqrt{K}\) 因子),并成功扩展到多智能体、图老虎机、组合半老虎机和批量老虎机等多种场景。
背景与动机¶
多臂老虎机(MAB)是在线学习中最基本的问题之一。近年来安全性备受关注,研究者开始考虑对手可以篡改奖励观测值的"对抗腐蚀"设定。现有方法分两大类:
- FTRL 系列(Follow-the-Regularized-Leader):能在随机和对抗环境中都达到最优 regret,但每轮需要解一个约束凸优化问题,在半老虎机等场景下计算开销极大,且难以并行化到多智能体或批量设定。
- 消除型方法(如 BARBAR):计算高效且易并行化,但 BARBAR 的 regret 中包含 \(O(\sqrt{K}C)\) 项,存在 \(\sqrt{K}\) 因子冗余,与下界 \(\Omega(C)\) 不匹配。
核心痛点在于:能否用消除型方法达到与 FTRL 同级别的最优 regret?这是 Gupta et al. 提出的公开问题。
核心问题¶
在对抗腐蚀下的随机多臂老虎机问题中,如何设计消除型算法使其 regret 达到近最优(即 corruption 依赖项为 \(O(C)\) 而非 \(O(\sqrt{K}C)\)),同时保持消除型方法计算高效和易并行化的优势?
方法详解¶
整体框架¶
BARBAT(Bad Arms get Recourse, Best Arm gets Trust)是对 BARBAR 的改进版本。核心思路是在每个 epoch 中: - 输入:当前存活臂集合、上一轮估计的次优性 gap - 过程:按照预设概率采样各臂,累计观测奖励 - 输出:更新后的经验奖励估计和 gap 估计
整体采用 epoch 迭代结构,每个 epoch 结束后重新估计每个臂的次优性 gap,逐步聚焦于最优臂。
关键设计¶
-
固定 epoch 长度(Data-independent epoch length):BARBAR 的 epoch 长度依赖于上一轮的数据(即估计的 gap),这使得对手可以通过在某个 epoch 集中攻击来间接延长下一个 epoch 的长度,导致 \(O(\sqrt{K} C)\) 的额外 regret。BARBAT 改为使用与数据无关的 epoch 长度 \(N_m = \lceil K \lambda_m 2^{2(m-1)} \rceil\),对手无法通过腐蚀来操纵 epoch 长度。多出来的采样次数(即 \(N_m - \sum_{k \neq k_m} n_k^m\))全部分配给当前估计的最优臂 \(k_m\),体现 "Best Arm gets Trust" 思想。
-
逐 epoch 变化的失败概率(Epoch-varying failure probabilities):BARBAR 使用全局统一的失败概率 \(\delta\),而 BARBAT 为每个 epoch \(m\) 设置不同的 \(\delta_m = 1/(K \zeta_m)\)。这种精细设计消除了对时间范围 \(T\) 的先验知识需求,同时使得总失败概率被良好控制。
-
BARBAR 为何付出 \(O(\sqrt{K}C)\) 的直觉说明:Gupta et al. 构造了一个反例——如果对手在某个 epoch \(c\) 投入所有腐蚀预算 \(C = N_c\),BARBAR会丢失之前积累的信息,下一个 epoch 长度变为 \(N_{c+1} = O(KC)\),每个臂被均匀采样约 \(O(C)\) 次,产生 \(O((K-1)C)\) regret。而 BARBAT 由于固定了 epoch 长度为 \(N_m = K \lambda_m 2^{2(m-1)}\),对手要攻击整个 epoch 需要 \(C = N_c = K \lambda 2^{2(c-1)}\),比攻击 BARBAR 需要多 \(K\) 倍的腐蚀预算,因此只需付出 \(O(C)\) 的腐蚀代价。
扩展场景¶
BARBAT 体现了良好的可扩展性和可并行化特性,被推广到以下四个场景:
- MA-BARBAT(多智能体):\(V\) 个智能体协作,每个 epoch 结束后广播各自奖励,个体 regret 降低 \(V\) 倍——\(R_v(T) = O(C/V + \sum_{\Delta_k>0} \log^2(VT) / (V\Delta_k))\)。通信代价仅为 \(O(V \log(VT))\)。
- BB-BARBAT(批量老虎机):适配 \(L\) 个 batch 的限制,epoch 长度设为 \(O(T^{m/(L+1)})\),首次研究对抗腐蚀下的批量老虎机,并给出下界。
- SOG-BARBAT(强可观测图老虎机):利用图结构的 out-domination set 来减少实际需要采样的臂数,通过 OODS 算法高效计算该集合,regret 中与 gap 相关的项只依赖 \(O(\alpha \ln(K/\alpha))\) 个最小 gap 的臂。
- DS-BARBAT(\(d\)-set 半老虎机):处理组合动作空间,最优动作变为 \(d\) 个臂的集合,regret 为 \(O(dC + \sum_{k=d+1}^{K} \log^2(T)/\Delta_k)\)。
损失函数 / 训练策略¶
这是一篇理论方法论文,不涉及神经网络训练。关键的技术工具包括: - Chernoff-Hoeffding 不等式控制奖励估计误差 - Freedman 鞅集中不等式处理腐蚀分量 - 归纳法建立 gap 估计的上下界递推关系 - 定义 "offset level" \(D_m\) 和 "discounted offset rate" \(\rho_m\) 统一分析腐蚀和失败事件的影响
实验关键数据¶
| 场景 | 设置 | BARBAT 时间 | 最强基线时间 | BARBAT 优势 |
|---|---|---|---|---|
| 多智能体 MAB (K=12) | V=10, T=50000 | 0.13 s | IND-FTRL: 1.53 s | ~12x 加速 |
| 多智能体 MAB (K=16) | V=10, T=50000 | 0.13 s | IND-FTRL: 1.91 s | ~15x 加速 |
| d-set 半老虎机 (K=12) | d=3, T=50000 | 0.36 s | HYBRID: 14.63 s | ~40x 加速 |
| d-set 半老虎机 (K=16) | d=4, T=50000 | 0.37 s | LBINF_GD: 12.69 s | ~34x 加速 |
在所有场景中,BARBAT 的累积 regret 曲线在高腐蚀水平下(C=5000)都明显低于基线方法,验证了理论分析中 corruption 项的改进。
消融实验要点¶
- 论文主要通过对比不同 corruption 水平(C=2000 vs C=5000)展示鲁棒性差异
- MA-BARBAT 协作带来的 \(V\) 倍 regret 降低在实验中得到验证
- 计算效率优势在半老虎机场景最为突出(40x 加速),因为 FTRL 在此场景需求解昂贵的凸优化
亮点¶
- 关键洞察精炼:用"固定 epoch 长度"这一简单修改消除 \(\sqrt{K}\) 因子,解决了 BARBAR 的核心缺陷——对手可以通过腐蚀间接操控 epoch 长度
- 消除 \(T\) 的先验假设:通过逐 epoch 设置 \(\delta_m\),无需预知时间范围,这对实际部署非常有利
- 可扩展性设计典范:一个核心框架自然地适配四种不同的老虎机变体,每次扩展仅需局部修改
- 计算效率压倒性优势:相比 FTRL 在半老虎机上 40 倍的速度提升,源于消除了每轮的凸优化
- 不需要唯一最优臂假设:FTRL 方法(除 MAB 外)需要此假设,但 BARBAT 系列不需要
局限与展望¶
- regret 中有 \(\log^2(T)\) 因子,而非最优的 \(\log(T)\),作者明确指出缩小此差距是未来方向
- 批量老虎机的上界与下界仍有 gap,最优 regret 仍为开放问题
- 多智能体版本需要中心化通信(每个智能体广播给所有人),未考虑去中心化或通信受限场景
- 图老虎机部分的 out-domination set 计算虽然是多项式时间,但实际复杂度为 \(O(|V|^2 |E|)\)
- 论文未扩展到线性老虎机等重要结构化设定,作者将此列为未来方向
与相关工作的对比¶
| 方法 | corruption 项 | 计算效率 | 可并行化 | 无需唯一最优臂 |
|---|---|---|---|---|
| BARBAR | \(O(\sqrt{K}C)\) | ✓ | ✓ | ✓ |
| Tsallis-FTRL | \(O(C)\) | ✗ | ✗ | ✗(MAB 外) |
| Shannon-FTRL | \(O(C)\) | ✓(有闭式解) | ✓ | ✓ |
| BARBAT | \(O(C)\) | ✓ | ✓ | ✓ |
核心差异:BARBAT 是唯一同时满足近最优 regret、计算高效、可并行化、无需唯一最优臂假设四个条件的消除型方法。Shannon-FTRL 虽在 MAB 上有闭式解,但在半老虎机等组合场景下仍需解优化问题。
启发与关联¶
- epoch 固定化思想可迁移到其他需要抵御对抗攻击的 epoch-based 在线学习算法中
- discounted offset rate 的分析技巧是一种优雅的处理历史腐蚀累积影响的方式,可借鉴
评分¶
- 新颖性: ⭐⭐⭐⭐ 核心思想(固定 epoch + epoch-varying δ)虽简洁但针对性强,完整解决了一个公开问题
- 实验充分度: ⭐⭐⭐⭐ 覆盖三种场景、多种基线、计算时间对比,但缺少更大规模实验
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,直觉解释(BARBAR 为何付出 √K·C 的例子)写得极好,证明完整
- 价值: ⭐⭐⭐⭐ 解决公开问题且框架统一性强,但领域相对小众