Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback¶
会议: AAAI 2026
arXiv: 2511.10572
代码: GitHub
领域: 强化学习
关键词: 上下文赌博机, 资源分配, 延迟反馈, 公平性, 双层优化
一句话总结¶
提出 MetaCUB——一种双层上下文赌博机框架,在延迟反馈、动态人群、冷却约束和公平性要求下实现个体化资源分配,元层优化子群预算分配保证公平,基层利用 UCB 策略选择最有潜力的个体。
研究背景与动机¶
在教育、医疗、就业等高风险领域中,资源分配需要平衡短期效用与长期影响,同时满足伦理约束和公平性要求。现有多臂赌博机(MAB)方法存在几个关键局限:
即时反馈假设:大多数方法假设奖励即时可观测,但实际干预(如教育辅导、职业培训、医疗治疗)的效果需要数周甚至数月才能显现
静态人群假设:忽略了真实部署中参与者按批次(如学期、注册周期)进出的动态特性
单层优化:要么只优化个体级别(忽略群体公平),要么只关注群体公平(忽略个体异质性)
约束缺失:未考虑冷却期(防止同一资源反复分配给同一个体)等现实约束
方法详解¶
整体框架¶
MetaCUB 采用双层(Bi-Level)优化架构:
- 元层(Meta-level):将总资源预算按比例分配给各人口子群(如种族、性别群体),确保群体间公平
- 基层(Base-level):在每个子群内部,利用上下文赌博机策略选择最有可能受益的个体
核心建模要素: - \(N\) 个个体分属 \(K\) 个子群,每个体有特征向量 \(\mathbf{x}^i \in \mathbb{R}^M\) - \(R\) 种资源类型,各有预算 \(b^r\) - 目标:最大化 \(T\) 轮决策的期望累积奖励 \(\max \mathbb{E}[\sum_{t=1}^T y(t)]\)
关键设计¶
1. 延迟反馈建模(Delay Kernel)¶
每种资源 \(r\) 有专属的延迟核 \(K^r\),描述奖励在时间上的分布:
- \(\alpha^r < 1\):即时反馈型
- \(\beta^r < 1\):长尾延迟型
- \(\alpha^r, \beta^r > 1\):单峰集中型
观测奖励聚合所有历史分配的延迟效应: $\(y(t) = \sum_{u=1}^{t} \sum_{i \in \mathcal{I}_{h(u)}} \sum_{r \in R} K^r(t-u) \cdot f(\mathbf{x}^i(u)) \cdot z_{i,r}(u)\)$
2. 动态人群与冷却约束¶
- 队列动态:时间轴划分为 \(H = \lceil T/L \rceil\) 个长度为 \(L\) 的块,每个块对应一个队列 \(\mathcal{I}_h\),队列周期性替换
- 冷却约束:个体接收资源 \(r\) 后,在接下来 \(c^r\) 轮内不可再次接收同种资源: $\(\sum_{s=t}^{t+c^r} z_{i,r}(s) \leq 1\)$
3. 元层优化(Algorithm 1)¶
元层通过基于模拟的 UCB 策略搜索最优子群级预算分配 \(\bar{\boldsymbol{z}}^* = \{\bar{z}_r^k\}\):
- 初始化 \(n_0\) 个候选分配策略
- 每轮采样候选集,对每个候选执行 \(B\) 次模拟评估
- UCB 采集函数:\(\bar{\boldsymbol{z}}(t_m) = \arg\max_{\bar{\boldsymbol{z}}} (\mu(\bar{\boldsymbol{z}}) + \beta_{t_m} \sigma(\bar{\boldsymbol{z}}))\)
- 利用预训练的奖励模型 \(f\) 作为模拟代理,避免高维 GP 推断
4. 基层优化(Algorithm 2)¶
给定元层分配 \(\bar{z}_r^k\),基层在每个 (子群, 资源) 对内选择受益最大的个体:
- 计算分配数量 \(n_{k,r} = \lfloor \bar{z}_r^k \cdot |\mathcal{I}_k| \rfloor\)
- 对每个个体计算 UCB 分数:\(G_{i,r} = \hat{y}_{i,r} + \beta \cdot u_{i,r}\)
- 选择得分最高的 \(n_{k,r}\) 个个体
损失函数 / 训练策略¶
- 预测模型 \(f\):ELS 数据集使用岭回归(线性)和神经网络(非线性),JOBS 数据集使用逻辑回归和神经网络
- 确保各子群预测准确率一致(如 ELS 整体 86%,各种族 85%-87%)
- 冷却期随机采样自 \(\{1, 2, 3\}\)
实验关键数据¶
主实验(ELS 数据集累积遗憾)¶
| 算法 | 即时+线性 | 即时+非线性 | 延迟+线性 | 延迟+非线性 |
|---|---|---|---|---|
| MetaCUB | 最低 | 最低 | 最低 | 最低 |
| UCB | 高 | 中 | 很高 | 高 |
| LinUCB | 中 | 中 | 高 | 中 |
| CUCB | 中高 | — | — | — |
| EXP3 | 高 | 高 | 很高 | 很高 |
| DUCB | — | — | 中高 | 中高 |
| SWUCB | — | — | 中高 | 中 |
在延迟反馈场景下 MetaCUB 的优势最为显著。
公平性分析(ELS 分配公平比率)¶
| 算法 | Asian | White | Black | Hispanic |
|---|---|---|---|---|
| MetaCUB(即时) | 0.84 | 1.03 | 1.02 | 0.98 |
| MetaCUB(延迟) | 1.02 | 0.96 | 1.00 | 0.97 |
| UCB(即时) | 0.62 | 1.29 | 0.48 | 0.57 |
| UCB(延迟) | 0.41 | 1.42 | 0.33 | 0.51 |
公平比率接近 1.0 表示分配均衡。MetaCUB 在所有子群上最接近 1.0,而 UCB 严重偏向 White 群体。
消融实验¶
延迟核类型影响: - Type-I 核(集中型、早中期反馈):所有算法遗憾较低,MetaCUB 优势明显 - Type-II 核(分散型、扩展支撑):时间上稀释的奖励信号导致非延迟感知方法遗憾急剧上升,MetaCUB 保持稳健
线性 vs 非线性:非线性奖励函数下所有算法遗憾更低,表明表达能力更强的模型有助于学习效率
关键发现¶
- MetaCUB 在所有 8 种实验设置(2 数据集 × 2 核类型 × 2 奖励函数)中均实现最低累积遗憾
- 延迟反馈环境下传统赌博机算法(UCB、EXP3)遗憾显著增大,验证了延迟建模的必要性
- 双层结构显著提升公平性——MetaCUB 的子群分配比率均在 0.84-1.03 范围内
亮点与洞察¶
- 延迟核设计精巧:基于 Beta 分布的可参数化延迟核可灵活表达即时、长尾、单峰等多种反馈模式,且具有归一化保证
- 双层解耦思想:将公平性(元层)与个性化(基层)优雅分离,在不牺牲个体最优的前提下保证群体公平
- 公平性理论保证(Lemma 1):证明 MetaCUB 的子群分配差异严格小于单层赌博机,差距 \(\delta(T_m, f)\) 随元层轮数和预测精度递增
局限与展望¶
- 延迟核参数 \((\alpha^r, \beta^r)\) 需要预先指定,未实现在线学习/自适应估计
- 元层使用基于模拟的 UCB 代替 GP,理论遗憾界不如经典贝叶斯优化紧凑
- 实验仅在两个数据集上验证,未涵盖更多高风险领域(如医疗)
- 公平性定义较为简单(子群均值差异),未考虑更复杂的公平性概念(如因果公平)
- 预测模型 \(f\) 的质量对整体性能影响大,但文中未讨论模型误指定的鲁棒性
相关工作与启发¶
- 与经典 MAB 的关系:在标准 UCB 基础上增加了延迟核、冷却约束和双层结构,适配真实部署场景
- 与公平性 MAB 的关系:不同于扁平化的公平约束,通过双层结构实现群体和个体两级的公平-效率平衡
- 启发:延迟核建模方法可迁移到其他具有延迟反馈的在线学习问题;双层框架可推广到多级层次化资源分配
评分¶
- 新颖性: ⭐⭐⭐⭐ — 双层框架+延迟核组合新颖,但各单元技术并非全新
- 实验充分度: ⭐⭐⭐⭐ — 两个真实数据集、多种设置的全面实验+公平性分析
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,但符号较多、论文偏长
- 价值: ⭐⭐⭐⭐ — 实用性强,代码开源,直击真实资源分配痛点