跳转至

Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback

会议: AAAI 2026
arXiv: 2511.10572
代码: GitHub
领域: 强化学习
关键词: 上下文赌博机, 资源分配, 延迟反馈, 公平性, 双层优化

一句话总结

提出 MetaCUB——一种双层上下文赌博机框架,在延迟反馈、动态人群、冷却约束和公平性要求下实现个体化资源分配,元层优化子群预算分配保证公平,基层利用 UCB 策略选择最有潜力的个体。

研究背景与动机

在教育、医疗、就业等高风险领域中,资源分配需要平衡短期效用与长期影响,同时满足伦理约束和公平性要求。现有多臂赌博机(MAB)方法存在几个关键局限:

即时反馈假设:大多数方法假设奖励即时可观测,但实际干预(如教育辅导、职业培训、医疗治疗)的效果需要数周甚至数月才能显现

静态人群假设:忽略了真实部署中参与者按批次(如学期、注册周期)进出的动态特性

单层优化:要么只优化个体级别(忽略群体公平),要么只关注群体公平(忽略个体异质性)

约束缺失:未考虑冷却期(防止同一资源反复分配给同一个体)等现实约束

方法详解

整体框架

MetaCUB 采用双层(Bi-Level)优化架构:

  • 元层(Meta-level):将总资源预算按比例分配给各人口子群(如种族、性别群体),确保群体间公平
  • 基层(Base-level):在每个子群内部,利用上下文赌博机策略选择最有可能受益的个体

核心建模要素: - \(N\) 个个体分属 \(K\) 个子群,每个体有特征向量 \(\mathbf{x}^i \in \mathbb{R}^M\) - \(R\) 种资源类型,各有预算 \(b^r\) - 目标:最大化 \(T\) 轮决策的期望累积奖励 \(\max \mathbb{E}[\sum_{t=1}^T y(t)]\)

关键设计

1. 延迟反馈建模(Delay Kernel)

每种资源 \(r\) 有专属的延迟核 \(K^r\),描述奖励在时间上的分布:

\[K^r(\tau) = \int_{\tau/T}^{(\tau+1)/T} \text{Beta}(z; \alpha^r, \beta^r) \, dz\]
  • \(\alpha^r < 1\):即时反馈型
  • \(\beta^r < 1\):长尾延迟型
  • \(\alpha^r, \beta^r > 1\):单峰集中型

观测奖励聚合所有历史分配的延迟效应: $\(y(t) = \sum_{u=1}^{t} \sum_{i \in \mathcal{I}_{h(u)}} \sum_{r \in R} K^r(t-u) \cdot f(\mathbf{x}^i(u)) \cdot z_{i,r}(u)\)$

2. 动态人群与冷却约束

  • 队列动态:时间轴划分为 \(H = \lceil T/L \rceil\) 个长度为 \(L\) 的块,每个块对应一个队列 \(\mathcal{I}_h\),队列周期性替换
  • 冷却约束:个体接收资源 \(r\) 后,在接下来 \(c^r\) 轮内不可再次接收同种资源: $\(\sum_{s=t}^{t+c^r} z_{i,r}(s) \leq 1\)$

3. 元层优化(Algorithm 1)

元层通过基于模拟的 UCB 策略搜索最优子群级预算分配 \(\bar{\boldsymbol{z}}^* = \{\bar{z}_r^k\}\)

  1. 初始化 \(n_0\) 个候选分配策略
  2. 每轮采样候选集,对每个候选执行 \(B\) 次模拟评估
  3. UCB 采集函数:\(\bar{\boldsymbol{z}}(t_m) = \arg\max_{\bar{\boldsymbol{z}}} (\mu(\bar{\boldsymbol{z}}) + \beta_{t_m} \sigma(\bar{\boldsymbol{z}}))\)
  4. 利用预训练的奖励模型 \(f\) 作为模拟代理,避免高维 GP 推断

4. 基层优化(Algorithm 2)

给定元层分配 \(\bar{z}_r^k\),基层在每个 (子群, 资源) 对内选择受益最大的个体:

  1. 计算分配数量 \(n_{k,r} = \lfloor \bar{z}_r^k \cdot |\mathcal{I}_k| \rfloor\)
  2. 对每个个体计算 UCB 分数:\(G_{i,r} = \hat{y}_{i,r} + \beta \cdot u_{i,r}\)
  3. 选择得分最高的 \(n_{k,r}\) 个个体

损失函数 / 训练策略

  • 预测模型 \(f\):ELS 数据集使用岭回归(线性)和神经网络(非线性),JOBS 数据集使用逻辑回归和神经网络
  • 确保各子群预测准确率一致(如 ELS 整体 86%,各种族 85%-87%)
  • 冷却期随机采样自 \(\{1, 2, 3\}\)

实验关键数据

主实验(ELS 数据集累积遗憾)

算法 即时+线性 即时+非线性 延迟+线性 延迟+非线性
MetaCUB 最低 最低 最低 最低
UCB 很高
LinUCB
CUCB 中高
EXP3 很高 很高
DUCB 中高 中高
SWUCB 中高

在延迟反馈场景下 MetaCUB 的优势最为显著。

公平性分析(ELS 分配公平比率)

算法 Asian White Black Hispanic
MetaCUB(即时) 0.84 1.03 1.02 0.98
MetaCUB(延迟) 1.02 0.96 1.00 0.97
UCB(即时) 0.62 1.29 0.48 0.57
UCB(延迟) 0.41 1.42 0.33 0.51

公平比率接近 1.0 表示分配均衡。MetaCUB 在所有子群上最接近 1.0,而 UCB 严重偏向 White 群体。

消融实验

延迟核类型影响: - Type-I 核(集中型、早中期反馈):所有算法遗憾较低,MetaCUB 优势明显 - Type-II 核(分散型、扩展支撑):时间上稀释的奖励信号导致非延迟感知方法遗憾急剧上升,MetaCUB 保持稳健

线性 vs 非线性:非线性奖励函数下所有算法遗憾更低,表明表达能力更强的模型有助于学习效率

关键发现

  1. MetaCUB 在所有 8 种实验设置(2 数据集 × 2 核类型 × 2 奖励函数)中均实现最低累积遗憾
  2. 延迟反馈环境下传统赌博机算法(UCB、EXP3)遗憾显著增大,验证了延迟建模的必要性
  3. 双层结构显著提升公平性——MetaCUB 的子群分配比率均在 0.84-1.03 范围内

亮点与洞察

  1. 延迟核设计精巧:基于 Beta 分布的可参数化延迟核可灵活表达即时、长尾、单峰等多种反馈模式,且具有归一化保证
  2. 双层解耦思想:将公平性(元层)与个性化(基层)优雅分离,在不牺牲个体最优的前提下保证群体公平
  3. 公平性理论保证(Lemma 1):证明 MetaCUB 的子群分配差异严格小于单层赌博机,差距 \(\delta(T_m, f)\) 随元层轮数和预测精度递增

局限与展望

  1. 延迟核参数 \((\alpha^r, \beta^r)\) 需要预先指定,未实现在线学习/自适应估计
  2. 元层使用基于模拟的 UCB 代替 GP,理论遗憾界不如经典贝叶斯优化紧凑
  3. 实验仅在两个数据集上验证,未涵盖更多高风险领域(如医疗)
  4. 公平性定义较为简单(子群均值差异),未考虑更复杂的公平性概念(如因果公平)
  5. 预测模型 \(f\) 的质量对整体性能影响大,但文中未讨论模型误指定的鲁棒性

相关工作与启发

  • 与经典 MAB 的关系:在标准 UCB 基础上增加了延迟核、冷却约束和双层结构,适配真实部署场景
  • 与公平性 MAB 的关系:不同于扁平化的公平约束,通过双层结构实现群体和个体两级的公平-效率平衡
  • 启发:延迟核建模方法可迁移到其他具有延迟反馈的在线学习问题;双层框架可推广到多级层次化资源分配

评分

  • 新颖性: ⭐⭐⭐⭐ — 双层框架+延迟核组合新颖,但各单元技术并非全新
  • 实验充分度: ⭐⭐⭐⭐ — 两个真实数据集、多种设置的全面实验+公平性分析
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,但符号较多、论文偏长
  • 价值: ⭐⭐⭐⭐ — 实用性强,代码开源,直击真实资源分配痛点