Bayesian Ensemble for Sequential Decision-Making¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=s2hxd8JghB
代码: 未公开
领域: 强化学习 / 序贯决策
关键词: 贝叶斯集成, Thompson Sampling, 上下文 bandit, DQN, 不确定性建模

一句话总结¶

本文提出 Bayesian Ensemble，把“从集成模型里选哪个成员”本身建模成一个带贝叶斯更新的内层 bandit，从而在 contextual bandit 和 DQN 中用反馈奖励动态调整集成成员的采样分布，在几乎不增加 ensemble+ 开销的情况下显著降低 regret，并在 MiniGrid 强化学习任务上提升累计回报。

研究背景与动机¶

领域现状：序贯决策里的核心难题是探索与利用的平衡。Thompson Sampling 的经典思路是维护奖励模型参数的后验分布，每轮从后验中采样一个可能的世界，再按这个世界里最优的动作去行动；在神经网络场景下，精确后验太难维护，所以实际系统常用 deep ensemble、随机 prior function、hypermodel 等近似后验采样方法。

现有痛点：这些 ensemble-based Thompson Sampling 方法通常把每个 ensemble member 看作后验样本，但“抽哪个成员”的 index distribution 大多是固定的，例如均匀离散分布或标准高斯分布。这样做很方便，却忽略了一个实际现象：不同成员的质量并不相同，随机初始化、prior function、训练路径都会让某些成员更早学到有用的不确定性，另一些成员则可能长期给出差的探索方向。

核心矛盾：已有 ensemble 方法只更新成员自身的网络参数，却不更新成员被采样的概率。换句话说，模型参数和环境反馈之间有学习闭环，但 index distribution 和奖励之间没有直接闭环；成员多样性被当成静态资源，而不是可被反馈校准的决策对象。

本文目标：作者希望在不重写现有 ensemble 架构的前提下，为成员选择增加一个轻量但有原则的贝叶斯层。这个层需要同时适配 contextual bandit 和 reinforcement learning：在 bandit 中降低 regret、在 DQN 中稳定 Q 估计并提高探索效率，同时不能带来过高的额外计算成本。

切入角度：本文的关键观察是，index distribution 的参数量通常远小于 neural ensemble 的参数量。与其只用 surrogate loss 训练庞大的网络，不如直接把“哪个成员带来了好 reward”作为证据，用贝叶斯推断更新成员选择分布。这等于把 ensemble member selection 再看成一个小型 bandit 问题。

核心 idea：Bayesian Ensemble 用奖励反馈动态更新 ensemble member 的采样分布，让被证明更有用的成员在后续决策中更可能被选中，同时保留 posterior sampling 的随机性和探索能力。

方法详解¶

Bayesian Ensemble 不是一个全新的网络结构，而是一层可以叠在已有 ensemble 方法上的 index distribution updater。它保留每个 base model 的常规训练方式，同时额外维护一个关于成员索引 \(z\) 的概率分布 \(p^{(t)}\)；每轮先从 \(p^{(t)}\) 采样成员，再用该成员指导动作选择，最后用实际 reward 更新网络参数和 \(p^{(t)}\)。

整体框架¶

整体流程可以理解成“两层学习”：外层是普通序贯决策 agent，在环境中选择动作并收集奖励；内层是 Bayesian Ensemble，把每个 ensemble member 当成候选策略评估器，用奖励反馈更新“下次更该相信谁”。这种设计同时覆盖 bandit 和 RL：bandit 版本叫 Bayesian Ensemble Bandit（BEB），DQN 版本叫 Bayesian Ensemble DQN（BE-DQN）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["候选动作或当前状态"] --> B["贝叶斯索引分布<br/>采样成员"]
    B --> C["被选中的<br/>ensemble member"]
    C --> D["动作选择与环境交互"]
    D --> E["奖励反馈"]
    E --> F["成员参数更新"]
    E --> G["索引分布贝叶斯更新"]
    F --> H["下一轮决策"]
    G --> H

在 BEB 中，成员 \(f(x; z, \theta)\) 输出离散奖励空间上的概率分布。给定候选动作集合 \(X^{(t)}\)，算法先采样 \(z^{(t)} \sim p^{(t)}\)，再选择期望奖励最大的动作：\(x^{(t)}=\arg\max_{x\in X^{(t)}} \sum_i R_i f(x;z^{(t)},\theta^{(t)})_i\)。在 BE-DQN 中，每个成员是一个 Q-network，采样出来的成员负责行为策略，而所有成员的加权平均参与 target 构造。

关键设计¶

1. 贝叶斯索引分布：把成员选择从固定随机数改成可学习后验

传统 ensemble sampling 的成员索引通常来自固定分布，例如 \(z\sim \mathrm{Uniform}([K])\) 或 \(z\sim \mathcal{N}(0,I)\)。本文认为这个固定分布其实浪费了 reward 信息：如果某个成员连续在当前任务上带来好 reward，它后续就应该更容易被采到；如果某个成员经常导致失败，它仍然可以保留探索机会，但不应和高质量成员完全同权。

Bayesian Ensemble 因此维护随时间变化的 \(p^{(t)}(z)\)。它不是替代 ensemble member 的参数学习，而是补上“成员选择”这一层的后验更新。网络参数 \(\theta\) 仍通过经验风险最小化训练，即最小化 \(\sum_{(x,r)\in D}\mathbb{E}_{z\sim p}[\ell(r,f(x;z,\theta))]\)；索引分布 \(p\) 则直接用 reward 更新，因为它参数少、更新便宜，也更贴近最终目标。

2. BEB：用 reward 对 ensemble+ 和 hypermodel 做内层 Thompson Sampling

在离散 ensemble+ 场景中，每个成员对应一个 Beta 分布 \(w_i\sim \mathrm{Beta}(\alpha_i,\beta_i)\)。每轮从所有 Beta 分布中采样权重，选择 \(z=\arg\max_i w_i\) 的成员行动；如果该成员得到二值 reward \(r^{(t)}\in\{0,1\}\)，就执行共轭更新 \((\alpha_i,\beta_i)\leftarrow(\alpha_i,\beta_i)+(r^{(t)},1-r^{(t)})\)。这相当于对“哪个成员更可能带来成功”做一层 Thompson Sampling，而且更新是精确贝叶斯推断。

对于 hypermodel 这类连续索引方法，原始索引来自标准高斯。BEB 把它扩展为每个 index component 都有可学习均值和方差的高斯分布，用变分推断近似更新这些参数。这里的代价高于 Beta-Bernoulli 更新，但好处是能把连续 index 的不确定性也纳入反馈闭环，而不是永远从固定标准高斯里采样。

3. BE-DQN：行为采样用单个 Q 网络，target 学习用贝叶斯加权集成

在 RL 版本里，BE-DQN 维护 \(K\) 个 Q-network，并为每个 Q-network 维护一个 Beta 分布。每个 iteration 先采样 \(w_1,\ldots,w_K\)，归一化为 \(p_k=w_k/\sum_j w_j\)，再选择采样权重最大的第 \(j\) 个 Q-network 来执行动作。这样，行为策略仍然具有“单个成员驱动”的时间一致性，避免每一步都由平均 Q 值抹平探索差异。

同时，训练 target 不只依赖被选中的 Q-network，而是使用所有 Q-network 的加权平均：\(y_{s,a}=\mathbb{E}_B[r+\gamma\max_{a'}\sum_{k=1}^{K}p_k Q(s',a';\theta^k_{i-1})\mid s,a]\)。这让 BE-DQN 在行为选择上保留深度探索，在 bootstrapping target 上利用 ensemble 的方差降低效果，避免单个 Q-function 的过估计或不稳定主导训练。

4. 方差界：在 DQN 稳定性和 ensemble 探索之间给出理论支撑

作者用一个 \(M\) 状态单向 MDP 分析 target approximation error（TAE）对 Q 值估计方差的影响。在零奖励设定下，DQN 的方差是 \(\sum_{m=0}^{M-1}\gamma^{2m}\sigma^2_{s_m}\)，E-DQN 因为均匀平均 \(K\) 个独立估计器，方差缩小到 \(\frac{1}{K}\sum_{m=0}^{M-1}\gamma^{2m}\sigma^2_{s_m}\)。

BE-DQN 的整体 Q 估计方差为 \(\sum_{k=1}^{K}p_k^2\sum_{m=0}^{M-1}\gamma^{2m}\sigma^2_{s_m}\)。由于 \(\sum_k p_k=1\)，它的方差落在 E-DQN 和 DQN 之间：下界对应均匀权重，上界对应几乎只信一个成员。这个结论说明 BE-DQN 不会比单 DQN 更不稳定，同时又比简单平均更偏向高 reward 成员；附录还讨论了非零有界 reward 下结论主要仍由 TAE 方差主导，但随机 reward 会影响严格的 \(1/K\) 下界。

一个完整示例¶

假设一个新闻推荐 bandit 每轮有 20 篇候选文章，ensemble 中有 3 个成员。初始时三个成员的 Beta 分布都是 \(\mathrm{Beta}(1,1)\)，所以系统大致等概率地尝试它们。第 1 轮采样后成员 2 的权重最大，agent 用成员 2 预测各文章点击概率，选择期望点击最高的文章；用户点击了，成员 2 的分布更新为 \(\mathrm{Beta}(2,1)\)。

接下来几轮如果成员 2 和成员 3 经常带来点击，它们的 \(\alpha\) 会更快增长，被采样为最大权重的概率也随之上升；成员 1 即使暂时表现差，也不会被永久排除，因为 Beta 采样仍会偶尔给它探索机会。相比固定 uniform ensemble，这个过程把“谁更适合当前用户流量和候选文章分布”变成在线可学习对象。

在 BE-DQN 里可以类比成 MiniGrid 导航。某个 Q-network 更早学会穿过门洞到达目标，它的 Beta 分布会因成功轨迹得到更多正反馈，之后更常被选作行为网络；但 target 仍由多个 Q-network 加权平均，训练不会完全被单个成员的偶然高估值牵着走。

损失函数 / 训练策略¶

BEB 的成员参数仍按任务损失训练。对于有限离散奖励，模型输出 \(\Delta_N\) 上的 reward distribution，常见损失是二分类或多分类交叉熵；训练目标是对数据集 \(D\) 和索引分布 \(p\) 下的经验风险取期望。BEB 的新增部分只在 index distribution 上发生：ensemble+ 用 Beta-Bernoulli 共轭更新，hypermodel 用变分推断更新高斯 index 的均值和方差。

BE-DQN 的每个 Q-network 使用标准 DQN 的平方 Bellman error 训练，经验来自共享 replay buffer。训练超参在附录中给出：ensemble size 为 5，折扣因子 \(0.99\)，学习率 \(5\times10^{-4}\)，batch size 32，replay buffer size \(5\times10^4\)，target network 每 500 步更新一次，\(\epsilon\) 从 0.1 衰减到 0.02。不同 DQN baseline 使用一致的网络结构和主要超参，以便把差异集中在 ensemble weighting / sampling 机制上。

实验关键数据¶

主实验¶

本文实验覆盖三类场景：合成 contextual bandit（Neural Testbed 与 Mushroom）、真实推荐 bandit（Yahoo!R6B）和 MiniGrid 强化学习。bandit 部分用 regret 或累计点击衡量探索效率，RL 部分用训练 \(10^5\) frames 后的平均奖励衡量策略质量。

场景	对比对象	本文方法	关键结果	说明
Neural Testbed, \(d=2\)	ensemble+	ensemble+(BEB)	regret 降低 37.0%	固定 uniform index 改为 Beta 更新
Neural Testbed, \(d=10\)	hypermodel	hypermodel(BEB)	regret 降低 22.8%	连续 index 用变分推断更新
Neural Testbed, \(d=50\)	ensemble+	ensemble+(BEB)	regret 降低 42.2%	高维动作下收益更明显
Mushroom	ensemble+	ensemble+(BEB)	regret 降低 8.7%	真实分类数据构造 bandit
Yahoo!R6B	hypermodel	hypermodel(BEB)	50,322.1 次点击	高于 hypermodel 的 49,676.8 次

MiniGrid 结果显示 BE-DQN 在多个导航任务上优于 DQN、E-DQN、RE-DQN 和 UAAC。尤其在 LavaGapS5-6x6 和 MultiRoom-N2-S4 上，BE-DQN 的平均奖励分别达到 0.350 和 0.118，而 ensemble baselines 明显更低。

MiniGrid 环境	vanilla DQN	Ensemble DQN	Random Ensemble DQN	UAAC	BE-DQN
FourRooms	0.004	0.012	0.010	0.036	0.040
Empty-6x6	0.026	0.162	0.186	0.082	0.248
LavaGapS5-6x6	0.026	0.178	0.120	0.022	0.350
GoToDoor-5x5	0.066	0.120	0.128	0.106	0.142
MultiRoom-N2-S4	0.002	0.042	0.030	0.004	0.118

消融实验¶

论文没有做“去掉某个子模块”的传统 ablation，而是通过计算开销、ensemble size 和 index update frequency 分析 BE 层的代价与收益。最关键的发现是，Beta 共轭更新几乎不增加 ensemble+ 的时间成本，而 hypermodel(BEB) 的收益需要支付变分推断的额外开销。

分析项	配置	关键指标	说明
wall time, ensemble+, \(d=50\)	baseline vs BEB	1165.07s vs 1162.82s	Beta 更新开销可忽略
wall time, hypermodel, \(d=50\)	baseline vs BEB	60.16s vs 84.20s	变分更新带来约 20% 以上额外成本
ensemble size	25 / 50 / 100	regret reduction 28.23% / 33.21% / 47.97%	ensemble 越大，BEB 越能利用成员差异
reduced update frequency	index dim 36	wall time 90.39s 降到 76.99s	降低更新频率能省成本，但 regret reduction 从 16.47% 降到 4.37%
Yahoo!R6B subset	ensemble+ vs ensemble+(BEB)	点击数 2185.4 vs 2255.5	在 1M 子集上 BEB 仍有约 3% 提升

关键发现¶

BE 的主要收益来自“成员选择分布也参与学习”：同样的 base ensemble，只要让 index distribution 根据 reward 自适应，regret 就能稳定下降。
对离散 ensemble+ 来说，Beta-Bernoulli 共轭更新非常划算，几乎没有 wall time 增量；对 hypermodel 来说，连续 index 的变分更新更贵，需要根据任务预算调节更新频率。
BE-DQN 在 MiniGrid 中不是简单平均所有 Q-network，而是用单成员行动、加权集成训练 target，因此同时保留深度探索和方差降低。
理论方差界给出的不是“BE-DQN 一定低于 E-DQN 方差”，而是说明它位于 E-DQN 与 DQN 之间；实验收益来自稳定性、成员选择和探索行为之间的综合平衡。

亮点与洞察¶

把 ensemble member selection 显式建模成一个内层 bandit 是最清晰的创新点。它没有推翻 ensemble sampling 的原有范式，而是指出原范式里被忽略的一块后验：成员索引本身也应该随 reward 更新。
这个框架很适合工程系统，因为它是“加一层”而不是“换整套模型”。已有 ensemble+、hypermodel、DQN ensemble 都能接入，只是 index distribution 的具体参数化和更新方式不同。
BE-DQN 的行为网络采样与 target 加权平均之间有一个有趣分工：前者鼓励 temporally coherent exploration，后者降低 bootstrapping target 的波动。这比“所有网络简单平均后行动”更适合需要连续探索轨迹的 RL 任务。
论文把 bandit 推荐场景和 MiniGrid RL 放在同一框架下讲，说明 Bayesian Ensemble 关注的是更抽象的序贯决策不确定性，而不是某个特定 benchmark trick。

局限与展望¶

BEB 的效果依赖 reward 是否能为成员质量提供足够清晰的信号。若 reward 极稀疏、强延迟或高度随机，简单 Beta 更新可能会把偶然成功误判为成员质量差异。
理论分析主要围绕简化 MDP 中的 TAE 方差，能解释稳定性边界，但还不能完整覆盖随机 reward、函数逼近误差和复杂策略分布共同作用下的 regret 或 sample complexity。
hypermodel(BEB) 的连续 index 更新需要变分推断，成本明显高于离散 Beta 更新。实际大规模系统里，如何选择更新频率、近似族和 replay 数据窗口仍需要更细的工程研究。
BE-DQN 实验集中在 MiniGrid 和少量附加环境，尚未验证 Atari、连续控制或离线 RL 等更复杂设置。尤其在离线数据分布偏移下，偏向高 reward 成员可能放大 extrapolation error，需要额外约束。
当前设计主要根据二值 reward 更新 Beta 分布。对于多值、连续或风险敏感 reward，可以考虑使用更匹配的 likelihood 和 posterior approximation，而不是把奖励粗糙二值化。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把 index distribution 纳入贝叶斯反馈闭环很自然但抓得准，对现有 ensemble TS 和 DQN 都有统一解释。
实验充分度: ⭐⭐⭐⭐☆ 覆盖合成 bandit、真实推荐和 MiniGrid RL，并有成本分析；但更大规模 RL 和离线 RL 验证还不够。
写作质量: ⭐⭐⭐⭐☆ 主线清楚，算法和理论边界交代完整；部分表格编号和 typo 略影响阅读，例如 Yahoo!R6B 表格引用编号有混乱。
价值: ⭐⭐⭐⭐☆ 作为轻量插件很有实用价值，特别适合已有 ensemble 系统；长期价值取决于复杂 reward 下 index posterior 更新的稳健性。