跳转至

EUBRL: Epistemic Uncertainty Directed Bayesian Reinforcement Learning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KASqlcI6Nm
代码: 待确认
领域: 强化学习 / 贝叶斯强化学习 / 探索
关键词: 认知不确定性、贝叶斯 RL、概率推断、minimax 最优、后悔界、样本复杂度

一句话总结

EUBRL 把"认知不确定性"通过概率推断直接写进 RL 目标函数,用一个二值"不确定变量"在探索与利用之间自适应切换,理论上首次在无折扣无限时域 MDP 下同时拿到接近 minimax 最优的后悔界与样本复杂度。

研究背景与动机

  • 领域现状:探索是 RL 的核心难题,从 \(\epsilon\)-greedy、Boltzmann 到"乐观面对不确定性"(optimism in the face of uncertainty)。贝叶斯 RL 把对转移与奖励的不确定性显式建模为后验信念,认知不确定性(epistemic uncertainty)天然刻画了"环境哪块还没摸熟",为有原则的探索提供了基础。
  • 现有痛点:主流乐观法把不确定性作为 bonus 直接加到奖励上 \(\tilde r = r_b + \eta r_{\text{bonus}}\)。但当 \(r_b\) 本身估计不准时,奖励里的小误差会沿值函数传播放大,导致不必要探索与收敛变慢。而已有贝叶斯方法(PSRL、BEB、VBRB 等)对后验不确定性的利用很有限,也缺乏对探索能力的系统实证。
  • 核心矛盾:不确定性越高越该去探索,但不确定性越高奖励估计越不可靠——把两者耦合在同一个奖励标量里,会让"想探索"和"信不过估计"互相污染。
  • 本文目标:在无限时域折扣 MDP 下,设计一个既简单、又能用任意贝叶斯模型、还能拿到接近 minimax 最优后悔界与样本复杂度的探索算法。
  • 核心 idea【认知引导】 用概率推断把探索与利用解耦——引入一个二值"不确定变量" \(U\),对其边缘化后得到逐步似然的下界,从而把奖励改写成"利用项"与"认知不确定性项"按不确定概率的凸组合,让 agent 在不确定时偏向探索、在自信时偏向利用。

方法详解

整体框架

EUBRL 在 mean-MDP 框架上做交替迭代:每一步先用共轭先验闭式更新信念 \(b\),得到后验预测转移 \(P_b\) 与后验预测奖励 \(r_b\),再把奖励替换为"认知引导奖励" \(r_b^{\text{EUBRL}}\),构造 MDP \(\mathcal M=(S,A,P_b,r_b^{\text{EUBRL}},\gamma)\) 并用值迭代求策略。关键差异不在算法骨架,而在奖励怎么写——它由概率推断推导而来,而非手工 bonus。

flowchart LR
    A[先验 b0] --> B[闭式信念更新]
    B --> C[后验预测 Pb, rb]
    C --> D[计算认知不确定性 Eb]
    D --> E[认知引导奖励 r_EUBRL]
    E --> F[构造 mean-MDP 值迭代求 π]
    F --> G[与环境交互采样]
    G --> B

关键设计

1. 广义认知不确定性 \(E_b\):统一刻画"对环境多陌生"。 认知不确定性度量信念中模型参数 \(w\) 的"分歧程度"。对转移定义 \(E_T(s,a)=f\circ g(P_b(s'|s,a))-\mathbb E_{w\sim b}[f\circ g(P(s'|s,a,w))]\),选不同的 \(f,g\) 即可退化为方差\(f(x)=-x^2\))或互信息\(f=H\))两种常见度量;奖励侧 \(E_R\) 同理。两源用 \(h(x,y)=\eta(\sqrt x+\sqrt y)\) 聚合成统一量 \(E_b(s,a):=h(E_T,E_R)\)。这个抽象让算法可插任意不确定度量,而非绑死某一种。

2. 概率推断 + 认知引导奖励:解耦探索与利用。 标准 RL 可写成推断问题——引入二值"最优性"变量 \(O_t\),令 \(P(O_t=1|s_t,a_t)\propto\exp(r(s_t,a_t))\) 后最大化 \(\log\prod_t P(O_t=1)\)。EUBRL 再引入一个二值"不确定变量" \(U_t\),对其边缘化并用 Jensen 取下界 \(\log P(O_t=1)\ge \mathbb E_{U_t}[\log P(O_t=1|s_t,a_t,U_t)]\)。沿用指数变换后得到核心的认知引导奖励:

\[r_b^{\text{EUBRL}}(s,a):=(1-P(U=1|s,a))\,r_b(s,a)+P(U=1|s,a)\,E_b(s,a).\]

它是"利用项 \(r_b\)"与"探索项 \(E_b\)"按不确定概率 \(P_U\)凸组合而非相加——不确定时几乎不看奖励估计、专注探索,自信时则承诺利用已学到的东西,从而对不可靠的奖励估计更鲁棒。其中 \(P(U=1|s,a)=E_b(s,a)/E_{\max}\),随证据累积自然从"早期对奖励无所谓"过渡到"后期坚定利用"。

3. 通用算法配方:reset + 策略更新的组合自适应两种时域。 Algorithm 1 交替"后验更新 ↔ 策略学习",借共轭性让信念更新、认知不确定性、后验预测全部闭式。通过调整"何时 reset、何时更新策略"这一组合,同一套配方同时覆盖无限时域折扣 MDP(每步更新、不 reset)与有限时域分幕 MDP(每 \(H\) 步更新并 reset),并避免了乐观法里 knownness、定制 bonus 这类复杂设计,原则上可配任意贝叶斯模型。

理论分析(核心结论)

逐步后悔被分解为 \(V^\star-V^{\pi_t}=\underbrace{V^\star-\tilde V^t}_{\text{quasi-optimism}}+\underbrace{\tilde V^t-V^t}_{\text{complexity}}+\underbrace{V^t-V^{\pi_t}}_{\text{accuracy}}\)。论文证明逐步后悔被一个含"认知阻力 \(\mathcal R_t\)"的项压低——动作越不确定,逐步后悔越小(Theorem 1),凸显认知不确定性的作用。最终给出:无限时域折扣 MDP 下 frequentist 后悔界 \(\tilde O\big(\sqrt{SAT}/(1-\gamma)^{1.5}+S^2A/(1-\gamma)^2\big)\)(Theorem 2,改进 He et al. 2021)与样本复杂度 \(\tilde O\big(SA/(\epsilon^2(1-\gamma)^3)+\cdots\big)\)(Theorem 3),并把结论延拓到一类"可分解/弱信息"先验(Dirichlet+Normal 共轭即满足,达到接近 minimax 最优,Theorem 4 / Corollary 1)。同时诚实指出失败情形:Normal-Gamma 在近确定环境下认知不确定性可能退化为零而违反 quasi-optimism(Prop. 1),先验严重误设时可能不收敛(Theorem 5)。

实验关键数据

主实验表格(Chain 与 Loop,500 seeds × 1000 步)

算法 Chain 平均回报 Loop(2) 平均回报
PSRL 3158 377
RMAX 3090 394
Mean-MDP 3078 233
BEB 3430 386
MBIE-EB 3462
VBRB 3465
EUBRL 3473 (SE 16) 395 (SE 0.04)

EUBRL 在两个经典任务上回报最高且方差极低;Mean-MDP(无 bonus)一致垫底,印证"持续高效探索离不开 reward bonus"。

消融 / 扩展实验

设置 现象
Loop 增加循环数(更稀疏) 即便给 RMAX 完美先验,其扩展性仍不如 EUBRL,说明先验有"平滑"效应
DeepSea(确定/随机变体) EUBRL 样本效率、扩展性、一致性更优;EUBRL+ 在随机变体上零失败完整求解(前人未达到)
LazyChain(长时域+稀疏+短视) EUBRL 一致领先,重噪声注入下仍稳健
Tied Prior(全局共享 Dirichlet) 收敛所需样本更少、成功率更高
MI 替代方差作不确定度量 步数略多但总体成功率最高,更具探索性

关键发现

  • 把不确定性写进目标函数(凸组合)比写进奖励(加 bonus)对不可靠估计更鲁棒,PSRL 因采样过于频繁反而在收敛附近抖动、扩展性差。
  • 贝叶斯先验在稀疏环境中起平滑作用,使方法随问题规模扩展更优雅。

亮点与洞察

  • 方法极简却理论强:一条"凸组合奖励"同时拿下无限时域 frequentist 后悔界 + 样本复杂度的接近 minimax 最优,且号称是首个在无生成模型假设下达到该样本复杂度的在线算法
  • 探索/利用真正解耦:用二值不确定变量的概率 \(P_U\) 自然实现"早期不信奖励、后期坚定利用"的相位过渡,而非靠手工退火。
  • 诚实报告失败模式:主动给出 Normal-Gamma 退化与先验误设的反例,明确 \(\eta\) 与先验选择的关键性,理论自洽性强。

局限与展望

  • 实验局限于表格型小环境(Chain/Loop/DeepSea/LazyChain),大规模/连续状态需借助树搜索或函数逼近近似求解,未实证。
  • 依赖共轭先验得到闭式更新;先验误设(认知不确定性过低)会导致不收敛,对先验选择敏感。
  • 开放问题:如何跨多层级(hierarchies)捕获认知不确定性,进一步减少对手工奖励的依赖。

相关工作与启发

  • 贝叶斯 RL:BAMDP(Duff 2002)、mean-MDP(Poupart 2006)、PSRL(Strens 2000)、VBRB(Sorg 2012,与本文最像但仅用方差、无认知引导)。
  • 可证高效 RL:knownness/PAC-MDP(Kakade 2003; Strehl & Littman 2008)、He et al. 2021(无限时域后悔最优)、quasi-optimism(Lee & Oh 2025,本文分析基石)。
  • 不确定性量化:方差(Kendall & Gal 2017)与互信息(Hüllermeier & Waegeman 2021)作为认知不确定性度量,呼应认知科学中的好奇心与惊讶记忆。
  • 启发:把"intrinsic motivation"从奖励 bonus 改写为目标函数中的概率推断项,是处理"不确定性既驱动探索又污染估计"这一矛盾的优雅范式,值得迁移到深度 RL 的探索设计。

评分

  • 新颖性: ⭐⭐⭐⭐ — 概率推断把认知不确定性写进目标函数的凸组合形式新颖,理论上首次同时拿下无限时域后悔+样本复杂度接近最优。
  • 实验充分度: ⭐⭐⭐ — 任务设计针对性强(稀疏/长时域/随机),但局限于表格小环境,缺大规模与深度 RL 验证。
  • 写作质量: ⭐⭐⭐⭐ — 推导清晰、动机层层递进,且主动给出失败反例,理论叙事完整。
  • 价值: ⭐⭐⭐⭐ — 为有原则探索提供了兼具理论保证与实证优势的简洁配方,对贝叶斯 RL 探索研究有方法论价值。