ICLR 2026 强化学习认知不确定性贝叶斯 RL 概率推断 minimax 最优后悔界样本复杂度

EUBRL: Epistemic Uncertainty Directed Bayesian Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KASqlcI6Nm
代码: 待确认
领域: 强化学习 / 贝叶斯强化学习 / 探索
关键词: 认知不确定性、贝叶斯 RL、概率推断、minimax 最优、后悔界、样本复杂度

一句话总结¶

EUBRL 把"认知不确定性"通过概率推断直接写进 RL 目标函数，用一个二值"不确定变量"在探索与利用之间自适应切换，理论上首次在无折扣无限时域 MDP 下同时拿到接近 minimax 最优的后悔界与样本复杂度。

研究背景与动机¶

领域现状：探索是 RL 的核心难题，从 \(\epsilon\)-greedy、Boltzmann 到"乐观面对不确定性"（optimism in the face of uncertainty）。贝叶斯 RL 把对转移与奖励的不确定性显式建模为后验信念，认知不确定性（epistemic uncertainty）天然刻画了"环境哪块还没摸熟"，为有原则的探索提供了基础。
现有痛点：主流乐观法把不确定性作为 bonus 直接加到奖励上 \(\tilde r = r_b + \eta r_{\text{bonus}}\)。但当 \(r_b\) 本身估计不准时，奖励里的小误差会沿值函数传播放大，导致不必要探索与收敛变慢。而已有贝叶斯方法（PSRL、BEB、VBRB 等）对后验不确定性的利用很有限，也缺乏对探索能力的系统实证。
核心矛盾：不确定性越高越该去探索，但不确定性越高奖励估计越不可靠——把两者耦合在同一个奖励标量里，会让"想探索"和"信不过估计"互相污染。
本文目标：在无限时域折扣 MDP 下，设计一个既简单、又能用任意贝叶斯模型、还能拿到接近 minimax 最优后悔界与样本复杂度的探索算法。
核心 idea：【认知引导】 用概率推断把探索与利用解耦——引入一个二值"不确定变量" \(U\)，对其边缘化后得到逐步似然的下界，从而把奖励改写成"利用项"与"认知不确定性项"按不确定概率的凸组合，让 agent 在不确定时偏向探索、在自信时偏向利用。

方法详解¶

整体框架¶

EUBRL 在 mean-MDP 框架上做交替迭代：每一步先用共轭先验闭式更新信念 \(b\)，得到后验预测转移 \(P_b\) 与后验预测奖励 \(r_b\)，再把奖励替换为"认知引导奖励" \(r_b^{\text{EUBRL}}\)，构造 MDP \(\mathcal M=(S,A,P_b,r_b^{\text{EUBRL}},\gamma)\) 并用值迭代求策略。关键差异不在算法骨架，而在奖励怎么写——它由概率推断推导而来，而非手工 bonus。

flowchart LR
    A[先验 b0] --> B[闭式信念更新]
    B --> C[后验预测 Pb, rb]
    C --> D[计算认知不确定性 Eb]
    D --> E[认知引导奖励 r_EUBRL]
    E --> F[构造 mean-MDP 值迭代求 π]
    F --> G[与环境交互采样]
    G --> B

关键设计¶

1. 广义认知不确定性 \(E_b\)：统一刻画"对环境多陌生"。 认知不确定性度量信念中模型参数 \(w\) 的"分歧程度"。对转移定义 \(E_T(s,a)=f\circ g(P_b(s'|s,a))-\mathbb E_{w\sim b}[f\circ g(P(s'|s,a,w))]\)，选不同的 \(f,g\) 即可退化为方差（\(f(x)=-x^2\)）或互信息（\(f=H\)）两种常见度量；奖励侧 \(E_R\) 同理。两源用 \(h(x,y)=\eta(\sqrt x+\sqrt y)\) 聚合成统一量 \(E_b(s,a):=h(E_T,E_R)\)。这个抽象让算法可插任意不确定度量，而非绑死某一种。

2. 概率推断 + 认知引导奖励：解耦探索与利用。 标准 RL 可写成推断问题——引入二值"最优性"变量 \(O_t\)，令 \(P(O_t=1|s_t,a_t)\propto\exp(r(s_t,a_t))\) 后最大化 \(\log\prod_t P(O_t=1)\)。EUBRL 再引入一个二值"不确定变量" \(U_t\)，对其边缘化并用 Jensen 取下界 \(\log P(O_t=1)\ge \mathbb E_{U_t}[\log P(O_t=1|s_t,a_t,U_t)]\)。沿用指数变换后得到核心的认知引导奖励：

\[r_b^{\text{EUBRL}}(s,a):=(1-P(U=1|s,a))\,r_b(s,a)+P(U=1|s,a)\,E_b(s,a).\]

它是"利用项 \(r_b\)"与"探索项 \(E_b\)"按不确定概率 \(P_U\) 的凸组合而非相加——不确定时几乎不看奖励估计、专注探索，自信时则承诺利用已学到的东西，从而对不可靠的奖励估计更鲁棒。其中 \(P(U=1|s,a)=E_b(s,a)/E_{\max}\)，随证据累积自然从"早期对奖励无所谓"过渡到"后期坚定利用"。

3. 通用算法配方：reset + 策略更新的组合自适应两种时域。 Algorithm 1 交替"后验更新 ↔ 策略学习"，借共轭性让信念更新、认知不确定性、后验预测全部闭式。通过调整"何时 reset、何时更新策略"这一组合，同一套配方同时覆盖无限时域折扣 MDP（每步更新、不 reset）与有限时域分幕 MDP（每 \(H\) 步更新并 reset），并避免了乐观法里 knownness、定制 bonus 这类复杂设计，原则上可配任意贝叶斯模型。

理论分析（核心结论）¶

逐步后悔被分解为 \(V^\star-V^{\pi_t}=\underbrace{V^\star-\tilde V^t}_{\text{quasi-optimism}}+\underbrace{\tilde V^t-V^t}_{\text{complexity}}+\underbrace{V^t-V^{\pi_t}}_{\text{accuracy}}\)。论文证明逐步后悔被一个含"认知阻力 \(\mathcal R_t\)"的项压低——动作越不确定，逐步后悔越小（Theorem 1），凸显认知不确定性的作用。最终给出：无限时域折扣 MDP 下 frequentist 后悔界 \(\tilde O\big(\sqrt{SAT}/(1-\gamma)^{1.5}+S^2A/(1-\gamma)^2\big)\)（Theorem 2，改进 He et al. 2021）与样本复杂度 \(\tilde O\big(SA/(\epsilon^2(1-\gamma)^3)+\cdots\big)\)（Theorem 3），并把结论延拓到一类"可分解/弱信息"先验（Dirichlet+Normal 共轭即满足，达到接近 minimax 最优，Theorem 4 / Corollary 1）。同时诚实指出失败情形：Normal-Gamma 在近确定环境下认知不确定性可能退化为零而违反 quasi-optimism（Prop. 1），先验严重误设时可能不收敛（Theorem 5）。

实验关键数据¶

主实验表格（Chain 与 Loop，500 seeds × 1000 步）¶

算法	Chain 平均回报	Loop(2) 平均回报
PSRL	3158	377
RMAX	3090	394
Mean-MDP	3078	233
BEB	3430	386
MBIE-EB	3462	—
VBRB	3465	—
EUBRL	3473 (SE 16)	395 (SE 0.04)

EUBRL 在两个经典任务上回报最高且方差极低；Mean-MDP（无 bonus）一致垫底，印证"持续高效探索离不开 reward bonus"。

消融 / 扩展实验¶

设置	现象
Loop 增加循环数（更稀疏）	即便给 RMAX 完美先验，其扩展性仍不如 EUBRL，说明先验有"平滑"效应
DeepSea（确定/随机变体）	EUBRL 样本效率、扩展性、一致性更优；EUBRL+ 在随机变体上零失败完整求解（前人未达到）
LazyChain（长时域+稀疏+短视）	EUBRL 一致领先，重噪声注入下仍稳健
Tied Prior（全局共享 Dirichlet）	收敛所需样本更少、成功率更高
MI 替代方差作不确定度量	步数略多但总体成功率最高，更具探索性

关键发现¶

把不确定性写进目标函数（凸组合）比写进奖励（加 bonus）对不可靠估计更鲁棒，PSRL 因采样过于频繁反而在收敛附近抖动、扩展性差。
贝叶斯先验在稀疏环境中起平滑作用，使方法随问题规模扩展更优雅。

亮点与洞察¶

方法极简却理论强：一条"凸组合奖励"同时拿下无限时域 frequentist 后悔界 + 样本复杂度的接近 minimax 最优，且号称是首个在无生成模型假设下达到该样本复杂度的在线算法。
探索/利用真正解耦：用二值不确定变量的概率 \(P_U\) 自然实现"早期不信奖励、后期坚定利用"的相位过渡，而非靠手工退火。
诚实报告失败模式：主动给出 Normal-Gamma 退化与先验误设的反例，明确 \(\eta\) 与先验选择的关键性，理论自洽性强。

局限与展望¶

实验局限于表格型小环境（Chain/Loop/DeepSea/LazyChain），大规模/连续状态需借助树搜索或函数逼近近似求解，未实证。
依赖共轭先验得到闭式更新；先验误设（认知不确定性过低）会导致不收敛，对先验选择敏感。
开放问题：如何跨多层级（hierarchies）捕获认知不确定性，进一步减少对手工奖励的依赖。

评分¶

新颖性: ⭐⭐⭐⭐ — 概率推断把认知不确定性写进目标函数的凸组合形式新颖，理论上首次同时拿下无限时域后悔+样本复杂度接近最优。
实验充分度: ⭐⭐⭐ — 任务设计针对性强（稀疏/长时域/随机），但局限于表格小环境，缺大规模与深度 RL 验证。
写作质量: ⭐⭐⭐⭐ — 推导清晰、动机层层递进，且主动给出失败反例，理论叙事完整。
价值: ⭐⭐⭐⭐ — 为有原则探索提供了兼具理论保证与实证优势的简洁配方，对贝叶斯 RL 探索研究有方法论价值。