跳转至

Near-Optimal Sample Complexity Bounds for Constrained Average-Reward MDPs

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=PCuvo9uIXK
代码: 暂无(纯理论)
领域: 学习理论 / 强化学习理论
关键词: 约束平均奖励 MDP, 样本复杂度, 生成模型, 原始-对偶, minimax 下界, Slater 常数

一句话总结

本文给出了约束平均奖励 MDP(CAMDP)在生成模型下学习 ε-最优策略的首个近 minimax-最优样本复杂度上下界:松弛可行设定下 \(\tilde O\big(SA(B+H)/\varepsilon^2\big)\),严格可行设定下 \(\tilde O\big(SA(B+H)/(\varepsilon^2\zeta^2)\big)\),并配以匹配的下界,刻画了长期约束如何影响学习难度。

研究背景与动机

  • 领域现状:无约束平均奖励 MDP(AMDP)的样本复杂度近年已被基本刻画清楚——Zurek & Chen (2024) 在生成模型下证明 \(\tilde\Theta\big(SA(B+H)/\varepsilon^2\big)\) 的近 minimax-最优率,其中 \(H\) 是最优偏置函数的 span、\(B\) 是 transient time。折扣型约束 MDP(discounted CMDP)也已有 Vaswani et al. (2022) 给出的 minimax-最优界。
  • 现有痛点约束平均奖励 MDP(CAMDP)几乎空白——智能体既要最大化稳态长期平均奖励、又要满足一个对成本/风险/资源的平均约束(对应长期公平、可持续、安全部署),但此前没有任何关于 CAMDP 学习的样本复杂度结果,松弛与严格可行设定下的统计极限完全未知。
  • 核心矛盾:折扣型 CMDP 的分析技术(如 Bellman 收缩性)在平均奖励设定下失效——没有 episode reset、没有几何折扣,必须直接对长期稳态行为做无折扣推理;约束的引入又叠加了原始-对偶耦合和可行域大小(Slater 常数 \(\zeta\))的影响。
  • 本文目标:在生成模型(simulator,可对任意 \((s,a)\) 采样转移)下,刻画学到 ε-最优策略所需的样本量,覆盖松弛可行(允许约束被违反至多 ε)与严格可行(约束零违反)两种设定,并给出匹配上下界。
  • 核心 idea[降维归约 + 原始-对偶] 把带约束的平均奖励问题,归约为求解一串"用拉格朗日乘子加权奖励"的无约束 AMDP,再用现成的 AMDP 黑盒求解器逐个解;约束满足度则通过对偶变量的投影梯度上升来调控,并用 Slater 常数收紧严格可行所需的对偶范围。

方法详解

整体框架

算法是一个基于模型(model-based)的原始-对偶迭代器:先对每个 \((s,a)\)\(N\) 个样本估计经验转移核 \(\hat P\),再在经验模型上交替执行"解一个无约束 AMDP(原始更新)"与"投影梯度更新拉格朗日乘子(对偶更新)",最终输出 \(T\) 次迭代的混合策略 \(\hat\pi=\frac{1}{T}\sum_t\hat\pi_t\)。同一套算法通过参数化(约束右端 \(b'\)、对偶上界 \(U\)、采样数 \(N\))即可同时实例化松弛与严格两种设定。

flowchart LR
    A["生成模型采样<br/>每个(s,a)采N个样本"] --> B["经验转移核 P̂<br/>+ 奖励扰动 rp"]
    B --> C{"原始-对偶迭代 t=0..T-1"}
    C --> D["原始更新: 黑盒解无约束AMDP<br/>π̂t = argmax ρ(rp+λt·c)"]
    D --> E["对偶更新: 投影梯度<br/>λt+1 = P[0,U](λt - η(ρc-b'))"]
    E --> C
    C --> F["输出混合策略<br/>π̂ = (1/T)Σ π̂t"]

关键设计

1. 归约到一串无约束 AMDP:把约束塞进奖励里。 算法不直接求解带约束的优化 \(\max_\pi \rho^\pi_r(s)\ \text{s.t.}\ \rho^\pi_c(s)\ge b\),而是把它写成鞍点问题 \(\max_\pi\min_{\lambda\ge0}\big[\rho^\pi_r(s)+\lambda(\rho^\pi_c(s)-b')\big]\),于是每次原始更新只需解一个奖励为 \(r_p+\lambda_t c\)无约束平均奖励 MDP \(\hat\pi_t=\arg\max_\pi \rho^\pi_{r_p+\lambda_t c}\)。这一步可调用任意现成黑盒求解器(如 policy iteration),从而把"约束 + 平均奖励"这一困难问题,转化为"已有近最优样本复杂度结果的无约束 AMDP",让 Zurek & Chen 的 \(SA(B+H)/\varepsilon^2\) 机制得以复用。

2. 经验 AMDP 的折扣化 + 奖励扰动:让无约束子问题可控求解。 直接在无折扣经验模型上求解会因缺乏收缩性而不稳定,作者把每个经验 AMDP 近似成一个折扣因子 \(\gamma=1-\frac{\varepsilon_{\text{opt}}}{4(B+H)}\) 的折扣 MDP(折扣越接近 1 越逼近平均奖励,而 \(\bar\varepsilon=B+H\) 正好把 transient time 与 bias span 写进 horizon 里),并对奖励加均匀扰动 \(r_p(s,a)=r(s,a)+Z(s,a),\ Z\sim U[0,\omega]\) 以保证 Blackwell-最优策略的唯一性与稳定性。\(\gamma\)\(\omega=(1-\gamma)\bar\varepsilon/6\) 的耦合设置使得折扣近似误差被 \(B+H\) 精确控制,是把平均奖励复杂度参数 \(B,H\) 引入界中的关键。

3. 对偶投影梯度 + Slater 常数收紧 \(|\lambda^\star|\):把约束违反压到目标精度。 对偶变量按 \(\lambda_{t+1}=P_{[0,U]}\big(\lambda_t-\eta(\rho^{\hat\pi_t}_c(s)-b')\big)\) 更新,并投影到 \([0,U]\),其中 \(U\) 取为最优乘子 \(|\lambda^\star|\) 的上界。Theorem 1 给出,取 \(T=\frac{U^2}{\varepsilon_{\text{opt}}^2}\big[1+\frac{1}{(U-\lambda^\star)^2}\big]\)\(\eta=U/\sqrt T\) 时混合策略满足 \(\rho^{\hat\pi}_{r_p}(s)\ge\rho^{\hat\pi^\star}_{r_p}(s)-\varepsilon_{\text{opt}}\)\(\rho^{\hat\pi}_c(s)\ge b'-\varepsilon_{\text{opt}}\)。关键在于用 Slater 常数 \(\zeta=\max_\pi\rho^\pi_c(s)-b\)(可行裕度) 来界定 \(|\lambda^\star|\):松弛设定下 \(|\lambda^\star|\le \frac{2(1+\omega)}{\varepsilon+\varepsilon_{\text{opt}}}\),而严格设定要把约束违反完全消除,需要把对偶上界放大到 \(\propto 1/\zeta\),这正是严格设定多出 \(1/\zeta^2\) 因子的根源。

4. 松弛 vs 严格的参数实例化:用约束收紧量 \(b'\) 切换两种保证。 同一算法通过设 \(b'=b-\frac{3\varepsilon}{8}\)(松弛,故意松一点容忍 ε 违反)或把约束右端收紧 \(b'>b\)(严格,预留裕度以保证零违反)来切换。松弛设定取 \(N=\tilde O\big(SA(B+H)/\varepsilon^2\big)\) 即可让经验约束值函数对最优策略 \(\pi^\star\) 和输出策略 \(\hat\pi\) 同时充分集中(\(|\rho^\pi_c-\hat\rho^\pi_c|\le\frac{\varepsilon-\varepsilon_{\text{opt}}}{2}\)),从而约束违反 \(\le\varepsilon\) 且奖励次优性可分解控制;严格设定因为要把裕度提升到 \(\zeta\) 级别,采样数相应放大 \(1/\zeta^2\)

实验关键数据

本文为纯理论工作,无数值实验,核心"结果表"即其证明的样本复杂度上下界。

主结果:样本复杂度上下界

设定 约束保证 样本复杂度上界 下界
松弛可行 (relaxed) \(\rho^{\hat\pi}_c\ge b-\varepsilon\) \(\tilde O\big(SA(B+H)/\varepsilon^2\big)\)
严格可行 (strict) \(\rho^{\hat\pi}_c\ge b\)(零违反) \(\tilde O\big(SA(B+H)/(\varepsilon^2\zeta^2)\big)\) \(\tilde\Omega\big(SA(B+H)/(\varepsilon^2\zeta^2)\big)\)

均要求 \(\rho^{\hat\pi}_r(s)\ge\rho^\star_r(s)-\varepsilon\)\(S,A\) 为状态/动作数,\(H\) 为 bias span,\(B\) 为 transient time,\(\zeta\) 为 Slater 常数。

与已有结果的对照

工作 设定 约束
Zurek & Chen (2024) 平均奖励 无约束 \(\tilde\Theta\big(SA(B+H)/\varepsilon^2\big)\)
Vaswani et al. (2022) 折扣 有约束 minimax-最优(折扣型)
本文 平均奖励 有约束 \(\tilde O\big(SA(B+H)/\varepsilon^2\big)\) / \(\tilde\Theta\big(SA(B+H)/(\varepsilon^2\zeta^2)\big)\)

关键发现

  • 松弛与严格之间存在可证分离:严格可行比松弛可行在样本复杂度上多出 \(1/\zeta^2\) 因子,且通过匹配下界证明该依赖是必要的——这是 CAMDP 严格可行设定的首个下界。
  • 松弛设定的率与无约束 AMDP 完全一致\(\tilde O(SA(B+H)/\varepsilon^2)\)),说明"容忍 ε 约束违反"时,约束在主阶意义上几乎不增加学习难度。
  • 上界对 \(S,A,B,H\) 均达 minimax-最优,统一并推广了无约束平均奖励与折扣型约束两条已有结果线。

亮点与洞察

  • 填补空白:CAMDP 在生成模型下样本复杂度的"首个"近最优上下界,把无约束 AMDP 与折扣型 CMDP 两套已有理论真正接上。
  • 归约思想优雅:把"约束 + 平均奖励"这一双重困难问题,拆成"对偶迭代 + 无约束 AMDP 黑盒",从而直接搭车 Zurek & Chen 的最优机制,避免重造平均奖励的集中分析。
  • 下界揭示本质\(1/\zeta^2\) 不是分析松弛带来的人造因子,而是严格可行的内在统计代价——可行域越窄(\(\zeta\) 越小),要"零违反"地学就越贵。
  • 算法对 \(\zeta\) 的依赖可用估计值替代,不需精确已知,工程上更可落地。

局限与展望

  • 生成模型假设较强:依赖可对任意 \((s,a)\) 采样的 simulator,未覆盖只能在线探索(无 reset)的更现实设定,online CAMDP 的近最优率仍开放。
  • 奖励/约束函数已知:假设 \(r,c\) 已知、仅 \(P\) 未知,虽不影响主阶复杂度,但完整未知奖励的刻画未给。
  • 多个约束、未知 \(\zeta\) 的精确刻画:本文聚焦单约束,多约束与 \(\zeta\) 估计误差如何精确进入界仍可深挖。
  • 算法常数与对数因子(\(\tilde O\) 隐藏项)以及实际数值表现未做实验验证。

相关工作与启发

  • 无约束平均奖励 MDP:Zurek & Chen (2024) 的 \(\tilde\Theta(SA(B+H)/\varepsilon^2)\) 是本文原始更新黑盒可复用的基石;transient time 参数 \(B\) 用于处理 multichain。
  • 折扣型约束 MDP:Vaswani et al. (2022) 的对偶线性规划/对偶下降给出了折扣型 minimax-最优界与原始-对偶模板,本文将其思想迁移到平均奖励(但需克服 Bellman 收缩失效)。
  • 在线 CAMDP:Bai et al. (2024) 研究 model-free 在线设定下的 sublinear regret,关注渐近行为,与本文的有限样本生成模型保证互补。
  • 启发:把困难的结构化约束问题"归约到一串已有最优结果的无约束子问题 + 对偶调控"是一种通用范式;Slater 常数作为可行裕度,是连接"约束严格度"与"统计代价"的自然桥梁,可推广到其他约束学习场景。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — CAMDP 生成模型下首个近 minimax-最优上下界,并证明松弛/严格的可分离性,填补明确空白。
  • 实验充分度: ⭐⭐⭐ — 纯理论工作无数值实验,但上下界匹配、推导完整,理论"实验"层面充分(按理论论文标准给中等偏上)。
  • 写作质量: ⭐⭐⭐⭐ — 问题定义、参数(\(H,B,\zeta\))、归约思路与证明 sketch 组织清晰,定理陈述规范。
  • 价值: ⭐⭐⭐⭐⭐ — 统一并推广无约束 AMDP 与折扣 CMDP 两条线,为安全/公平/资源约束下的长期 RL 提供了基础统计极限,理论价值高。