Sequential Monte Carlo for Policy Optimization in Continuous POMDPs¶
会议: NeurIPS 2025
arXiv: 2505.16732
代码: 无
领域: 强化学习
关键词: POMDP, sequential Monte Carlo, policy gradient, partial observability, Feynman-Kac
一句话总结¶
提出基于非马尔可夫 Feynman-Kac 模型的嵌套 SMC(Sequential Monte Carlo)算法,在连续 POMDP 中实现策略优化,天然捕获信息收集价值而无需手工启发式。
研究背景与动机¶
领域现状:部分可观测马尔可夫决策过程(POMDP)中的最优决策要求智能体平衡减少不确定性(探索)与追求即时目标(利用)。
现有痛点:现有连续 POMDP 策略优化方法要么使用次优近似(如信念点方法),要么依赖手工启发式奖励塑造来鼓励探索。
核心矛盾:POMDP 的信念空间是无限维的,直接优化计算不可行;但简化近似会丢失信息收集的价值。
切入角度:将策略学习转化为概率推断问题,通过 Feynman-Kac 模型自然编码信息价值。
方法详解¶
整体框架¶
将 POMDP 策略优化映射到非马尔可夫 Feynman-Kac 模型中的概率推断:最优轨迹分布由 POMDP 的奖励结构定义,策略梯度在该分布下通过嵌套 SMC 估计。
关键设计¶
-
Feynman-Kac 模型构建
- 功能:将 POMDP 的值函数编码为 Feynman-Kac 路径积分
- 核心思路:\(\mathcal{Z}_\theta = \mathbb{E}_{\pi_\theta}\left[\prod_{t=0}^T G_t(s_{0:t}, o_{0:t})\right]\)
- 设计动机:FK 模型天然通过预期未来观测来编码信息收集的价值
-
嵌套 SMC 算法
- 外层 SMC:在历史空间中采样轨迹
- 内层 SMC:对给定历史进行信念更新
- 核心思路:外层粒子表示不同行为轨迹,内层粒子跟踪信念状态
- 设计动机:嵌套结构解耦策略评估和信念维护
-
历史依赖策略梯度
- 功能:计算关于策略参数的梯度
- 核心思路:通过 SMC 采样的轨迹估计 \(\nabla_\theta \log \pi_\theta\) 的期望
- 支持非马尔可夫策略(依赖完整观测历史)
训练策略¶
- 粒子数逐步增加的退火策略
- RNN/Transformer 参数化策略网络以处理历史序列
- 自然梯度版本用于改善收敛
实验关键数据¶
主实验:连续 POMDP 基准(累积奖励↑)¶
| 环境 | QMDP | POMCP | Belief-PPO | RNN-PPO | FK-SMC |
|---|---|---|---|---|---|
| Tiger | -12.3 | -5.7 | -8.2 | -6.1 | -3.4 |
| LightDark | 45.2 | 78.3 | 62.1 | 71.5 | 85.7 |
| Navigation | 32.1 | 58.6 | 48.3 | 55.2 | 67.3 |
| Active Sensing | 18.7 | 42.3 | 31.5 | 38.9 | 52.1 |
消融实验:SMC 粒子数影响¶
| 粒子数 (外/内) | LightDark 奖励 | 计算时间(s/iter) |
|---|---|---|
| 16/16 | 72.3 | 0.8 |
| 32/32 | 79.5 | 2.1 |
| 64/64 | 83.1 | 5.6 |
| 128/128 | 85.7 | 14.2 |
| 256/256 | 86.1 | 38.5 |
策略类型消融¶
| 策略参数化 | LightDark 奖励 | Navigation 奖励 |
|---|---|---|
| 线性策略 | 61.2 | 38.7 |
| RNN 策略 | 79.8 | 58.3 |
| GRU 策略 | 82.4 | 62.1 |
| Transformer 策略 | 85.7 | 67.3 |
关键发现¶
- FK-SMC 在所有需要主动信息收集的环境中大幅领先
- Tiger 环境中改进最显著——该环境最需要探索-利用平衡
- 128 粒子在性能与计算间取得最佳平衡
- 非马尔可夫策略(Transformer)的优势在长 horizon 任务中更明显
亮点与洞察¶
- 理论优雅:用概率推断框架解决 RL 问题,FK 模型天然编码信息价值
- 无需人工启发式:不需要好奇心奖励、信息增益奖励等手工设计
- 嵌套 SMC 算法在理论上可证明收敛
- 首次将 FK 路径积分引入 POMDP 策略优化
局限与展望¶
- 嵌套 SMC 的计算成本随粒子数平方增长
- 高维观测空间(如图像)的扩展需要结合深度信念模型
- 与 Transformer-based memory 方法的比较不充分
- 连续动作空间的重采样步骤需要特殊处理
- 长 horizon(>100 步)下 SMC 的粒子退化问题
相关工作与启发¶
- POMCP (Silver & Veness 2010) 蒙特卡洛树搜索
- SMC² (Chopin et al. 2013) 嵌套 SMC
- 控制即推断框架 (Levine 2018)
- Dreamer 系列 (Hafner et al. 2020) 世界模型
- 启发:FK 模型可推广到 risk-sensitive RL 和多智能体 Dec-POMDP
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ FK+嵌套SMC的策略优化范式新颖
- 实验充分度: ⭐⭐⭐⭐ 多环境+粒子数消融+策略消融
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰
- 价值: ⭐⭐⭐⭐ 推进POMDP理论与实践