Sequential Monte Carlo for Policy Optimization in Continuous POMDPs¶

会议: NeurIPS 2025
arXiv: 2505.16732
代码: 无
领域: 强化学习
关键词: POMDP, sequential Monte Carlo, policy gradient, partial observability, Feynman-Kac

一句话总结¶

提出基于非马尔可夫 Feynman-Kac 模型的嵌套 SMC（Sequential Monte Carlo）算法，在连续 POMDP 中实现策略优化，天然捕获信息收集价值而无需手工启发式。

领域现状：部分可观测马尔可夫决策过程（POMDP）中的最优决策要求智能体平衡减少不确定性（探索）与追求即时目标（利用）。

现有痛点：现有连续 POMDP 策略优化方法要么使用次优近似（如信念点方法），要么依赖手工启发式奖励塑造来鼓励探索。

核心矛盾：POMDP 的信念空间是无限维的，直接优化计算不可行；但简化近似会丢失信息收集的价值。

切入角度：将策略学习转化为概率推断问题，通过 Feynman-Kac 模型自然编码信息价值。

将 POMDP 策略优化映射到非马尔可夫 Feynman-Kac 模型中的概率推断：最优轨迹分布由 POMDP 的奖励结构定义，策略梯度在该分布下通过嵌套 SMC 估计。

Feynman-Kac 模型构建
- 功能：将 POMDP 的值函数编码为 Feynman-Kac 路径积分
- 核心思路：\(\mathcal{Z}_\theta = \mathbb{E}_{\pi_\theta}\left[\prod_{t=0}^T G_t(s_{0:t}, o_{0:t})\right]\)
- 设计动机：FK 模型天然通过预期未来观测来编码信息收集的价值
嵌套 SMC 算法
- 外层 SMC：在历史空间中采样轨迹
- 内层 SMC：对给定历史进行信念更新
- 核心思路：外层粒子表示不同行为轨迹，内层粒子跟踪信念状态
- 设计动机：嵌套结构解耦策略评估和信念维护
历史依赖策略梯度
- 功能：计算关于策略参数的梯度
- 核心思路：通过 SMC 采样的轨迹估计 \(\nabla_\theta \log \pi_\theta\) 的期望
- 支持非马尔可夫策略（依赖完整观测历史）

环境	QMDP	POMCP	Belief-PPO	RNN-PPO	FK-SMC
Tiger	-12.3	-5.7	-8.2	-6.1	-3.4
LightDark	45.2	78.3	62.1	71.5	85.7
Navigation	32.1	58.6	48.3	55.2	67.3
Active Sensing	18.7	42.3	31.5	38.9	52.1