CVPR2026 视频理解 Visual-Inertial Odometry 强化学习自适应融合计算调度 IMU偏差估计 PPO

Dual-Agent Reinforcement Learning for Adaptive and Cost-Aware Visual-Inertial Odometry¶

会议: CVPR2026
arXiv: 2511.21083
代码: 待确认
领域: 视频理解 / 视觉里程计
关键词: Visual-Inertial Odometry, 强化学习, 自适应融合, 计算调度, IMU偏差估计, PPO

一句话总结¶

提出双智能体强化学习框架，通过 Select Agent（基于IMU信号决定是否启动视觉前端）和 Fusion Agent（自适应融合视觉-惯性状态）两个轻量RL策略，在不完全移除VIBA的前提下大幅降低其调用频率和计算开销，实现精度-效率-显存的更优折中。

研究背景与动机¶

VIO的核心矛盾：滤波方法（MSCKF、ROVIO）高效但漂移严重；优化方法（VINS-Mono、ORB-SLAM3）精度高但VIBA计算量大，难以部署在资源受限的边缘设备上。

端到端深度学习方法局限：VINet、SelfVIO等直接回归位姿，精度和泛化性仍不及成熟优化框架。

混合方法未解决根本瓶颈：iSLAM、DPVO等引入学习模块增强特征匹配或优化，但仍受限于VIBA的计算瓶颈。

现有关键帧选择策略低效：传统策略需要先处理图像才能判断帧是否有用，无法在视觉计算之前做出跳过决策。

固定融合权重不够灵活：静态的EKF或固定增益融合无法根据运动强度和传感器可靠性动态调整视觉/惯性的信任程度。

RL在里程计中的应用尚浅：已有工作（Messikommer et al.）仅用RL优化VO内部启发式，未从"是否启动整个VO流水线"的高层调度角度切入。

方法详解¶

整体框架¶

系统由四个解耦模块组成： - IMU Preprocess：IMU偏差编码器 + 预积分，输出帧间惯性状态 \((\Delta\mathbf{p}, \Delta\mathbf{q}, \Delta\mathbf{v}, \Delta t)\) - Select Agent：RL策略，仅基于IMU状态决定是否激活VO模块 - Visual Odometry：基于DPVO的补丁式循环优化，仅在Select Agent输出1时激活 - Fusion Agent：复合模块，MLP1监督估计速度 + MLP2 RL策略自适应融合全状态

关键设计¶

1. IMU偏差估计器 - 训练两个轻量编码网络 \(f_{bias}^g\)（陀螺）和 \(f_{bias}^a\)（加速度计），输入原始传感器序列和噪声参数，输出3轴偏差估计 - 选择估计固定偏差而非随机噪声，因偏差模型更适合捕捉缓慢变化的主导模式

2. Select Agent（RL调度） - 状态空间：IMU-only紧凑状态 \(s_t^{sel} = \{\Delta\mathbf{p}_t, \Delta\mathbf{q}_t, \Delta\mathbf{v}_t, \Delta t_t^{vo}\}\)，无需任何视觉特征 - 动作空间：二值决策 \(a_t^{sel} \in \{0, 1\}\)，0=跳过VO，1=运行VO - 奖励函数：终端ATE奖励 + 稠密逐步惩罚 + VO调用次数代价，\(R_{episode} = \frac{A}{ATE + \epsilon} - B \cdot N_f\) - 用PPO训练，MLP参数化策略

3. Fusion Agent（自适应融合） - MLP1（监督）：从缩放后VO位姿和IMU预积分估计度量速度 - MLP2（RL策略）：输出7维逐轴融合权重 \(\mathbf{w} \in [0,1]^7\)，对位置、速度做凸组合，对姿态做SLERP插值 - 当VO被跳过时 \(\mathbf{w}\) 默认为零，纯IMU传播 - 奖励：\(r_k = -\|\mathbf{p}_k - \mathbf{p}_{gt}\|_2^2 - \lambda \text{Tr}(\mathbf{\Sigma}_k)\)，同时驱动低误差和合理不确定性

4. 尺度初始化 - 对齐世界坐标系与初始IMU体坐标系，利用滑动窗口内IMU预积分和VO相对平移构造超定线性系统，最小二乘求解全局度量尺度 \(s\)

训练策略¶

两阶段训练：MLP1监督预训练 → MLP2先监督初始化再PPO微调
PPO在Gym-style回放环境中训练，使用真实IMU-VO对，天然包含传感器漂移和噪声

实验¶

主要结果¶

EuRoC MAV数据集（表1）：与经典CPU-VIO对比

方法	MH2	MH3	MH4	MH5	V11	V12	V13	V21	V22	V23	Avg
MSCKF	0.45	0.23	0.37	0.48	0.34	0.20	0.67	0.10	0.16	1.13	0.413
VINS-MONO	0.15	0.22	0.32	0.30	0.079	0.11	0.18	0.080	0.16	0.27	0.187
DM-VIO	0.044	0.097	0.102	0.096	0.048	0.045	0.069	0.029	0.050	0.114	0.069
ORB-SLAM3	0.037	0.046	0.075	0.057	0.049	0.015	0.037	0.042	0.021	0.027	0.041
Ours	0.064	0.119	0.112	0.112	0.047	0.125	0.073	0.055	0.036	0.179	0.092

GPU-based方法对比（表4）：精度+效率+显存统一评估

方法	Avg ATE	FPS	VRAM (GB)
DPVO	0.106	22	4.92
iSLAM	0.529	31	6.47
DROID-VO	0.188	14	8.63
Ours	0.092	39	4.37

消融实验¶

IMU偏差估计器：同时估计陀螺和加速度计偏差（Omega+Accel）效果最优；固定偏差模型优于随机噪声模型
Select Agent：IMU-only先验调度在激进跳帧（75%~87.5%）下退化曲线比启发式和RL-gating(KF)更平缓；50%跳帧目标下IMU-only策略FPS显著更高，ATE增加<3%
Fusion Agent：RL融合（ATE 0.112m）优于EKF融合（0.127m）和固定权重融合（0.143m）；换用DROID-VO前端后融合策略仍有效（0.399→0.237m），证明跨后端泛化能力
鲁棒性：在5%/10%图像模糊退化下，本方法ATE（0.138/0.153m）始终低于DPVO（0.174/0.192m）

关键发现¶

本方法在GPU-based方法中取得最佳平均ATE（0.092m），同时FPS达39（DPVO的1.77倍），显存仅4.37GB（比DROID节省49.4%）
CPU侧BA/VIBA时间从ORB-SLAM3的121ms降至12.77ms，结构性降低优化负载
与经典优化VIO相比精度可接受（Avg 0.092 vs DM-VIO 0.069），但计算效率优势显著
TUM-VI数据集上平均ATE 0.80m，略高于DM-VIO的0.77m，保持竞争力

亮点¶

IMU-only先验调度是核心创新：在视觉计算之前就做出跳过决策，节省远超仅优化VO内部启发式的计算量
双智能体设计将调度和融合解耦，各自优化不同目标，架构清晰
Fusion Agent跨VO后端泛化（DPVO→DROID-VO），证明策略依赖物理量而非架构特征
在真实数据上用Gym-style回放训练PPO，避免sim-to-real gap

局限性¶

精度仍不及ORB-SLAM3等顶级优化方法（Avg 0.092 vs 0.041），差距明显
尺度初始化依赖足够运动的滑窗，静止启动场景可能失败
仅在EuRoC和TUM-VI两个室内数据集验证，缺乏户外/驾驶场景评估
Select Agent的跳帧策略在极端场景（快速旋转连续帧）下的鲁棒性未充分讨论
训练需真实序列ground truth，对新环境的zero-shot泛化能力未验证

评分¶

新颖性: ⭐⭐⭐⭐ — 双智能体RL架构和IMU-only先验调度的思路新颖，但RL在机器人中的应用不算全新
实验充分度: ⭐⭐⭐⭐ — 消融详尽，跨后端泛化和鲁棒性均有测试，但仅限两个室内数据集
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，公式推导完整
价值: ⭐⭐⭐⭐ — 精度-效率折中有实际部署意义，但与SOTA优化方法的精度差距限制了高精度场景应用