NeMo-map: Neural Implicit Flow Fields for Spatio-Temporal Motion Mapping¶
会议: ICLR 2026
arXiv: 2510.14827
代码: 无
领域: 自动驾驶
关键词: 动态地图, 神经隐式表示, 半包裹高斯混合, 人类运动模式, 时空连续
一句话总结¶
提出 NeMo-map——基于神经隐式函数的连续时空动态地图,将空间-时间坐标直接映射为半包裹高斯混合模型(SWGMM)参数,消除传统方法的空间离散化和时间分段限制,在真实行人追踪数据上实现更低 NLL 和更平滑的速度分布。
研究背景与动机¶
领域现状:动态地图(MoD)通过编码环境中的统计运动模式帮助机器人在拥挤场景中导航。现有方法如 CLiFF-map 和 STeF-map 在离散网格上拟合局部运动分布。
现有痛点:网格离散化导致信息丢失和边界不连续;时间通常按小时分段,无法建模跨时段的平滑过渡;手动选择网格分辨率依赖环境。
核心矛盾:离散表示无法在任意空间-时间坐标上查询运动分布,且稀疏区域需要插值或填充。
本文目标:(a) 消除空间离散化;(b) 实现空间和时间的连续平滑查询;(c) 保持运动方向的多模态特性。
切入角度:用神经隐式表示将 \((x, y, t) \to\) SWGMM 参数的映射建模为连续函数。
核心 idea:用可学习空间特征网格 + SIREN 时间编码 + MLP 直接输出连续时空运动分布参数。
方法详解¶
整体框架¶
输入为时空坐标 \((\mathbf{x}, t)\),输出为 \(J\) 组 SWGMM 参数 \(\{w_j, \bm{\mu}_j, \bm{\Sigma}_j\}\)。空间坐标通过可学习网格 \(\mathbf{G}_s\) 双线性插值获取特征 \(\mathbf{f}_s(\mathbf{x})\),时间通过 SIREN 网络编码为 \(\mathbf{f}_t(t)\),拼接后送入 MLP 输出混合模型参数。
关键设计¶
-
可学习空间特征网格:
- 功能:为每个空间位置提供局部特征编码
- 核心思路:维护 \(\mathbf{G}_s \in \mathbb{R}^{H \times W \times C_s}\) 特征网格,在查询位置 \(\mathbf{x}\) 做双线性插值得到连续空间特征
- 设计动机:比纯坐标输入的 MLP 更能捕捉局部运动模式变化,同时保持空间连续性
-
SIREN 时间编码:
- 功能:将连续时间 \(t\) 编码为特征向量
- 核心思路:使用周期性正弦激活函数的网络,天然适合编码一天中运动模式的周期性变化
- 设计动机:人类运动模式具有日周期性,SIREN 的周期性激活函数能自然捕捉这种规律
-
SWGMM 参数化输出:
- 功能:MLP 输出混合权重、均值和协方差矩阵
- 核心思路:每个组件建模速度 \(\rho\) 和方向 \(\theta\) 的联合分布,方向维度按 \(2\pi\) 周期包裹(winding number \(k \in \{-1,0,1\}\)),允许速度-方向相关性
- 设计动机:比 STeF-map 的离散化方向直方图更准确,比 VMGMM 的独立假设更灵活
损失函数 / 训练策略¶
负对数似然损失:\(\mathcal{L}(\theta) = -\frac{1}{N}\sum_i \log p(\mathbf{v}_i | \Phi_\theta(\mathbf{x}_i, t_i))\)
实验关键数据¶
主实验(ATC 购物中心数据集 NLL↓)¶
| 方法 | NLL↓ | vs NeMo NLL增量 |
|---|---|---|
| NeMo-map | 0.775 | — |
| Online CLiFF-map | 1.527 | +0.752 |
| CLiFF-map | 1.964 | +1.189 |
| STeF-map | 5.576 | +4.801 |
ETH/UCY 数据集对比¶
| 场景 | NeMo NLL | CLiFF NLL | 提升 |
|---|---|---|---|
| ETH | -0.384 | 0.112 | +0.496 |
| HOTEL | -0.838 | 0.701 | +1.539 |
| UNIV | 0.404 | 0.518 | +0.114 |
| ZARA | -0.342 | 0.068 | +0.410 |
训练效率:NeMo-map 全天数据训练不到 20 分钟。
关键发现¶
- NeMo 在所有数据集和场景上均显著优于基线(p<0.001)
- 在稀疏区域 NeMo 产生更平滑的速度分布,避免了离散方法的不连续性
- 模型在轨迹预测下游任务中也表现更好
亮点与洞察¶
- 连续时空查询的能力消除了 MoD 的核心限制:不再需要预定义网格分辨率,不再有时间分段的不连续性。
- SWGMM 的圆柱体可视化(方向包裹在圆上,速度沿圆柱轴)非常直观,有助于理解多模态运动模式。
局限与展望¶
- 仅在行人场景验证,未测试车辆或自行车等其他动态物体
- 可学习空间网格的分辨率仍需手动设定
- 未与基于深度学习的轨迹预测模型进行全面对比
相关工作与启发¶
- vs CLiFF-map: CLiFF 离散化空间+离线批处理,NeMo 连续空间+端到端训练
- vs STeF-map: STeF 离散化方向(8-bin)且不建模速度,NeMo 连续方向+速度联合建模
评分¶
- 新颖性: ⭐⭐⭐⭐ 将神经隐式表示引入动态地图是自然但有效的创新
- 实验充分度: ⭐⭐⭐ 两个数据集,有统计显著性检验,但场景类型有限
- 写作质量: ⭐⭐⭐⭐ 清晰简洁,SWGMM 的数学描述严谨
- 价值: ⭐⭐⭐⭐ 对机器人导航中的运动建模有实用贡献