跳转至

NeMo-map: Neural Implicit Flow Fields for Spatio-Temporal Motion Mapping

会议: ICLR 2026
arXiv: 2510.14827
代码: 无
领域: 自动驾驶
关键词: 动态地图, 神经隐式表示, 半包裹高斯混合, 人类运动模式, 时空连续

一句话总结

提出 NeMo-map——基于神经隐式函数的连续时空动态地图,将空间-时间坐标直接映射为半包裹高斯混合模型(SWGMM)参数,消除传统方法的空间离散化和时间分段限制,在真实行人追踪数据上实现更低 NLL 和更平滑的速度分布。

研究背景与动机

领域现状:动态地图(MoD)通过编码环境中的统计运动模式帮助机器人在拥挤场景中导航。现有方法如 CLiFF-map 和 STeF-map 在离散网格上拟合局部运动分布。

现有痛点:网格离散化导致信息丢失和边界不连续;时间通常按小时分段,无法建模跨时段的平滑过渡;手动选择网格分辨率依赖环境。

核心矛盾:离散表示无法在任意空间-时间坐标上查询运动分布,且稀疏区域需要插值或填充。

本文目标:(a) 消除空间离散化;(b) 实现空间和时间的连续平滑查询;(c) 保持运动方向的多模态特性。

切入角度:用神经隐式表示将 \((x, y, t) \to\) SWGMM 参数的映射建模为连续函数。

核心 idea:用可学习空间特征网格 + SIREN 时间编码 + MLP 直接输出连续时空运动分布参数。

方法详解

整体框架

输入为时空坐标 \((\mathbf{x}, t)\),输出为 \(J\) 组 SWGMM 参数 \(\{w_j, \bm{\mu}_j, \bm{\Sigma}_j\}\)。空间坐标通过可学习网格 \(\mathbf{G}_s\) 双线性插值获取特征 \(\mathbf{f}_s(\mathbf{x})\),时间通过 SIREN 网络编码为 \(\mathbf{f}_t(t)\),拼接后送入 MLP 输出混合模型参数。

关键设计

  1. 可学习空间特征网格:

    • 功能:为每个空间位置提供局部特征编码
    • 核心思路:维护 \(\mathbf{G}_s \in \mathbb{R}^{H \times W \times C_s}\) 特征网格,在查询位置 \(\mathbf{x}\) 做双线性插值得到连续空间特征
    • 设计动机:比纯坐标输入的 MLP 更能捕捉局部运动模式变化,同时保持空间连续性
  2. SIREN 时间编码:

    • 功能:将连续时间 \(t\) 编码为特征向量
    • 核心思路:使用周期性正弦激活函数的网络,天然适合编码一天中运动模式的周期性变化
    • 设计动机:人类运动模式具有日周期性,SIREN 的周期性激活函数能自然捕捉这种规律
  3. SWGMM 参数化输出:

    • 功能:MLP 输出混合权重、均值和协方差矩阵
    • 核心思路:每个组件建模速度 \(\rho\) 和方向 \(\theta\) 的联合分布,方向维度按 \(2\pi\) 周期包裹(winding number \(k \in \{-1,0,1\}\)),允许速度-方向相关性
    • 设计动机:比 STeF-map 的离散化方向直方图更准确,比 VMGMM 的独立假设更灵活

损失函数 / 训练策略

负对数似然损失:\(\mathcal{L}(\theta) = -\frac{1}{N}\sum_i \log p(\mathbf{v}_i | \Phi_\theta(\mathbf{x}_i, t_i))\)

实验关键数据

主实验(ATC 购物中心数据集 NLL↓)

方法 NLL↓ vs NeMo NLL增量
NeMo-map 0.775
Online CLiFF-map 1.527 +0.752
CLiFF-map 1.964 +1.189
STeF-map 5.576 +4.801

ETH/UCY 数据集对比

场景 NeMo NLL CLiFF NLL 提升
ETH -0.384 0.112 +0.496
HOTEL -0.838 0.701 +1.539
UNIV 0.404 0.518 +0.114
ZARA -0.342 0.068 +0.410

训练效率:NeMo-map 全天数据训练不到 20 分钟。

关键发现

  • NeMo 在所有数据集和场景上均显著优于基线(p<0.001)
  • 在稀疏区域 NeMo 产生更平滑的速度分布,避免了离散方法的不连续性
  • 模型在轨迹预测下游任务中也表现更好

亮点与洞察

  • 连续时空查询的能力消除了 MoD 的核心限制:不再需要预定义网格分辨率,不再有时间分段的不连续性。
  • SWGMM 的圆柱体可视化(方向包裹在圆上,速度沿圆柱轴)非常直观,有助于理解多模态运动模式。

局限与展望

  • 仅在行人场景验证,未测试车辆或自行车等其他动态物体
  • 可学习空间网格的分辨率仍需手动设定
  • 未与基于深度学习的轨迹预测模型进行全面对比

相关工作与启发

  • vs CLiFF-map: CLiFF 离散化空间+离线批处理,NeMo 连续空间+端到端训练
  • vs STeF-map: STeF 离散化方向(8-bin)且不建模速度,NeMo 连续方向+速度联合建模

评分

  • 新颖性: ⭐⭐⭐⭐ 将神经隐式表示引入动态地图是自然但有效的创新
  • 实验充分度: ⭐⭐⭐ 两个数据集,有统计显著性检验,但场景类型有限
  • 写作质量: ⭐⭐⭐⭐ 清晰简洁,SWGMM 的数学描述严谨
  • 价值: ⭐⭐⭐⭐ 对机器人导航中的运动建模有实用贡献