跳转至

NeMo-map: Neural Implicit Flow Fields for Spatio-Temporal Motion Mapping

会议: ICLR 2026
arXiv: 2510.14827
代码: 无
领域: 自动驾驶
关键词: 动态地图, 神经隐式表示, 半包裹高斯混合, 人类运动模式, 时空连续

一句话总结

提出 NeMo-map——基于神经隐式函数的连续时空动态地图,将空间-时间坐标直接映射为半包裹高斯混合模型(SWGMM)参数,消除传统方法的空间离散化和时间分段限制,在真实行人追踪数据上实现更低 NLL 和更平滑的速度分布。

研究背景与动机

领域现状:动态地图(MoD)通过编码环境中的统计运动模式帮助机器人在拥挤场景中导航。现有方法如 CLiFF-map 和 STeF-map 在离散网格上拟合局部运动分布。

现有痛点:网格离散化导致信息丢失和边界不连续;时间通常按小时分段,无法建模跨时段的平滑过渡;手动选择网格分辨率依赖环境。

核心矛盾:离散表示无法在任意空间-时间坐标上查询运动分布,且稀疏区域需要插值或填充。

本文目标:(a) 消除空间离散化;(b) 实现空间和时间的连续平滑查询;(c) 保持运动方向的多模态特性。

切入角度:用神经隐式表示将 \((x, y, t) \to\) SWGMM 参数的映射建模为连续函数。

核心 idea:用可学习空间特征网格 + SIREN 时间编码 + MLP 直接输出连续时空运动分布参数。

方法详解

整体框架

这篇论文要解决的是动态地图(MoD)被网格和时段切碎的问题:传统方法把环境拆成离散网格、把一天分成若干时段,分别拟合局部运动分布,结果是边界不连续、稀疏区域要靠插值、还得手调网格分辨率。NeMo-map 的思路是把整张动态地图当成一个连续函数 \(\Phi_\theta:(\mathbf{x}, t) \to\) SWGMM 参数来学,任意时空坐标都能直接查询。

整条管线这样转:查询坐标 \((\mathbf{x}, t)\) 进来后,空间分量 \(\mathbf{x}\) 在一张可学习特征网格上做双线性插值,取出连续的空间特征 \(\mathbf{f}_s(\mathbf{x})\);时间分量 \(t\) 经过一个 SIREN 网络编码成 \(\mathbf{f}_t(t)\);两段特征拼接后送进 MLP,输出 \(J\) 组半包裹高斯混合(SWGMM)参数 \(\{w_j, \bm{\mu}_j, \bm{\Sigma}_j\}\),描述该时空点上速度-方向的多模态分布。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["查询坐标 (x, y, t)"] --> X["空间坐标 x"]
    Q --> T["时间 t"]
    X -->|"特征网格<br/>双线性插值"| FS["可学习空间特征网格<br/>连续空间特征 f_s(x)"]
    T -->|"周期正弦激活"| FT["SIREN 时间编码<br/>时间特征 f_t(t)"]
    FS --> CAT["拼接 f_s ⊕ f_t"]
    FT --> CAT
    CAT -->|"MLP"| OUT["SWGMM 参数化输出<br/>{w_j, μ_j, Σ_j}"]
    OUT --> DIST["速度-方向多模态分布<br/>p(v | x, t)"]

关键设计

1. 可学习空间特征网格:让空间连续又不丢局部细节

直接把坐标 \(\mathbf{x}\) 喂给 MLP,很难表达局部运动模式的剧烈变化;而离散网格虽然能存局部信息,却在边界处断裂。NeMo-map 折中地维护一张特征网格 \(\mathbf{G}_s \in \mathbb{R}^{H \times W \times C_s}\),在查询位置 \(\mathbf{x}\) 处对相邻格点特征做双线性插值,得到连续的空间特征 \(\mathbf{f}_s(\mathbf{x})\)。网格保留了"每个区域有自己的运动特征"这种局部性,双线性插值则保证了跨格点的平滑过渡——既比纯坐标 MLP 更能捕捉局部差异,又消除了硬网格的边界不连续。

2. SIREN 时间编码:用周期激活对齐运动的日周期性

人流的运动模式天然带有一天之内的周期规律(早晚高峰、午休等),传统方法按小时把时间切成离散段,跨段之间没有平滑过渡。NeMo-map 把连续时间 \(t\) 送进一个以周期性正弦函数为激活的 SIREN 网络编码成 \(\mathbf{f}_t(t)\)。正弦激活本身就是周期函数,与"一天内运动模式循环往复"这一先验高度契合,因此能在任意时刻连续查询,而不再受时段切分的束缚。

3. SWGMM 参数化输出:建模速度-方向的多模态联合分布

行人在同一位置可能朝多个方向行进,且速度和方向相互关联,所以输出不能是单峰分布。MLP 为每个混合分量输出权重、均值与协方差,建模速度 \(\rho\) 和方向 \(\theta\)联合分布;方向维度按 \(2\pi\) 周期"半包裹"处理,引入卷绕数(winding number)\(k \in \{-1,0,1\}\) 来正确表达环形拓扑。这样既比 STeF-map 用离散方向直方图(如 8-bin)更精细、还顺带建模了速度,又比 VMGMM 假设速度与方向独立更灵活——速度-方向相关性被显式保留下来。

损失函数 / 训练策略

训练用负对数似然,让网络预测的 SWGMM 分布尽量贴合观测到的速度向量 \(\mathbf{v}_i\)

\[\mathcal{L}(\theta) = -\frac{1}{N}\sum_i \log p(\mathbf{v}_i \mid \Phi_\theta(\mathbf{x}_i, t_i))\]

整套是端到端训练,全天数据训练不到 20 分钟。

实验关键数据

主实验(ATC 购物中心数据集 NLL↓)

方法 NLL↓ vs NeMo NLL增量
NeMo-map 0.775
Online CLiFF-map 1.527 +0.752
CLiFF-map 1.964 +1.189
STeF-map 5.576 +4.801

ETH/UCY 数据集对比

场景 NeMo NLL CLiFF NLL 提升
ETH -0.384 0.112 +0.496
HOTEL -0.838 0.701 +1.539
UNIV 0.404 0.518 +0.114
ZARA -0.342 0.068 +0.410

训练效率:NeMo-map 全天数据训练不到 20 分钟。

关键发现

  • NeMo 在所有数据集和场景上均显著优于基线(p<0.001)
  • 在稀疏区域 NeMo 产生更平滑的速度分布,避免了离散方法的不连续性
  • 模型在轨迹预测下游任务中也表现更好

亮点与洞察

  • 连续时空查询的能力消除了 MoD 的核心限制:不再需要预定义网格分辨率,不再有时间分段的不连续性。
  • SWGMM 的圆柱体可视化(方向包裹在圆上,速度沿圆柱轴)非常直观,有助于理解多模态运动模式。

局限与展望

  • 仅在行人场景验证,未测试车辆或自行车等其他动态物体
  • 可学习空间网格的分辨率仍需手动设定
  • 未与基于深度学习的轨迹预测模型进行全面对比

相关工作与启发

  • vs CLiFF-map: CLiFF 离散化空间+离线批处理,NeMo 连续空间+端到端训练
  • vs STeF-map: STeF 离散化方向(8-bin)且不建模速度,NeMo 连续方向+速度联合建模

评分

  • 新颖性: ⭐⭐⭐⭐ 将神经隐式表示引入动态地图是自然但有效的创新
  • 实验充分度: ⭐⭐⭐ 两个数据集,有统计显著性检验,但场景类型有限
  • 写作质量: ⭐⭐⭐⭐ 清晰简洁,SWGMM 的数学描述严谨
  • 价值: ⭐⭐⭐⭐ 对机器人导航中的运动建模有实用贡献