3D Single-Object Tracking in Point Clouds with High Temporal Variation¶
会议: ECCV 2024
arXiv: 2408.02049
代码: 无公开代码
领域: 3D视觉 / 自动驾驶
关键词: 3D单目标跟踪, 点云, 高时间变化, 记忆模块, 注意力机制
一句话总结¶
HVTrack首次探索高时间变化场景下的3D单目标跟踪,通过相对位姿感知记忆模块(RPM)、基础-扩展特征交叉注意力(BEA)和上下文点引导自注意力(CPA)三个模块,分别解决点云形状剧变、相似物体干扰和背景噪声问题,在KITTI-HV 5帧间隔下比SOTA提升11.3%/15.7% Success/Precision。
背景与动机¶
核心矛盾¶
核心矛盾:领域现状:现有3D SOT方法基于一个关键假设:相邻帧间点云形状变化和物体运动是平滑的。因此它们在上一帧预测位置附近裁剪小搜索区域进行跟踪。但实际场景中存在高时间变化(HV)情况:传感器帧率有限、物体高速运动、跳帧跟踪以节省计算等。在这些情况下,点云形状因观测角度剧变而截然不同,目标可能移出原搜索区域,现有方法性能急剧下降(CXTrack在5帧间隔下Success从69.1降到38.6)。
解决思路¶
本文目标:如何在点云形状剧烈变化、搜索区域需要大幅扩大(引入更多干扰物和噪声)的高时间变化场景下,实现鲁棒的3D单目标跟踪?
方法详解¶
整体框架¶
以DGCNN为骨干提取局部特征,后接L=2层Transformer。每层包含三个核心模块:RPM提取时序模板→BEA做模板-搜索区域交叉注意力→CPA抑制背景噪声。最后RPN回归3D边界框、前景mask和观测角度。
关键设计¶
-
Relative-Pose-Aware Memory (RPM): 维护三个记忆库:(1) 层特征记忆——存储历史Transformer特征作为模板(避免每帧重新提取);(2) Mask记忆——前景信息;(3) 观测角度记忆——存储历史观测角(sin/cos编码)。关键创新是引入观测角度:同一物体从不同角度观测会呈现完全不同的点云分布,通过记录观测角度变化历史,模型可以隐式学习点云分布随位姿变化的规律。三种记忆拼接后通过线性层+自注意力融合。
-
Base-Expansion Feature Cross-Attention (BEA): 将多头注意力的H个head分成两组:(1) H/2个head做标准交叉注意力(base scale,局部特征);(2) H/2个head先用EdgeConv扩大感受野提取更抽象特征再做交叉注意力(expansion scale,环境上下文)。这样既保持局部精度又能利用空间上下文区分相似物体,额外计算开销很小。
-
Contextual Point Guided Self-Attention (CPA): 利用BEA的base和expansion注意力图计算每个点的重要性。将所有点按重要性排序分成G=3组,每组聚合为不同数量的"上下文点":低重要性组分配更少上下文点(4个),高重要性组分配更多(32个)。这实质上是对不重要的背景特征做压缩,同时减少self-attention的KV长度降低计算量。
损失函数 / 训练策略¶
- 5个损失联合训练:粗中心L2 + 前景mask交叉熵 + 观测角度Huber + targetness mask交叉熵 + 边界框Huber
- 训练时序列长度8帧,记忆库大小K=2(显存限制),测试时K=6
- 构建KITTI-HV数据集:按帧间隔[2,3,5,10]从KITTI采样,搜索区域随帧间隔增大而扩大
实验关键数据¶
KITTI-HV (5帧间隔)
| 方法 | Car | Pedestrian | Cyclist | Mean |
|---|---|---|---|---|
| CXTrack | 38.6/42.4 | 34.1/49.6 | 25.7/32.9 | 35.3/42.8 |
| M2-Track | 52.6/61.6 | 35.9/51.3 | 49.3/63.6 | 44.1/55.2 |
| HVTrack | 60.3/68.9 | 35.1/52.1 | 58.2/71.7 | 46.6/58.5 |
常规跟踪
| 数据集 | HVTrack | CXTrack(SOTA) |
|---|---|---|
| KITTI Mean | 65.5/83.1 | 67.5/85.3 |
| Waymo Mean | 43.0/58.1 | 42.2/56.7 |
| NuScenes Mean | 51.1/62.2 | 42.0/51.8 |
推理速度31 FPS,参数量5.60MB(vs CXTrack 18.27MB)
消融实验要点¶
- 去掉观测角度记忆(OM):Mean从46.6/58.5降到45.1/56.5——证明观测角度信息有效
- 去掉BEA(用vanilla CA):Mean从46.6/58.5降到46.0/57.5——对小物体和大物体有益,但中等物体(Car)因引入更多噪声略有负面效果
- 去掉CPA(用vanilla SA):Mean从46.6/58.5降到45.8/57.5——CPA对中小物体有效但对大物体(Van)有害(大物体更多前景点被误判为低重要性而被压缩)
- 记忆库大小:K=6时达峰值,之后因历史信息累积误差下降
亮点与洞察 / 我学到了什么¶
- 观测角度是被忽视的重要线索:点云形状变化的根本原因是相对位姿变化,将观测角度编码到记忆中使模型能预测点云分布变化趋势
- 双尺度(base+expansion)注意力分组是在不显著增加计算的前提下兼顾局部精度和全局上下文的巧妙方案
- 根据重要性分配计算资源(CPA中高重要性点获得更多上下文点)是一种通用的效率优化策略
- KITTI-HV数据集构建思路:简单地按帧间隔采样即可模拟高时变场景,方法简洁但有效
局限与展望¶
- CPA使用固定超参数分组,对大物体跟踪有害——大物体的前景点更多,固定阈值下更多前景点被误判为低重要性
- 常规KITTI跟踪排名第二,距CXTrack有2%差距——高时变优化可能牺牲了部分平滑场景性能
- 训练时记忆库大小受显存限制仅为K=2,与测试时K=6不完全匹配
- 作者建议未来用可学习函数替代固定超参数
相关工作与启发¶
- CXTrack: 同骨干同RPN,但在5帧间隔下HVTrack成功率高11.3%——证明特征关联模块设计的有效性
- M2-Track: 基于运动的无匹配方法,高时变下也剧烈退化;HVTrack通过时序记忆更鲁棒
- TAT: 也用时序信息但简单拼接RNN特征;HVTrack的RPM设计更精细(加入mask和角度)
- M3SOT: 最新SOTA但在5帧间隔下Mean仅29.4/37.2,HVTrack为46.6/58.5
与我的研究方向的关联¶
- 高时变跟踪场景与自动驾驶中的跳帧推理、边缘设备部署需求直接相关
- 重要性引导的计算资源分配策略(CPA思路)可迁移到其他Point Transformer场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性定义和解决高时变3D SOT问题,观测角度记忆设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ KITTI-HV/KITTI/Waymo/NuScenes四数据集,消融全面,附录极充实
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰、三个挑战-三个模块对应设计逻辑清楚
- 对我的价值: ⭐⭐⭐ 3D跟踪非我主攻,但时序记忆和重要性引导注意力的设计思路有参考价值