RadarMP: Motion Perception for 4D mmWave Radar in Autonomous Driving¶
会议: AAAI 2026
arXiv: 2511.12117
代码: github.com/chengrui7/RadarMP
领域: 自动驾驶
关键词: 4D毫米波雷达, 场景流估计, 目标检测, 自监督学习, 运动感知
一句话总结¶
提出 RadarMP——首个联合解决毫米波雷达目标检测和场景流估计的统一架构,利用相邻帧雷达回波信号(tesseract)的能量流一致性进行自监督训练,在目标检测概率上达到 69.5%(远超现有方法的 44.1%),同时实现精确的 3D 场景运动感知。
研究背景与动机¶
毫米波雷达的优势与挑战¶
4D 毫米波雷达凭借其全天候工作能力(可穿透雨雪雾等恶劣天气),已成为自动驾驶系统的关键传感器。然而,传统 CFAR 目标检测方法依赖统计假设,缺乏对复杂背景杂波和动态场景的建模能力,导致检测性能下降并产生稀疏、噪声严重的雷达点云。
现有方法的局限¶
检测与运动估计解耦:现有方法将雷达目标检测和运动估计分为两个独立阶段,检测阶段产生的稀疏噪声点云直接影响后续场景流估计的精度
光学传感器监督的矛盾:使用 LiDAR/相机来监督雷达检测模型(如 RPDNet),迫使雷达关注一些低反射特征,反而削弱了多模态感知的互补性
雷达场景流研究稀缺:目前仅有 RaFlow 和 CMFlow 两个工作研究雷达点云场景流,且性能远不如 LiDAR 方法
核心动机¶
目标点在相邻帧雷达回波信号中的能量流方向应与运动场一致,而噪声点的能量流则是无序和不规则的。 这一关键观察启发了同时进行目标检测和运动估计的联合建模方法。
方法详解¶
整体框架¶
RadarMP 以两个连续的 4D 雷达 tesseract(\(\mathbf{S}, \mathbf{T} \in \mathbb{R}^{D \times R \times A \times E}\),分别对应多普勒、距离、方位角、俯仰角维度)作为输入,同时输出: 1. 分割掩码 \(\mathbf{M} \in \{0,1\}^{R \times A \times E}\):区分目标点和噪声点 2. 3D 场景流场 \(\mathbf{F} = \{\mathbf{f}_i\}\):每个目标点沿距离-方位-俯仰轴的位移向量
整体流程为:
Tesseract → 多普勒通道编码 → 3D 特征金字塔 → 多尺度可变形交叉注意力(关联特征提取) → 全局运动模式感知 → 分割+流预测解码
关键设计¶
1. 多普勒通道编码(Doppler Channel Encoding)¶
功能:将 tesseract 中的多普勒维度从冗余表示转化为紧凑的运动感知特征。
核心思路:不同于以往工作简单地对多普勒维度做平均/最大池化,本文将多普勒轴视为特征通道,通过 MLP 编码。同时引入 Softmax 和 Gumbel-Softmax 对多普勒速度进行概率编码:
其中 \(Ax_d \in \mathbb{R}^D\) 是多普勒轴,\(P_d \in \mathbb{R}^D\) 是原始多普勒能量值。
设计动机:多普勒轴在每个空间位置编码了关键的运动相关属性——能量分布反映了每个空间位置对不同多普勒速度的置信度。保留这些信息对于分割(语义线索)和场景流估计(物理线索)都至关重要。通过此编码,多普勒维度从 \(D\) 压缩到 \(D/8\),同时保留了关键的运动特征。
2. 关联特征提取(Correlation Feature Extraction)¶
功能:在两帧 tesseract 之间建立密集的运动关联。
核心思路:采用多尺度可变形交叉注意力机制,将源帧作为 Query、目标帧作为 Value,提取帧间关联特征。
关联参考点生成:将两帧投影到 RA、RE、AE 三个 2D 平面,使用预训练的 PWC-Net 预测能量流方向,得到三个多尺度 2D 流分量,然后取平均得到 3D 参考点坐标:
多尺度可变形交叉注意力:通过 ResNet3D 提取三级特征金字塔,使用多尺度可变形注意力实现跨尺度的帧间关联:
最后通过 FPN 聚合得到关联表示 \(\digamma_c \in \mathbb{R}^{C_c \times R \times A \times E}\)。
设计动机:直接在 3D 球坐标空间做密集关联会导致严重的内存开销。可变形注意力通过学习采样偏移和注意力权重,以远低于暴力搜索的计算复杂度实现精准关联。
3. 全局运动模式感知模块(Global Motion Pattern-Aware Module)¶
功能:捕捉全局运动上下文,区分噪声的无序运动、静态目标的全局关联运动和动态目标的局部关联运动。
核心思路:设计两种自注意力机制:
- Global Patch Self-Attention:将关联特征分成 \(4 \times 4 \times 4\) 的 patch,每个 patch 作为一个 token 输入 Transformer 编码器,使用极坐标位置编码
- Direction Slice Self-Attention:沿 AE 平面切片,将同一 \((a,e)\) 位置所有距离 bin 作为一个 token,使用方向向量作为位置编码
设计动机:不同类型点的运动模式有本质差异——噪声无序、静态目标全局一致、动态目标局部一致。两种注意力分别从体积级和方向级捕捉这些模式,提供充分的分割线索。
损失函数 / 训练策略¶
本文设计了三个专门针对雷达特性的自监督损失函数,完全不需要显式标注:
1. 分割能量损失 \(\mathcal{L}_{se}\):基于能量分布监督分割——能量越高越可能是目标,且两帧的分割掩码应保持一致
2. 能量流损失 \(\mathcal{L}_{ef}\):目标点的流场必须与其能量流方向一致,使用能量强度加权减弱噪声影响
3. 径向流分割损失 \(\mathcal{L}_{rfs}\):多普勒值乘以帧间时间应近似于目标点真实流的径向投影
训练细节:Adam 优化器,初始学习率 0.001,每 2 个 epoch 按 0.9 衰减;3 台 3090 GPU 训练 250 epochs;推理速度 7.6 fps,显存 7.5 GB。
实验关键数据¶
主实验¶
目标检测结果(K-Radar 数据集)¶
| 方法 | \(P_d\) (%)↑ | \(P_{fa}\) (%)↓ | CD (m)↓ | SNR (dB)↑ |
|---|---|---|---|---|
| OS-CFAR | 1.643 | 0.311 | 10.030 | 5.477 |
| RPDNet | 9.311 | 1.821 | 7.590 | 5.175 |
| Radelft | 44.121 | 6.200 | 6.553 | 4.329 |
| RadarMP | 69.458 | 1.335 | 3.378 | 5.232 |
RadarMP 的检测概率(69.5%)远超此前最优方法 Radelft(44.1%),提升 57.4%,同时保持低虚警率(1.34%)和最优 Chamfer 距离(3.38m)。
场景流估计结果¶
| 方法 | 分割方式 | EPE3D (m)↓ | AccS3D (%)↑ | AccR3D (%)↑ | Outlier3D (%)↓ |
|---|---|---|---|---|---|
| RaFlow + OS-CFAR | 传统 | 0.329 | 11.635 | 20.887 | 82.399 |
| CMFlow + Radelft | 学习 | 0.190 | 20.151 | 46.584 | 65.263 |
| CMFlow + RadarMP-P | 本文检测 | 0.168 | 20.396 | 47.985 | 50.841 |
| RadarMP(联合) | 联合 | 0.157 | 21.365 | 46.872 | 44.734 |
联合建模(RadarMP)的 EPE3D 为 0.157m,优于所有解耦方案,Outlier3D 从 65.3% 降至 44.7%。
消融实验¶
损失函数消融¶
| \(\mathcal{L}_{se}\) | \(\mathcal{L}_{ef}\) | \(\mathcal{L}_{rfs}\) | \(P_d\) (%)↑ | \(P_{fa}\) (%)↓ | EPE3D (m)↓ |
|---|---|---|---|---|---|
| ✓ | ✓ | ✗ | 62.033 | 2.258 | 0.209 |
| ✓ | ✗ | ✓ | 56.224 | 3.847 | 0.788 |
| ✗ | ✓ | ✓ | 19.846 | 17.136 | 0.621 |
| ✓ | ✓ | ✓ | 69.458 | 1.335 | 0.157 |
三个损失函数缺一不可:缺少分割能量损失导致检测概率骤降至 19.8%;缺少能量流损失导致 EPE3D 恶化至 0.788m;完整配置性能最优。
关键发现¶
- 联合建模优于解耦方案:同时检测和估计运动使两个任务相互增益
- 能量流一致性是有效的自监督信号:无需标注即可实现强大的运动感知
- 全天候稳定性:在大雪等相机/LiDAR 严重退化的条件下仍保持可靠的检测和运动估计
- PWC-Net 参考点的作用:去除 PWC-Net 后 EPE3D 恶化 0.31m,说明初始运动估计对可变形注意力至关重要
亮点与洞察¶
- 首个联合目标检测+场景流估计的雷达框架:将两个长期分离的任务统一到一个架构中
- 完全自监督:不依赖 LiDAR 的监督信号,保持雷达的传感独立性和互补性
- 从低级信号入手:直接使用雷达 tesseract(4D回波信号)而非处理后的点云,避免了传统预处理引入的稀疏性和噪声
- 运动一致性驱动检测:利用物理先验(能量流方向 = 运动方向)设计损失函数
局限与展望¶
- 雷达分辨率有限,无法提供 LiDAR 级别的纹理信息
- 低 RCS 目标(如穿低反射率衣服的行人)邻近杂波时仍然困难
- tesseract 占用大量内存(K-Radar 每帧约 300 MB),需要仔细的维度裁剪
- 缺乏精确的雷达点级标注,难以更细致地分析检测性能
- 未来可探索多帧融合以提升时序一致性
相关工作与启发¶
- RaFlow/CMFlow:唯一的雷达场景流工作,使用自/跨模态监督,但性能有限
- Deformable DETR:可变形注意力在减少计算复杂度方面的成功被迁移到3D雷达领域
- PWC-Net:光流estimation的经典方法被用于2D能量流预测,为3D参考点提供初始化
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (首个联合检测+流估计的雷达架构,自监督损失设计精巧)
- 实验充分度: ⭐⭐⭐⭐ (消融充分,但仅在一个数据集上验证)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,动机阐述到位)
- 价值: ⭐⭐⭐⭐⭐ (为4D雷达运动感知开辟新范式,对全天候自动驾驶有重要意义)