RadarMP: Motion Perception for 4D mmWave Radar in Autonomous Driving¶

会议: AAAI 2026
arXiv: 2511.12117
代码: github.com/chengrui7/RadarMP
领域: 自动驾驶
关键词: 4D毫米波雷达, 场景流估计, 目标检测, 自监督学习, 运动感知

一句话总结¶

提出 RadarMP——首个联合解决毫米波雷达目标检测和场景流估计的统一架构，利用相邻帧雷达回波信号（tesseract）的能量流一致性进行自监督训练，在目标检测概率上达到 69.5%（远超现有方法的 44.1%），同时实现精确的 3D 场景运动感知。

研究背景与动机¶

毫米波雷达的优势与挑战¶

4D 毫米波雷达凭借其全天候工作能力（可穿透雨雪雾等恶劣天气），已成为自动驾驶系统的关键传感器。然而，传统 CFAR 目标检测方法依赖统计假设，缺乏对复杂背景杂波和动态场景的建模能力，导致检测性能下降并产生稀疏、噪声严重的雷达点云。

现有方法的局限¶

检测与运动估计解耦：现有方法将雷达目标检测和运动估计分为两个独立阶段，检测阶段产生的稀疏噪声点云直接影响后续场景流估计的精度

光学传感器监督的矛盾：使用 LiDAR/相机来监督雷达检测模型（如 RPDNet），迫使雷达关注一些低反射特征，反而削弱了多模态感知的互补性

雷达场景流研究稀缺：目前仅有 RaFlow 和 CMFlow 两个工作研究雷达点云场景流，且性能远不如 LiDAR 方法

核心动机¶

目标点在相邻帧雷达回波信号中的能量流方向应与运动场一致，而噪声点的能量流则是无序和不规则的。 这一关键观察启发了同时进行目标检测和运动估计的联合建模方法。

方法详解¶

整体框架¶

RadarMP 以两个连续的 4D 雷达 tesseract（$\mathbf{S}, \mathbf{T} \in \mathbb{R}^{D \times R \times A \times E}$，分别对应多普勒、距离、方位角、俯仰角维度）作为输入，同时输出： 1. 分割掩码 $\mathbf{M} \in \{0,1\}^{R \times A \times E}$：区分目标点和噪声点 2. 3D 场景流场 $\mathbf{F} = \{\mathbf{f}_i\}$：每个目标点沿距离-方位-俯仰轴的位移向量

整体流程为：

Tesseract → 多普勒通道编码 → 3D 特征金字塔 → 多尺度可变形交叉注意力（关联特征提取） → 全局运动模式感知 → 分割+流预测解码

关键设计¶

1. 多普勒通道编码（Doppler Channel Encoding）¶

功能：将 tesseract 中的多普勒维度从冗余表示转化为紧凑的运动感知特征。

核心思路：不同于以往工作简单地对多普勒维度做平均/最大池化，本文将多普勒轴视为特征通道，通过 MLP 编码。同时引入 Softmax 和 Gumbel-Softmax 对多普勒速度进行概率编码：

\[\digamma_{v1} = \mathrm{sum}(\mathrm{matmul}(Ax_d, \mathrm{Softmax}(P_d)))$$ $$\digamma_{v2} = \mathrm{sum}(\mathrm{matmul}(Ax_d, \mathrm{GumbelSoftmax}(P_d)))\]

其中 $Ax_d \in \mathbb{R}^D$ 是多普勒轴，$P_d \in \mathbb{R}^D$ 是原始多普勒能量值。

设计动机：多普勒轴在每个空间位置编码了关键的运动相关属性——能量分布反映了每个空间位置对不同多普勒速度的置信度。保留这些信息对于分割（语义线索）和场景流估计（物理线索）都至关重要。通过此编码，多普勒维度从 $D$ 压缩到 $D/8$，同时保留了关键的运动特征。

2. 关联特征提取（Correlation Feature Extraction）¶

功能：在两帧 tesseract 之间建立密集的运动关联。

核心思路：采用多尺度可变形交叉注意力机制，将源帧作为 Query、目标帧作为 Value，提取帧间关联特征。

关联参考点生成：将两帧投影到 RA、RE、AE 三个 2D 平面，使用预训练的 PWC-Net 预测能量流方向，得到三个多尺度 2D 流分量，然后取平均得到 3D 参考点坐标：

\[r'_l = r_l + \frac{1}{2}(\mathbf{f}^l_{ra}(r) + \mathbf{f}^l_{re}(r))$$ $$a'_l = a_l + \frac{1}{2}(\mathbf{f}^l_{ra}(a) + \mathbf{f}^l_{ae}(a))$$ $$e'_l = e_l + \frac{1}{2}(\mathbf{f}^l_{re}(e) + \mathbf{f}^l_{ae}(e))\]

多尺度可变形交叉注意力：通过 ResNet3D 提取三级特征金字塔，使用多尺度可变形注意力实现跨尺度的帧间关联：

\[\digamma^{\mathbf{C}}_l = \mathrm{MSDeformAttn}(\mathbf{q}, \mathbf{p}, \{\mathbf{v}_{\mathbf{T}}^l\}), \quad \mathbf{q} \in \mathbf{q}_{\mathbf{S}}^l\]

最后通过 FPN 聚合得到关联表示 $\digamma_c \in \mathbb{R}^{C_c \times R \times A \times E}$。

设计动机：直接在 3D 球坐标空间做密集关联会导致严重的内存开销。可变形注意力通过学习采样偏移和注意力权重，以远低于暴力搜索的计算复杂度实现精准关联。

3. 全局运动模式感知模块（Global Motion Pattern-Aware Module）¶

功能：捕捉全局运动上下文，区分噪声的无序运动、静态目标的全局关联运动和动态目标的局部关联运动。

核心思路：设计两种自注意力机制：

Global Patch Self-Attention：将关联特征分成 $4 \times 4 \times 4$ 的 patch，每个 patch 作为一个 token 输入 Transformer 编码器，使用极坐标位置编码
Direction Slice Self-Attention：沿 AE 平面切片，将同一 $(a,e)$ 位置所有距离 bin 作为一个 token，使用方向向量作为位置编码

设计动机：不同类型点的运动模式有本质差异——噪声无序、静态目标全局一致、动态目标局部一致。两种注意力分别从体积级和方向级捕捉这些模式，提供充分的分割线索。

损失函数 / 训练策略¶

本文设计了三个专门针对雷达特性的自监督损失函数，完全不需要显式标注：

\[\mathcal{L} = \mathcal{L}_{se} + \mathcal{L}_{ef} + \mathcal{L}_{rfs}\]

1. 分割能量损失 $\mathcal{L}_{se}$：基于能量分布监督分割——能量越高越可能是目标，且两帧的分割掩码应保持一致

\[\mathcal{L}_{se} = \mathbf{M}_s - \mathrm{sigmoid}(E_f^{\mathbf{S}} - \tau_f^{\mathbf{S}}) + \mathbf{M}_s \times (\mathrm{warp}(\mathbf{M}_s, \mathbf{F}_s) - \mathrm{sigmoid}(E_f^{\mathbf{T}} - \tau_f^{\mathbf{T}}))\]

2. 能量流损失 $\mathcal{L}_{ef}$：目标点的流场必须与其能量流方向一致，使用能量强度加权减弱噪声影响

\[\mathcal{L}_{ef} = E_f^{\mathbf{S}} \times (E_f^{\mathbf{S}} - \mathrm{warp}(E_f^{\mathbf{T}}, \mathbf{F}_s))\]

3. 径向流分割损失 $\mathcal{L}_{rfs}$：多普勒值乘以帧间时间应近似于目标点真实流的径向投影

\[\delta_v = \digamma_v - \frac{\mathrm{warp}(C, \mathbf{F}_s) - C}{\Delta t} \odot O$$ $$\mathcal{L}_{rfs} = \mathbf{M}_s - \mathrm{sigmoid}(\alpha(\beta - \delta_v^2))\]

训练细节：Adam 优化器，初始学习率 0.001，每 2 个 epoch 按 0.9 衰减；3 台 3090 GPU 训练 250 epochs；推理速度 7.6 fps，显存 7.5 GB。

实验关键数据¶

主实验¶

目标检测结果（K-Radar 数据集）¶

方法	$P_d$ (%)↑	$P_{fa}$ (%)↓	CD (m)↓	SNR (dB)↑
OS-CFAR	1.643	0.311	10.030	5.477
RPDNet	9.311	1.821	7.590	5.175
Radelft	44.121	6.200	6.553	4.329
RadarMP	69.458	1.335	3.378	5.232

RadarMP 的检测概率（69.5%）远超此前最优方法 Radelft（44.1%），提升 57.4%，同时保持低虚警率（1.34%）和最优 Chamfer 距离（3.38m）。

场景流估计结果¶

方法	分割方式	EPE3D (m)↓	AccS3D (%)↑	AccR3D (%)↑	Outlier3D (%)↓
RaFlow + OS-CFAR	传统	0.329	11.635	20.887	82.399
CMFlow + Radelft	学习	0.190	20.151	46.584	65.263
CMFlow + RadarMP-P	本文检测	0.168	20.396	47.985	50.841
RadarMP（联合）	联合	0.157	21.365	46.872	44.734

联合建模（RadarMP）的 EPE3D 为 0.157m，优于所有解耦方案，Outlier3D 从 65.3% 降至 44.7%。

消融实验¶

损失函数消融¶

$\mathcal{L}_{se}$	$\mathcal{L}_{ef}$	$\mathcal{L}_{rfs}$	$P_d$ (%)↑	$P_{fa}$ (%)↓	EPE3D (m)↓
✓	✓	✗	62.033	2.258	0.209
✓	✗	✓	56.224	3.847	0.788
✗	✓	✓	19.846	17.136	0.621
✓	✓	✓	69.458	1.335	0.157

三个损失函数缺一不可：缺少分割能量损失导致检测概率骤降至 19.8%；缺少能量流损失导致 EPE3D 恶化至 0.788m；完整配置性能最优。

关键发现¶

联合建模优于解耦方案：同时检测和估计运动使两个任务相互增益
能量流一致性是有效的自监督信号：无需标注即可实现强大的运动感知
全天候稳定性：在大雪等相机/LiDAR 严重退化的条件下仍保持可靠的检测和运动估计
PWC-Net 参考点的作用：去除 PWC-Net 后 EPE3D 恶化 0.31m，说明初始运动估计对可变形注意力至关重要

亮点与洞察¶

首个联合目标检测+场景流估计的雷达框架：将两个长期分离的任务统一到一个架构中
完全自监督：不依赖 LiDAR 的监督信号，保持雷达的传感独立性和互补性
从低级信号入手：直接使用雷达 tesseract（4D回波信号）而非处理后的点云，避免了传统预处理引入的稀疏性和噪声
运动一致性驱动检测：利用物理先验（能量流方向 = 运动方向）设计损失函数

局限与展望¶

雷达分辨率有限，无法提供 LiDAR 级别的纹理信息
低 RCS 目标（如穿低反射率衣服的行人）邻近杂波时仍然困难
tesseract 占用大量内存（K-Radar 每帧约 300 MB），需要仔细的维度裁剪
缺乏精确的雷达点级标注，难以更细致地分析检测性能
未来可探索多帧融合以提升时序一致性

评分¶

新颖性: ⭐⭐⭐⭐⭐ （首个联合检测+流估计的雷达架构，自监督损失设计精巧）
实验充分度: ⭐⭐⭐⭐ （消融充分，但仅在一个数据集上验证）
写作质量: ⭐⭐⭐⭐ （结构清晰，动机阐述到位）
价值: ⭐⭐⭐⭐⭐ （为4D雷达运动感知开辟新范式，对全天候自动驾驶有重要意义）