R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection¶

会议: CVPR 2026
arXiv: 2603.11566
代码: 无
领域: 自动驾驶
关键词: 4D毫米波雷达, 雷达-相机融合, 3D目标检测, 深度估计, 时序融合

一句话总结¶

提出 R4Det，通过三个即插即用 BEV 模块——全景深度融合（PDF）、可变形门控时序融合（DGTF）、实例引导动态精炼（IGDR）——系统性解决 4D 雷达-相机融合中的深度估计不准、无位姿时序融合以及小目标检测三大难题，在 TJ4DRadSet 上 3D mAP 达 47.29%（+5.47%），VoD 上 mAP 66.69%。

研究背景与动机¶

领域现状：4D 毫米波雷达因全天候、远距离、低成本而成为自动驾驶感知的重要传感器，但其点云稀疏且噪声大，需要与相机融合。现有方法（CRN、SGDet3D、CVFusion 等）在 BEV 空间进行多模态融合已取得初步进展。

挑战一——深度估计不准：现有框架（SGDet3D、RCBEVDet）仅对前景点施加绝对深度监督，导致深度监督稀疏，全景深度估计质量差，3D 定位不准确。同时，强大的相对深度模型（Metric3D）虽有很好的泛化能力，但如何有效利用其能力获得准确的全景绝对深度尚未解决。

挑战二——无位姿时序融合：时序信息对遮挡物体检测至关重要，但 TJ4DRadSet 等主流数据集缺乏自车位姿。现有方法仅靠简单 BEV 特征拼接，效果有限。

挑战三——小目标检测：远处骑行者等小目标可能在图像中可见但完全没有雷达回波，此时必须依赖视觉先验。现有 Transformer 方案提取 instance proposal 但与 CNN 框架不兼容。

方法详解¶

整体框架¶

R4Det 是渐进式 BEV 特征纯化流水线：(1) PDF 从多模态输入生成高精度 BEV 特征；(2) DGTF 无位姿时序对齐 + 门控聚合；(3) IGDR 用 2D 实例原型净化 BEV 特征 → 3D 检测头。基座为 SGDet3D 的 BEV 范式（Neighborhood Cross-Attention + LSS）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["多模态输入<br/>相机图像 + 4D 雷达点云"] --> PDF
    subgraph PDF["全景深度融合（PDF）"]
        direction TB
        B["三重深度监督<br/>概率 + 基础模型引导 + 结构排序"] --> C["高精度全景深度 → BEV 特征"]
    end
    PDF --> DGTF
    H["历史隐状态 H(t−1)"] -.-> DGTF
    subgraph DGTF["可变形门控时序融合（DGTF）"]
        direction TB
        D["运动感知对齐<br/>DCNv2 无位姿对齐历史 BEV"] --> E["门控时序更新<br/>GRU 门控融合新旧特征"]
    end
    DGTF --> IGDR
    R["2D 实例分支<br/>RPN 提取实例原型"] -.-> IGDR
    subgraph IGDR["实例引导动态精炼（IGDR）"]
        direction TB
        F["实例原型广播回 BEV"] --> G["原型引导动态校准<br/>+ 前景门控只动实例区"]
    end
    IGDR --> O["3D 检测头 → 3D 框输出"]

关键设计¶

1. 全景深度融合（PDF）：把"只盯前景点"的稀疏深度监督，扩成覆盖全场景且结构连贯的三重监督

针对的痛点很直接——SGDet3D、RCBEVDet 这类框架只对前景点施加绝对深度监督，监督信号稀疏，背景和远处区域几乎没人管，全景深度估计因此质量很差，3D 定位也跟着不准。PDF 的做法是叠加三种互补的监督。第一种是概率监督：用稀疏 LiDAR 深度把每个有标注的像素构造成一个高斯目标分布，再让网络预测的深度概率 \(\mathcal{P}_i\) 去逼近它，最小化 KL 散度，

\[\mathcal{L}_{prob} = \frac{1}{|\mathcal{M}_{\text{sparse}}|} \sum_{i \in \mathcal{M}_{\text{sparse}}} \text{KL}(\mathcal{G}(d_{g_i}^{\text{sparse}}) \| \mathcal{P}_i)\]

这保证了关键点上的深度精度。第二种是基础模型引导监督：同时拿稀疏雷达和密集的 Metric3D 伪 GT 做 Smooth L1 绝对深度损失，前者给关键点精度、后者把监督铺满全场景，弥补稀疏点覆盖不到的地方。

但前两种监督本质都只在"逐点"层面给约束，深度图整体的相对结构（谁前谁后、边界在哪跳变）仍然没人保证，这正是 PDF 的核心创新——结构排序监督。它对成对像素施加相对深度排序损失，\(s_{ij}\) 表示伪 GT 中 \(i\) 是否该比 \(j\) 近：

\[\mathcal{L}_{pair}(i,j) = \text{Softplus}(-s_{ij}(\hat{d}_i - \hat{d}_j))\]

为了不让平坦区域里两个深度本就接近的点产生噪声排序信号，再配一个深度自适应的动态阈值过滤掉这类对子，\(\tau_{ij} = \max(\tau_{abs},\, \tau_{rel} \cdot (d_{g_i}^{\text{dense}} + d_{g_j}^{\text{dense}})/2)\)。在采样上还特意做前景偏向：\(\mathcal{L}_{edge}\) 专门在膨胀 mask 环（物体边界外侧）和物体内部之间取对子，强迫网络学会在物体边缘处给出锐利的深度跳变。三重监督叠在一起，单独的概率或绝对监督只能给出局部正确、却整体松垮的深度，而排序约束补上了全局结构，最终得到的全景深度既准又连贯。

2. 可变形门控时序融合（DGTF）：在拿不到自车位姿的数据集上，也能把历史帧 BEV 特征对齐并融合进来

时序线索对遮挡目标很关键，但 TJ4DRadSet 这类主流数据集根本不提供自车位姿，没法用几何变换把历史 BEV 对齐到当前帧，现有方法只能简单拼接历史特征，效果有限。DGTF 把"对齐"和"更新"这两件本该分开的事显式拆成两个分支。运动感知对齐分支用 DCNv2 从当前帧 \(X_t\) 和历史隐状态 \(H_{t-1}\) 预测可变形偏移 \(\Delta p\) 与调制 mask \(m\)，再把历史特征按偏移采样过来，

\[\tilde{H}_{t-1} = \text{DCNv2}(H_{t-1}, \Delta p, m)\]

学到的偏移其实隐式重建了帧间的相对运动流，调制 mask 则顺手抑制掉那些不可靠的背景区域——这一步替代了原本需要位姿才能完成的几何对齐。门控时序更新分支接手对齐后的特征，用 GRU 风格的门控把新旧信息融起来：重置门 \(r_t\) 决定丢弃多少历史、更新门 \(z_t\) 平衡新旧贡献，\(H_t = (1 - z_t) \odot X_t + z_t \odot \tilde{H}_t\)。这样拆开的好处是各司其职——传统 RNN 把对齐和更新揉在一起既低效又容易互相干扰，而 DCN 专管空间矫正、GRU 专管时序演化，分工后两边都做得更准。

3. 实例引导动态精炼（IGDR）：用干净的 2D 实例语义当"模板"去校准被污染的 BEV 特征，救回那些没有雷达回波的远处小目标

融合后的 BEV 特征会有两类问题：相互重叠的实例会彼此污染，远处骑行者这种小目标可能图像里看得见却完全没有雷达回波、在 BEV 上一片模糊。IGDR 借 2D 检测分支里相对干净的实例语义来补救，但它不是把实例特征直接糊上去（那会顺带引入背景噪声），而是走一条更间接、也更鲁棒的"原型生成校准参数"路线。先从 2D RPN 提取实例特征并池化投影成实例原型 \(E_{proj}\)，再按 LSS 投影得到的空间分布 \(S_{BEV}\) 做 Softmax 加权，把原型广播回 BEV 空间：

\[E_{BEV} = \text{BMM}(\text{Softmax}(S_{BEV}/\tau),\, E_{proj})\]

核心创新在于原型引导的动态校准：\(E_{BEV}\) 不直接相加，而是经 Conv 层预测出逐位置的仿射参数 \((\gamma_{BEV}, \beta_{BEV})\)，对可能含噪的融合特征 \(F_{RC}\) 做 feature-wise 仿射变换 \(F_{calibrated} = F_{RC} \odot \gamma_{BEV} + \beta_{BEV}\)——相当于让实例语义去"调"主特征流的增益和偏置，而不是粗暴覆盖。最后用前景门控保证只在该动的地方动：把所有实例的 \(S_{BEV}\) 求和，过 Gate-conv + Sigmoid 得到门控 \(G_{bg}\)，仅在实例区域施加校准，背景维持原样，

\[F_{final} = (1 - G_{bg}) \odot F_{RC} + G_{bg} \odot F_{calibrated}\]

损失函数 / 训练策略¶

深度损失：\(\mathcal{L}_{depth} = \lambda_1 \mathcal{L}_{prob} + \lambda_2 \mathcal{L}_{found} + \lambda_3 \mathcal{L}_{relative}\)，权重 \(\lambda_1=0.1, \lambda_{abs}=0.01, \lambda_{dense}=0.03, \lambda_3=0.05\)
两阶段训练：(i) 15 epoch 空间感知预训练（冻结 DGTF/IGDR/检测头）初始化 PDF 和 2D 实例分支；(ii) 15 epoch 全参数端到端微调
优化器：AdamW，lr=4e-4，cosine 衰减
IGDR 训练策略：严格使用 2D 检测器动态生成的 proposal 而非 GT bbox，避免曝光偏差

实验关键数据¶

主实验¶

TJ4DRadSet 测试集：

方法	模态	mAP\(_{3D}\)	mAP\(_{BEV}\)	Cyclist AP	提升
SGDet3D	R+C	41.82	47.16	51.30	基线
CVFusion	R+C	40.00	44.07	49.41	-
R4Det	R+C	47.29	54.07	62.84	+5.47/+6.91

VoD 验证集：

方法	模态	mAP\(_{EAA}\)	mAP\(_{DC}\)	FPS
SGDet3D	R+C	59.75	77.42	9.2
CVFusion	R+C	65.41	82.42	5.4
R4Det	R+C	66.69	83.68	8.3

消融实验¶

逐模块堆叠（TJ4DRadSet Val）：

PDF	DGTF	IGDR	mAP\(_{BEV}\)	mAP\(_{3D}\)	说明
			45.15	39.86	SGDet3D 基线
✓			46.86	41.41	+1.71 (深度提升)
✓	✓		50.41	44.86	+3.55 (时序融合)
✓	✓	✓	54.07	47.29	+3.66 (实例精炼)

DGTF 模块消融：

配置	BEV mAP	3D mAP	说明
无时序	46.86	41.41	基线
+Concat	47.82	42.01	简单拼接
+DCN	48.86	43.32	可变形对齐
+DCN+ConvGRU	50.41	44.86	完整 DGTF

关键发现¶

Cyclist（小目标）提升最显著：+11.54 AP（51.30→62.84），验证了 IGDR 对小目标的有效性
三个模块完全即插即用：应用到 BEVFusion/RCBEVDet 分别提升 +6.34/+5.34 mAP
DGTF 中 ConvGRU 带来最大增益（+3.45 3D mAP），SE 模块反而无益
IGDR 的 Conv 校准器 > Attention 校准器 > MLP 校准器，局部空间模式比全局 attention 更有效
PDF 的 edge 排序损失（边界采样）对深度边缘锐利度贡献关键

亮点与洞察¶

问题驱动的模块化设计：三个明确的技术挑战 → 三个解耦的模块，工程和研究价值都高
无位姿时序融合：DCN+GRU 的解耦设计优雅解决了缺乏自车位姿的时序融合难题
结构排序损失的边界采样：dilated ring 采样策略迫使网络关注深度跳变边缘，是一个有实用价值的技巧
即插即用验证充分：不仅在自建框架验证，还成功移植到 BEVFusion/RCBEVDet，增强了可信度

局限与展望¶

依赖 Metric3D 作为伪 GT，其自身误差会传播到深度监督
DGTF 采用类 GRU 递推，长时序下可能存在信息衰减；可探索 Transformer 时序建模
IGDR 的 2D 实例分支依赖 RPN 质量，弱检测器可能限制精炼效果
仅在 TJ4DRadSet 和 VoD 两个相对小规模数据集验证，未在 nuScenes 等大数据集评估

评分¶

新颖性: ⭐⭐⭐⭐ (三模块各有创新点，尤其 DGTF 和 IGDR 设计精巧)
实验充分度: ⭐⭐⭐⭐⭐ (两数据集 SOTA + 即插即用验证 + 详细逐模块消融)
写作质量: ⭐⭐⭐⭐ (问题-方案对应清晰，消融设计合理)
价值: 待评