Rascene: High-Fidelity 3D Scene Imaging with mmWave Communication Signals¶

会议: CVPR 2026
arXiv: 2604.02603
代码: 无
领域: 自动驾驶 / 3D感知 / 集成感知与通信
关键词: 毫米波通信, 3D场景成像, OFDM信号, 多帧融合, ISAC

一句话总结¶

提出 Rascene，一种利用毫米波 OFDM 通信信号（5G/Wi-Fi）进行高保真 3D 场景成像的集成感知与通信（ISAC）框架，通过置信度加权的多帧融合实现对稀疏、多径干扰的射频观测的几何一致性恢复。

研究背景与动机¶

3D 环境感知对自动驾驶和机器人导航至关重要。现有主流方案存在明显局限： - 相机：受光照条件严格约束，在烟雾、雾天等恶劣环境下失效 - LiDAR：昂贵、体积大、功耗高，同样受恶劣天气影响 - 专用雷达：虽可穿透障碍物，但需要超宽带硬件（多 GHz 带宽）和专用频谱许可，成本高、可扩展性差

核心洞察：毫米波通信设备（如 5G 和 Wi-Fi）已广泛部署，其 OFDM 波形天然包含距离和角度信息。如果能复用这些已有的通信信号进行感知，就可以在不增加专用传感硬件和频谱许可的前提下实现低成本、可扩展的 3D 感知。

关键发现：商用毫米波设备可以全双工模式进行单站感知——由于相控阵天线的高方向性和短载波波长，发射 / 接收路径之间具有足够的射频隔离。

方法详解¶

整体框架¶

Rascene 想做的事很反直觉：不加任何专用雷达，只复用已经满街都是的毫米波通信设备（5G/Wi-Fi），就还原出高保真的 3D 场景。整条链路分两段——先用通信设备的全双工单站能力，从 OFDM 波形里提取 CIR 和角度信息，把每帧射频观测变成稀疏的 3D 射频点云；再用一个多帧成像网络，对 N 帧带已知位姿的点云 \(\mathcal{S} = \{\mathbf{S}_i\}_{i=1}^N\)、\(\mathcal{G} = \{\mathbf{G}_i\}_{i=1}^N\) 做置信度加权的前向投影融合，学习映射 \(\mathcal{F}\) 输出密集体素网格 \(\hat{\mathbf{V}}_r\) 和深度图 \(\hat{\mathbf{D}}_r\)。网络内部先由共享编码器把每帧点云编成特征体积与置信度，再做变形融合，最后由粗到细解码器密化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["N 帧 OFDM 通信信号 + 已知位姿"] --> B["全双工单站感知<br/>CIR 测距 + 相控阵测角 → 每帧稀疏射频点云"]
    B --> C["共享编码器<br/>每帧 → 特征体积 + 置信度 logits"]
    C --> D["空间自适应变形与融合<br/>刚性变换 warp 到参考帧 + 源驱动前向投影"]
    D -->|各向同性高斯核 + 置信度加权| E["统一融合表示 Z"]
    E --> F["粗到细 3D 解码器<br/>逐级密化成稠密特征体积"]
    F --> G["体素占用网格"]
    F --> H["深度图"]

关键设计¶

1. 全双工单站感知：让一台通信设备同时当发射机和接收机来测距

专用雷达要超宽带硬件和专用频谱，成本和可扩展性都差；Rascene 转而让商用毫米波设备一边发一边收 OFDM 信号自己感知自己。能这么做的物理前提是相控阵天线方向性强、载波波长短，收发路径之间有足够射频隔离，加上收发天线共位的时钟同步，CIR 就能直接用来测距——距离 \(r = nc/(2B)\)。再配上相控阵的角度估计（波束赋形权重 \(w_{i,j}(\theta,\phi)\)），每帧射频数据就被转成球坐标系下的 3D 点云 \(\mathbf{S}\)。

2. 空间自适应变形与融合：用源驱动前向投影把稀疏的多帧射频拼成稠密几何

单帧射频观测稀疏又被多径干扰，传统按目标体素去"查询"源数据的方式会在大片空白区域反复采样、浪费在没信息的地方。Rascene 反过来做源驱动前向投影：每个源体素经刚性变换映射到参考帧坐标系，再用各向同性高斯核 \(K_\sigma\) 在局部支撑区域内分配贡献；融合权重同时考虑几何邻近度和学到的置信度（经 softplus 映射后取 \(\eta\) 次方来控制锐度），最终统一表示 \(\mathbf{Z}_r\) 由归一化加权平均得到。

这样稀疏但信息丰富的射频响应被保留下来，\(\eta\) 调高时高置信度的几何信号会主导融合，多径产生的幻觉结构则被压低——这正是多帧能补漏检、抑幻觉的来源。

3. 粗到细 3D 解码器：把稀疏融合表示逐级密化成场景体积

编码器和解码器都用 4 层卷积（通道倍数 1,2,4,8），并在每个编码器阶段后插入阶段级的变形和融合，让融合不只发生在一个尺度上。解码器把稀疏的融合表示逐步密化成稠密特征体积，最后两个任务头分别预测体素占用和深度图。

损失函数 / 训练策略¶

总损失是体素损失和深度损失的加权和，且窗口内每一帧都轮流当参考帧、累加所有参考帧的损失：

\[\mathcal{L} = \sum_{r=1}^N (\lambda_v \mathcal{L}_{\text{voxel}}^{(r)} + \lambda_d \mathcal{L}_{\text{depth}}^{(r)})\]

其中体素损失为预测网格与 GT 的二元交叉熵（BCE），深度损失为预测深度图与 GT 的 L1 损失。硬件原型：60 GHz 频段，1.2288 GHz 带宽，16 Tx + 16 Rx 天线，有效感知距离 7 米，FoV 120°×60°，体素网格 64×64×32（12 cm 分辨率）。

实验关键数据¶

主实验¶

数据集：20 个室内环境，12 个训练 / 8 个测试（跨场景泛化评估）。

方法	帧数	AbsRel	MAE(cm)	CD(cm)	CD_Diag(%)
PanoRadar	1	14.7%	34.1	32.2	3.8%
CartoRadar	5	—	—	26.8	3.1%
Rascene	1	14.1%	32.9	31.6	3.6%
Rascene	5	9.4%	20.2	19.7	2.3%

跨场景泛化平均：AbsRel 9.4%，MAE 20.2cm，RMSE 38.0cm，CD 19.7cm，CD_Diag 2.3%。

消融实验¶

融合帧数	AbsRel	MAE(cm)	CD(cm)	CD_Diag(%)
1	14.1%	32.9	31.6	3.6%
2	11.1%	24.6	26.0	3.0%
3	9.8%	21.8	21.9	2.5%
5	9.4%	20.2	19.7	2.3%

位姿鲁棒性测试：对平移扰动高度稳定（15cm 扰动几乎无影响），对旋转更敏感（5°-10° 旋转误差导致显著退化，10° 时 CD_Diag 从 2.3% 升至 3.6%）。

关键发现¶

从 1 帧到 2 帧的提升最为显著，表明即使一个额外视角也能提供强几何约束
中值绝对深度误差仅 6.1cm，90% 像素误差低于 37.6cm
多帧融合有效抑制幻觉结构并补充漏检区域
即使在 LiDAR 因吸收/镜面反射而失败的区域（如深色地毯、玻璃），Rascene 仍能恢复连贯的场景几何

亮点与洞察¶

范式创新：首次证明 OFDM 通信信号可支持高保真 3D 成像，无需专用感知硬件或频谱许可
源驱动融合优于目标驱动融合——避免重复采样空白区域，更好保留稀疏但信息丰富的射频响应
互补性：RF 感知对光学材料失效模式（低反照率表面吸收、光滑材料镜面反射）具有天然鲁棒性，与 LiDAR 形成互补
置信度锐度参数 \(\eta\) 的设计允许融合过程被高置信度几何信号主导

局限与展望¶

感知范围仅 7 米，适用于室内场景，室外大范围场景有待验证
需要已知的 6-DoF 位姿信息（目前依赖外部 IMU）
角度估计分辨率受天线阵列规模限制（当前 16×16）
仅在室内环境评估，真实户外自动驾驶场景的泛化能力未知
多径干扰虽被融合抑制，但极端多径场景（如高度复杂遮挡）可能仍具挑战

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将毫米波通信信号用于高保真 3D 场景成像，提出全双工单站感知 + 源驱动融合的完整系统
实验充分度: ⭐⭐⭐⭐ — 20 个室内环境的跨场景评估充分，消融详细；但缺少室外和更大规模场景验证
写作质量: ⭐⭐⭐⭐ — 结构清晰，物理原理和系统设计的阐述专业完整
价值: ⭐⭐⭐⭐⭐ — 为低成本、可扩展的 3D 感知开辟了全新路径，对 ISAC 和自动驾驶领域均有重要启示