Seeing through boxes: Non-Line-of-Sight 3D Reconstruction from Radar Signals¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 3D视觉
关键词: 非视距重建, 射频/雷达成像, 神经隐式表面, 符号距离场, 视觉先验

一句话总结¶

针对毫米波雷达"穿透遮挡看箱内物体"时重建噪声大、训练不稳、表面位置含糊的问题，本文提出 GeRaF 2.0：把箱外可见（LoS）几何和箱内隐藏（NLoS）几何统一进一个 ULoS 符号距离场，用视觉预训练 SDF 给射频重建做稳定初始化，并用两阶段训练 + 相对 SDF 对齐把表面精确锁在零等值面上，刷新了射频 3D 重建的 SOTA。

研究背景与动机¶

领域现状：射频（RF）信号能穿透纸箱、布料等遮挡物，是少有的能"看见被挡住的物体"的传感模态，因此在机器人抓取箱内物体、智能家居感知遮挡区域上很有价值。近年的做法是把神经隐式重建（NeRF / NeuS 那一套）搬到射频上，用一个可微的物理渲染模型去拟合雷达回波，从而连续地表示场景几何。

现有痛点：射频是"无透镜成像"——每根天线都接收整个场景的回波，导致空间分辨率极低、噪声极高，且金属等表面以镜面反射为主，会丢失大片表面。作者前作 GeRaF 处理遮挡的办法很粗暴：直接把遮挡物（箱子）从雷达图里裁掉，当它不存在。但这假设"穿过箱壁后的信号完全不受箱壁影响"是错的——信号穿过箱壁时会被部分反射、衰减。

核心矛盾：忽略 LoS 箱壁几何会带来三个连锁问题——（1）箱壁的可见反射会"漏"进隐藏区，在重建里表现为噪声（论文里兔子模型被箱子影响出了个奇怪的"帽子"）；（2）训练不稳，不同形状/大小的箱子改变了优化曲面，有时根本不收敛；（3）表面含糊（surface ambiguity），由于箱体几何影响到达 NLoS 区的信号强度，无法归一化信号、从而无法确定 SDF 的真实零等值面（重建表面会偏移几厘米）。而纯视觉重建恰恰相反：训练稳、表面准，但看不进箱子里。

本文目标：能不能用箱外稳定准确的可见信息，去引导箱内低分辨率、强噪声的不可见射频重建？

切入角度：作者观察到一个关键事实——在箱外的自由空间（LoS 区域），视觉训练得到的 SDF 和射频训练得到的距离场本应取同样的值。这给了一个把视觉先验"注入"射频神经场的天然接口。

核心 idea：把 LoS 与 NLoS 统一进一个符号距离场（ULoS SDF），用视觉预训练 SDF 给射频重建做初始化与渲染校正，再用两阶段训练 + 相对 SDF 对齐把零等值面锁准。

方法详解¶

整体框架¶

GeRaF 2.0 的输入是一台装在机械臂上的 77 GHz 毫米波雷达采集的多视角回波，外加同场景的多视角相机图像；输出是 LoS（箱壁）+ NLoS（箱内物体）统一的高分辨率 3D 表面。整条管线先用纯视觉把箱外表面重建好并冻结，再把这个稳定的视觉 SDF 当作物理先验贯穿到射频重建里，最后分两个阶段优化：阶段一让射频重建在视觉先验的护航下稳定收敛，阶段二用相对 SDF 对齐解决表面位置含糊、把表面精确卡到 SDF=0 处。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：多视角毫米波雷达回波 + 相机图像"] --> B["视觉 SDF 预训练（NeuS，训完冻结）"]
    B --> C["ULoS SDF 表示<br/>把 LoS+NLoS 统一进嵌套闭集距离场"]
    C --> D["ULoS 无透镜渲染<br/>用视觉 SDF 校正透射率、稳定初始化（阶段一）"]
    D -->|匹配滤波损失收敛| E["相对 SDF 对齐<br/>对齐箱体外表面、消解零等值面含糊（阶段二）"]
    E --> F["输出：LoS+NLoS 统一高分辨率 3D 表面"]

关键设计¶

1. ULoS 统一符号距离场：把"内/外"二元语义改造成适配射频多层穿透的嵌套闭集

视觉 SDF 用正负号干脆地区分物体的内外，但射频不行——一层箱壁对射频是"半透明"的，传统"内/外"二元概念在多层结构上失效。本文把整个场景建成一系列嵌套、闭合、紧致的集合 \(M_n \subset \mathrm{int}(M_{n-1}) \subset \cdots \subset \mathrm{int}(M_1) \subset \mathrm{int}(\Omega_{\mathrm{ULoS}})\)，并据此定义 ULoS SDF \(f_r\)。符号不再按几何内外，而是按"射频相互作用强弱"来定：强相互作用区（纸箱、金属）取负值，弱相互作用区（空气）取正值。每个区域的距离值取到其最近两个边界面的最小欧氏距离 \(f(\mathbf{x}) = \mathrm{sign}(f(\mathbf{x}))\min(d(\mathbf{x},\partial M_i),\, d(\mathbf{x},\partial M_{i+1}))\)。这样既保留了几何连续性，又给每层介质一个物理上有意义的符号，让单个神经场就能一致地优化箱壁和箱内物体，从源头上抑制 LoS 反射漏进 NLoS 区造成的伪影。

2. ULoS 无透镜渲染：用视觉预训练 SDF 校正透射率，给不稳定的射频训练打稳定地基

无透镜渲染里，沿真实射线计算累积透射率 \(T(u')\) 时要在场景边界对 sigmoid-SDF 值做修正 \(T(u') = T(u) - \Phi_s(f(\mathbf{x}(u_s))) + \Phi_s(f(\mathbf{x}(u'_s)))\)。问题是这两个修正项计算代价高、在反向传播里被舍弃，且网络初始化阶段存在显著偏置，导致透射率校正在训练早期严重失真——在信号可见性本就很差的 NLoS 场景里这尤其致命。本文利用前面那个观察：在箱外区域 \(R_{0,1}\)，视觉 SDF 与射频 ULoS SDF 取值相同 \(f_v(\mathbf{x}) = f_r(\mathbf{x})\)。由于主射线的起点都落在箱外自由空间，作者就用收敛良好的视觉预训练 SDF 来做透射率修正、给 ULoS SDF 提供稳定初始化，而不是依赖正在训练、尚不可靠的射频模型本身，从而换来更快收敛和更一致的重建。

3. 相对 SDF 对齐 + 两阶段训练：把"表面位置含糊"这个老大难锁到正确的零等值面

即便有了前两步，重建表面仍可能整体偏离 SDF 零等值面——因为雷达信号强度无法像 RGB 那样预归一化到 \([0,1]\)，反射率、预测信号功率、SDF 零等值面三者彼此纠缠，网络无法唯一确定正确表面。作者引入相对 SDF（RSDF）\(g_r\)：它与真实 SDF 只差一个未知常数，故梯度处处相同 \(\nabla f = \nabla g\)。论文证明了一个命题——若两个标量场梯度处处相等、且在某条闭曲面 \(S\) 上取值相等，则二者在整个连通域上恒等。于是只要在箱外一条参考闭曲面（取箱体外表面 \(\partial M_1\)）上把 RSDF 对齐到视觉 SDF，对齐就会"传导"到箱内。对齐损失 \(\mathcal{L}_{\mathrm{RSDF}} = \mathbb{E}_{\mathbf{x}\in\partial M_1}[\,|g_r(\mathbf{x}) - f_v(\mathbf{x})|\,]\)，实现上为稳定起见改成沿主射线监督期望深度 \(d = \int_0^\infty u\,\rho(u)\,T(u)\,du\)。训练分两阶段：阶段一冻结反射率网络（输出恒置 1.0），只用匹配滤波损失 \(\mathcal{L}=\mathcal{L}_{\mathrm{MF}}+\lambda_{\mathrm{GRAD}}\mathcal{L}_{\mathrm{GRAD}}\)（含 Eikonal 正则）把几何先稳住；阶段二解冻全部网络、加入 RSDF 对齐 \(\mathcal{L}=\mathcal{L}_{\mathrm{MF}}+\lambda_{\mathrm{GRAD}}\mathcal{L}_{\mathrm{GRAD}}+\lambda_{\mathrm{RSDF}}\mathcal{L}_{\mathrm{RSDF}}\)，此时已有阶段一的稳定初始化，不再需要 ULoS 无透镜渲染。

损失函数 / 训练策略¶

两阶段优化：阶段一目标 \(\mathcal{L}_{\mathrm{MF}} + \lambda_{\mathrm{GRAD}}\mathcal{L}_{\mathrm{GRAD}}\)，匹配滤波损失（在预测与真值匹配滤波功率分布间计算）抑制噪声、Eikonal 项保证合法 SDF；阶段二加入 \(\lambda_{\mathrm{RSDF}}\mathcal{L}_{\mathrm{RSDF}}\) 做表面对齐。训练在单卡 NVIDIA H100 上跑 100,000 次迭代、约 48 小时。

实验关键数据¶

数据集用 Franka Research 3 机械臂 + TI AWR1843BOOST 雷达采集，物体置于 360° 转盘上每 10° 采一帧，真值由 Scaniverse 扫描得到。量化指标为 F1-Score（阈值 \(\tau=0.015\)）与 Chamfer Distance（毫米），评估时把箱体从点云中裁掉。

主实验¶

对比三类基线：纯视觉 NeuS、匹配滤波（MF）成像、前作 NLoS 重建 GeRaF。下表汇总各方法在"是否需手动选表面层 \(g_r\)"上的差异，这直接反映表面含糊是否被解决（⚠️ 缓存正文未给出逐物体的 F1/CD 数值表，定性结论与下表趋势以原文为准）：

方法	模态	能否重建 360° 隐藏物	表面零等值面 \(g_r\)
NeuS	纯视觉	否（看不进箱内，需分开拍）	自动 \(g_r=0\)
Matched Filter	射频点云	粗糙、需阈值化	需手动选层
GeRaF（前作）	射频	是，但有伪影/裁掉遮挡	需手动选层（偏移 5–95 mm ⚠️）
GeRaF 2.0 Stage 1	射频+视觉	是，干净	仍需手动选层
GeRaF 2.0 Stage 2	射频+视觉	是，干净且细节丰富	自动 \(g_r=0\)（全部物体）

关键差异：GeRaF 2.0 阶段二受益于 RSDF 对齐，能在 SDF 零等值面处直接精确抽取表面，这是所有基线都做不到的——既免去手动阈值，又保住了大象象牙、公鸡鸡冠、鹿角、球顶这类细节。

消融实验¶

围绕 RSDF 对齐权重 \(\lambda_{\mathrm{RSDF}}\) 做消融：

配置	表面相对零等值面	说明
Stage 1（无对齐）	显著偏移	表面整体偏离 SDF 零等值面
\(\lambda_{\mathrm{RSDF}}=0\)	显著偏移	与无对齐等价，含糊未解
\(\lambda_{\mathrm{RSDF}}=0.5\)	逐渐收敛	表面向正确零等值面靠拢
\(\lambda_{\mathrm{RSDF}}=1.0\)	锁到 \(g_r=0\)	含糊被解决，表面正确

关键发现¶

RSDF 对齐是解决"表面含糊"的关键开关：\(\lambda_{\mathrm{RSDF}}\) 从 0 增大到 1.0，表面从大幅偏移逐步收敛到正确的零等值面，验证了"在箱外一条参考面对齐即可传导到箱内"这一命题的实际效果。
鲁棒性：箱内填充气泡膜（额外散射层）时重建几何几乎无退化；嵌套双箱场景下 SDF 也能清晰分辨同心箱壁与内部物体（内表面因散射增强略有退化）。
视觉先验的作用集中在"稳"——它把射频训练从不收敛/噪声漏入的困境里拉了出来，让阶段二的细节恢复成为可能。

亮点与洞察¶

用"箱外稳准的视觉"去救"箱内噪而糊的射频"：抓住了 LoS 区两种 SDF 取值相同这一物理事实，把视觉先验做成神经场的初始化与渲染校正接口，而不是简单地把两路特征拼接，思路干净且可证。
把表面含糊问题数学化为一个可证传导的对齐命题：只在箱外一条参考闭曲面上对齐 RSDF，就能保证整域恒等，工程上还退化成沿主射线的深度监督，既稳又省。
符号语义的重定义：把 SDF 的正负从"几何内外"改成"射频相互作用强弱"，是适配多层穿透介质的关键一步，这个视角可迁移到其他穿透式传感（如太赫兹、超声）的神经隐式重建。

局限性 / 可改进方向¶

评估规模有限：在单一雷达硬件、转盘采集、Scaniverse 真值下测试，未见大规模/野外场景验证，泛化性待考。
嵌套多层、强散射填充物下内表面会退化，说明在更复杂遮挡层叠时方法仍有上限。
依赖一套可用的多视角视觉重建（NeuS）来产生先验，若箱外视觉本身难以重建（强反光、透明箱壁）则先验失效，这一前置条件限制了适用范围。
训练成本不低（H100 上 48 小时 / 10 万次迭代），离实时机器人感知尚有距离。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个用视觉 LoS 模态提升射频 NLoS 高分辨率重建的工作，且把表面含糊问题数学化为可证传导的对齐命题。
实验充分度: ⭐⭐⭐☆☆ 定性结果与消融到位，但缓存正文缺逐物体量化数值表、硬件/场景单一，规模偏小。
写作质量: ⭐⭐⭐⭐☆ 物理建模与命题推导清晰，框架递进合理，公式排版在 PDF 抽取下略乱但逻辑可循。
价值: ⭐⭐⭐⭐☆ 为穿透式传感的神经隐式重建提供了"以视觉先验稳住射频"的范式，机器人/智能家居"看穿遮挡"有实际想象空间。