RISE: Single Static Radar-based Indoor Scene Understanding¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://rise-cvpr.github.io
领域: 3D视觉
关键词: 毫米波雷达, 室内场景理解, 多径反射, 布局重建, 扩散模型

一句话总结¶

RISE 用一台固定不动的毫米波雷达，把传统被当噪声丢掉的"多径鬼影"反过来当几何线索，配合双角度信号增强（BAME）和仿真到真实的层次扩散（SRHD），首次实现单静态雷达下的室内墙体布局重建 + 家具检测，Chamfer 距离比 SOTA 降 60%（到 16 cm），家具检测 IoU 达 58%。

研究背景与动机¶

领域现状：室内场景理解长期依赖 RGB 相机和 LiDAR 这类光学传感器。它们空间分辨率高，但在智能家居/办公环境里有两个硬伤——会被墙体、家具遮挡（看不穿），还有隐私问题（摄像头一直拍人）。于是有人转向无线信号（WiFi、毫米波），因为它能穿透常见遮挡、且不像摄像头那样侵犯隐私。

现有痛点：现有无线方案要么分辨率太低、只能给出环境的零散小块；要么需要把雷达装在移动机器人上、让它满屋扫描，部署成本高。最关键的一个物理障碍是镜面性（specularity）：毫米波打到墙面这种光滑表面时，不像光学那样四处漫反射，而是像镜子一样按角度反射走。如果反射信号没回到传感器，这面墙就根本检测不到——所以单台静态雷达直接观测到的"可见区域"非常稀疏（论文 Fig.1）。

核心矛盾：单静态雷达既想保留"穿透+隐私"的优势，又被镜面反射困死——直接反射只能照亮环境一小块，大量墙面是"看不见的"。怎么在不移动传感器、不堆多台设备的前提下，把看不见的结构补出来？

切入角度：作者观察到，当人在房间里走动时会引入多径效应——信号经过二次/多次反射后才回到接收端，产生跟着人一起移动的"鬼影目标"（ghost target，如 radar→反射体→人→radar）。这些鬼影传统上被当噪声滤掉，但它们的几何位置其实编码了墙面/反射体的位置信息。

核心 idea：把多径鬼影从"噪声"翻转成"信号"——通过分析鬼影随时间的演化反解出一组反射体点（reflector），再用扩散模型把这些零碎反射体补成完整布局和物体，从而用一台不动的雷达"看见"看不见的房间。

方法详解¶

整体框架¶

RISE 的输入是一段毫米波信号序列（人在房间里走 30 秒，20 Hz 共约 600 帧），输出是房间的墙体布局多边形 + 家具的 2D 检测框。整条管线分三段串行：先增强、再反解、后生成。每帧信号先过 BAME 双角度增强，把常规波束成形会漏掉的"离对角线"鬼影找回来；增强后的观测交给多径反演，从鬼影几何反推出每帧的反射体点，再沿整条轨迹累积成一个粗糙的初始布局；这个初始布局是一堆断裂的线段，最后由 SRHD（仿真到真实的层次扩散） 补全成连续墙体和物体掩码，并用一次反向优化保证人走的轨迹不会"穿墙"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["毫米波信号序列<br/>(人走动 30s)"] --> B["双角度多径增强 BAME<br/>分离 AOA/AOD 找回漏掉的鬼影"]
    B --> C["多径反演<br/>鬼影→反射体点→单帧布局"]
    C -->|沿轨迹累积| D["初始布局<br/>(断裂线段)"]
    D --> E["Sim2Real 层次扩散 SRHD<br/>仿真训练→两级扩散补全<br/>+反向优化防穿墙"]
    E --> F["墙体布局 + 家具检测框"]

关键设计¶

1. 多径反演：把跟人移动的鬼影反解成墙面反射体

这是整套方法的几何地基，针对的痛点是"单雷达直接只能看到稀疏可见区"。当静态雷达 S 观测移动的人 H 时，多径会产生鬼影。作者只保留快速衰减后仍可观测的一阶和二阶鬼影，按反射路径定义为 \(G_1\)（s→c1→h→s）、\(G_1'\)（s→h→c1→s）、\(G_2\)、\(G_2'\) 四类（c1 是反射体，对应两跳/三跳路径）。识别流程是：先用 CFAR 检测在距离–角度图上找高能簇，再用 RANSAC 聚类，然后按四步规则把簇分配给不同鬼影——例如 H 选幅值 \(m_i > \vartheta\max(m_i)\) 且距离最小的簇，\(G_1\) 与 H 同方向但距离略大，\(G_1'\) 与 \(G_1\) 同距离但不同方向。两点若距离差 < 15 cm 或角度差 < 15° 就视为同一点（与真实空间分辨率一致）。

拿到鬼影后，关键一步是用几何关系把鬼影位置反解成反射体点 \(s_{c1}\)（论文式(3)，由 \(|\vec{sg_1'}|\)、\(|\vec{sh}|\) 和两个出射角差 \(\theta^s_2-\theta^s_1\) 算出，⚠️ 具体推导见原文附录）。这些反射体点再经 GMM 聚类成空间连贯的簇、RANSAC 拟合出主导直线结构，就得到每帧的反射体几何。这一步把"看不见的墙"通过"看得见的鬼影"间接定位出来，是 RISE 能用静态雷达成像的根本原因。

2. 双角度多径增强 BAME：救回被对角线假设抹掉的鬼影

多径反演成不成立，取决于鬼影能不能稳定检测到。但作者实验发现鬼影的可见性在帧与帧之间剧烈跳变（同一个 \(G_1'\) 在第 t 帧能看到、第 t+1 帧就消失了），这会让反射体估计极不稳定。根因被定位得很漂亮：常规雷达波束成形（式(2)）把收发天线合并成一个"虚拟阵列"索引，等价于隐式假设到达角 AOA = 出射角 AOD。这对直接反射没问题，但像 \(G_1'\) 这种一阶鬼影 AOA 和 AOD 本就不相等——一旦它偏离 AOA=AOD 的对角线，就在距离–角度图里被压制甚至完全消失。

BAME 的做法是把 AOA 和 AOD 分开处理，重建完整的 Range–AOA–AOD 三维立方体（式(4)：内层求和编码 AOD 贡献、外层编码 AOA 分量）。具体四步：① Range FFT 得距离谱；② 双角度波束成形，分别对接收、发射维做 AOA/AOD 响应；③ 在三维立方体上用 3D CFAR 检测高能簇；④ 鬼影重整合——把那些 AOA≠AOD 的离对角线簇重新插回距离–角度图当作有效鬼影。这样原本被对角线假设抹掉的多径分量被重新点亮，\(G_1\) 和 \(G_1'\) 能被一致检测，给后续布局推理一个稳健的初始先验。

3. Sim2Real 层次扩散 SRHD：用仿真数据把断裂线段补成完整房间

经过 BAME + 多径反演得到的初始布局只是一堆断裂线段，既连不成连续墙、也做不了物体检测。SRHD 要解决两个问题：补全 + 数据稀缺（这种雷达-到-布局的配对数据几乎不存在）。

为造数据，作者搭了一个布局仿真引擎：基于 35,000 张真实室内户型图，把每张转成 2D 结构骨架，随机摆放虚拟雷达，发射多条射线、每条只保留首个交点（模拟毫米波"只有最近表面反射"的物理特性），并插入 N 个随机包围盒当物体、每个选一条反射线段模拟材料相关的随机散射。再叠三种增强——随机缺失（删掉某角度区间的线段模拟遮挡）、随机旋转（按式(6)绕雷达中心旋转前景像素，模拟位姿误差）、随机缩放（按式(7)相对雷达径向缩放，模拟深度不确定性）——逼近真实噪声。

补全网络是一个两级层次扩散（Fig.6）：Stage 1 物体检测扩散 \(f_1\) 从部分观测 O 预测二值物体图 \(X_0 = f_1(O, X_{1000}; \theta_1)\)，给出语义先验；Stage 2 墙体扩散 \(f_2\) 同时吃 O 和 \(X_0\) 重建完整墙体 \(Y_0 = f_2(O, Y_{1000}, X_0; \theta_2)\)，用通道注意力融合几何与语义线索。推理时还有一步反向优化（空间一致性）：沿人的运动轨迹 T，对潜在噪声 \(X_{1000}, Y_{1000}\) 做基于碰撞的优化，最小化 \(L_{overlap}=\sum_{(x_t,y_t)\in T}\left(\mathbb{1}[(x_t,y_t)\in W]+\mathbb{1}[(x_t,y_t)\in B]\right)\)，即惩罚轨迹点落进墙 W 或物体 B 的区域。这等于用"人能走过去说明那里是自由空间"这一物理常识，把生成结果里穿墙/穿家具的不合理布局逼回到合法位置。

损失函数 / 训练策略¶

两级扩散在仿真数据上训练（Stage 1/2 各自的去噪目标），三种数据增强负责弥合仿真到真实的 gap；推理阶段冻结扩散权重、只把 \(L_{overlap}\) 作为反向优化目标去微调潜在噪声变量，无需真实标注即可在线纠偏。

实验关键数据¶

数据集 RISE-Indoor：TI MMWCAS-RF-EVM 级联雷达固定在 1.2 m 高度，配 Intel Realsense 深度相机取 ground truth；11 种室内环境（办公室、走廊、实验室、客厅）、5 名志愿者随机行走、100+ 条 ~30 s 轨迹、共约 50,000 帧（20 Hz）。提供结构布局多边形 + 物体轴对齐框两级标注。

主实验：物体检测（IoU / Dice，跨 11 个场景平均）¶

方法	输入	IoU (%)	Dice (%)
BRL [22]	单帧	1.17	1.82
EMT [9] + SRHD	多帧	7.70	12.66
RISE（本文）	多帧	57.78	69.34

布局重建（100 条轨迹平均）：RISE 的 Chamfer 距离 16.03 cm vs EMT 的 39.06 cm（降约 60%），F1（15 cm 容差）83.63 vs 63.43。这是首个能在单静态雷达下同时做布局重建 + 家具检测的系统，基线 EMT 根本无法检测小物体。

消融实验（布局重建，逐步加模块）¶

配置	F1 (%) ↑	Chamfer (cm) ↓	说明
Baseline (EMT)	63.43	39.06	起点
+ G（鬼影增强 BAME）	73.37	32.31	增强反射体可见性
+ G, D（再加扩散）	78.84	19.82	生成式补全细节
+ G, D, R（全模型，再加反向优化）	83.63	16.32	反向优化做最终纠偏

关键发现¶

三个模块互补且逐级生效：BAME 改善初始检测（39→32 cm），扩散负责整体重建（32→19.8 cm），反向优化做最后精修（19.8→16.3 cm），没有哪个能单独解决问题。
轨迹长度鲁棒：即使只用 40% 长度的轨迹，RISE 的 Chamfer 仍低于 EMT 用全长轨迹的结果；但 F1 随轨迹变短下降更明显——因为输入信息减少时扩散模型输出更发散，而 F1 受误差阈值约束更敏感。
物体检测上基线几乎全场景为 0（BRL 平均仅 1.17 IoU），说明"小物体的反射体本就极难从单雷达恢复"，RISE 靠语义先验 + 生成补全才把它做了出来。

亮点与洞察¶

"噪声变信号"的视角翻转：把传统被滤掉的多径鬼影当成几何线索，是整篇最"啊哈"的地方——同样的物理现象，换个解释就从障碍变成了资源。
AOA=AOD 假设的诊断很精准：BAME 把"鬼影忽隐忽现"这个工程现象一路追到"虚拟阵列把双角度压成一维"的根因，再对症地恢复三维立方体，是信号处理层面很干净的修法，可迁移到其他多径/穿墙感知任务。
用人的轨迹当物理约束：反向优化里"人走过的地方必然是自由空间"是一个几乎免费的强先验，把它写进生成模型的推理阶段去纠正穿墙，思路可借鉴到任何"有 agent 运动轨迹 + 场景重建"的设置。

局限与展望¶

作者承认目前主要针对单人、较长轨迹场景，多人同时走动会产生更复杂、相互干扰的多径，尚未解决；轨迹变短时 F1 明显掉点。
仿真引擎基于 2D 户型骨架 + 轴对齐框，对复杂三维家具、曲面墙、斜墙的建模可能不足；⚠️ 论文重建主要是 2D top-down 布局，并非完整 3D 体素重建，"scene understanding" 的维度有限。
强依赖"有人走动诱发多径"，空房间或人静止不动时该方法可能失效——这既是优势来源也是适用范围限制。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个单静态雷达同时做布局重建+家具检测，"鬼影即信号"+ BAME 的 AOA/AOD 分离都很原创。
实验充分度: ⭐⭐⭐⭐ 100 条真实轨迹/11 环境/5 万帧，消融清晰；但缺多人、缺与更多无线基线的横向对比。
写作质量: ⭐⭐⭐⭐ 从镜面性痛点到鬼影几何的推导链条清楚，部分公式符号需对照原文附录。
价值: ⭐⭐⭐⭐⭐ 隐私保护 + 穿透遮挡的室内感知，对智能家居/AR/安防有明确落地价值，并贡献首个公开 benchmark。