Plug-and-Play Label Map Diffusion for Universal Goal-Oriented Navigation¶
会议: ICML 2026
arXiv: 2605.05960
代码: 未公开
领域: 具身导航 / BEV 地图补全 / 扩散模型
关键词: 目标导向导航、Label Map、DDPM、SPADE 调制、HM3D、MP3D
一句话总结¶
本文提出 PLMD:把 BEV 语义图与障碍图合并成 Label Map,用 DDPM 在障碍先验调制下补全未探索区域的语义+障碍标签,作为即插即用模块挂在任意 GON 策略上,在 ON / IIN / MRON 三类任务的 HM3D/MP3D 上一致刷新 SOTA。
研究背景与动机¶
领域现状:目标导向导航(GON)含三大子任务:物体类别导航 ObjectNav、实例图像导航 IIN、多机器人 ObjectNav (MRON)。主流模块化方法构建 egocentric 语义 BEV 地图,再用 RL/LLM 在地图上规划长期目标点(SemExp、IEVE、3D-Mem、Co-NavGPT 等)。
现有痛点:模块化方法的命门是「只有观察到的区域有语义」——机器人需要走遍整个房间才能定位目标,效率极差。已有工作(Ji et al. 2024、Li et al. 2025)尝试用扩散模型在语义 BEV 上补全未知区域,但只学「语义之间的统计相关」(如桌椅常共现),忽略了「障碍布局」这个更刚性的结构先验,结果在未观测区域出现房间边界漂移、墙壁穿模、物体长在墙上等语义幻觉。
核心矛盾:BEV 与自然图像不同——大片是 free space,物体像素稀疏;纯语义扩散得不到稳定的几何骨架。但「障碍/墙壁的几何结构」在房屋内部具有非常强的可学统计规律(墙必须封闭、门口连通),如果先把障碍补全再用障碍调制语义,就能避免「想象出穿墙物体」。
本文目标:(1) 在不重新训练任何 GON 策略的前提下,提供未观测区域的合理语义+障碍预测;(2) 显式利用障碍先验解决语义幻觉;(3) 兼容 RL/SSL/LLM 三种导航范式。
切入角度:把语义图与障碍图合并成 Label Map 用统一调色板可视化,分两个串行扩散网络——障碍图先验稳定 → 通过 SPADE 残差调制语义图扩散,让语义生成在每个去噪步都被几何骨架约束。
核心 idea:「障碍先生 + 语义跟随」的级联扩散补全,配合 HDBSCAN 聚类从预测 Label Map 中提取候选目标,整个模块完全 plug-and-play。
方法详解¶
整体框架¶
PLMD 接在任意基于语义地图的 GON 策略后面,分四步:(I) 机器人正常执行导航,构建 egocentric 语义+障碍 BEV \(M_t\in\mathbb R^{(n+4)\times H\times W}\)(\(n\) 个语义通道 + 占用/自由空间/位置);(II) 用固定调色板把语义和障碍渲染成可视化 Label Map \(L_{t}=[S_{vt},C_{vt}]\),按未观测区域生成 mask \(m\);(III) 障碍网络 \(\mathcal G_\phi\) 先对障碍图做反向 SDE 去噪得 \(c_t^0\),语义网络 \(\tilde{\mathcal G}_\phi\) 以 \(c_t^{\tau-1}\) 通过 SPADE 残差块调制各层特征做语义去噪得 \(s_t^0\),拼成预测 Label Map \(L_t^P=[S_t^P,C_t^P]\);(IV) 在 \(L_t^P\) 上用 HDBSCAN 聚类找目标颜色的最大簇核心作为长期目标,FMM 局部规划过去。若无可靠簇就退回原策略;导航开始 100 步后每 50 步 refresh 一次预测。
关键设计¶
-
障碍先验调制的级联扩散:
- 功能:把障碍图作为几何骨架先生成,再用它在语义扩散每个时间步调制特征,保证语义不穿墙、不长在自由空间。
- 核心思路:障碍图 \(c_\tau\) 沿 SDE \(\mathrm dc=\theta_\tau(\mu_c-c)\mathrm d\tau+\delta_\tau\mathrm dw\) 演化,反向去噪通过条件网络 \(\mathcal G_\phi(c_\tau,\mu_c,\tau)\) 最小化 \(\mathcal L_\alpha=\sum_\tau\alpha_\tau\mathbb E[\|c_\tau-(\mathrm dc_\tau)_{\mathcal G_\phi}-c_{\tau-1}^*\|_p]\)。语义网络 \(\tilde{\mathcal G}_\phi(s_\tau,c_{\tau-1},\tau)\) 在第 \(k\) 层特征 \(f_\tau^k\) 上用 SPADE:\(\hat f_\tau^k=\mathbf W_\gamma^{(k)}(c_{\tau-1})f_\tau^k+\mathbf b_\beta^{(k)}(c_{\tau-1})\),由 \(c_{\tau-1}\) 决定 scale/bias。先单独预训练 \(\mathcal G_\phi\),再冻结它训练 \(\tilde{\mathcal G}_\phi\)。
- 设计动机:BEV 上语义像素稀疏,没有几何骨架时扩散早期步骤会四处乱画;障碍图结构(墙线、门口)数据上更密更稳定,先做障碍再做语义符合「先把房间格局画对再放物品」的人类直觉。SPADE 调制是 GauGAN 验证过的「用 layout 驱动语义」机制,自然适配。
-
Label Map 统一表示:
- 功能:把多通道语义图(\(n\) 类)+ 障碍图(2 类)压缩成单张三通道彩色图,让扩散模型可以直接套用图像生成 backbone。
- 核心思路:用固定调色板把 \(n+2\) 类标签映射为不同 RGB;未观测区域填白色作为 mask;输出端按相同调色板反查得到预测的语义 vector \(S_t^P\in\mathbb R^{n\times H\times W}\) 和障碍 vector \(C_t^P\in\mathbb R^{2\times H\times W}\),再拼成 \(L_t^P=[S_t^P,C_t^P]\)。
- 设计动机:直接对 \(n+4\) 通道做扩散需要重新设计 backbone,可视化 Label Map 让 DDPM/U-Net 的成熟 image inpainting 经验可直接复用;同时调色板天然「离散化」语义类别,降低相邻类别混淆。
-
基于密度聚类的候选目标提取:
- 功能:从预测 Label Map 中找出目标类别的可靠位置作为长期 goal,避免被孤立噪点骗。
- 核心思路:收集所有目标颜色的像素坐标 \(X=\{x_1,\dots,x_n\}\),用 HDBSCAN 提取簇 \(Z=\text{HDBSCAN}(X,N)\),\(N=5\)。按「密度 50% + 簇大小 40% + 距起点 10%」的复合分数排序,选最高分簇核心作长期目标,调用 FMM 规划过去;若无满足阈值的簇则继续按原导航策略走。
- 设计动机:扩散模型免不了散布若干噪点,单点最大概率位置极易踩坑;HDBSCAN 天然处理噪声且不需要预知簇数;复合分数兼顾「目标可信度」和「探索效率」。
损失函数 / 训练策略¶
两阶段:(1) 障碍网络 \(\mathcal G_\phi\) 用 \(\mathcal L_\alpha\) 单训;(2) 冻结 \(\mathcal G_\phi\),训语义网络 \(\tilde{\mathcal G}_\phi\) 用 \(\mathcal L_\zeta(\phi)=\sum_\tau\zeta_\tau\mathbb E[\|s_\tau-(\mathrm ds_\tau)_{\tilde{\mathcal G}_\phi}s_{\tau-1}-s_{\tau-1}^*\|_p]\)。数据:HM3D_v0.1 + MP3D 用 FBE 在 \(\mathcal N=2000\) 个 episode 上跑,每 25 步存一个 mask 对,配合最终完整图作 GT;RedNet 做语义分割,\(n=40\) 类,分辨率 \(480\times 480\) → 模型输入 \(256\times 256\)。Adam \(\beta_1=0.9,\beta_2=0.99\),\(T=100\) 步去噪。
实验关键数据¶
主实验¶
三个任务 × 多数据集(HM3D_v0.1/v0.2、MP3D)。PLMD 配合 OpenFMNav(ON)、FBE/IEVE(IIN)、MCoCoNav(MRON):
| 任务 | 数据集 | 前 SOTA | PLMD (Ours) | 提升 |
|---|---|---|---|---|
| ON | HM3D_v0.1 | SGM 0.602 / 0.308 | 0.656 / 0.333 | +5.4% / +2.5% SR/SPL |
| ON | MP3D | UniGoal 0.410 / 0.164 | 0.426 / 0.164 | +1.6% SR |
| IIN | HM3D_v0.2 | IEVE 0.702 / 0.252 | 0.776 / 0.283 | +7.4% / +3.1% |
| MRON | HM3D_v0.2 | MCoCoNav 0.716 / 0.387 | 0.762 / 0.406 | +4.6% / +1.9% |
| MRON | MP3D | MCoCoNav 0.568 / 0.334 | 0.591 / 0.382 | +2.3% / +4.8% |
IIN 提升最大(+7.4% SR),因为 IIN 高度依赖完整语义图做实例匹配,地图补全的收益最大。
消融实验¶
与其他扩散补全方法对比(MRON HM3D_v0.2):
| 方法 | SR | SPL | PSNR |
|---|---|---|---|
| IR-SDE | 0.698 | 0.370 | 29.895 |
| StrDiffusion | 0.729 | 0.374 | 31.486 |
| PLMD | 0.762 | 0.406 | 34.284 |
关键组件消融(HM3D_v0.2):
| 配置 | ON SR | IIN SR | MRON SR | PSNR |
|---|---|---|---|---|
| Full | 0.665 | 0.776 | 0.762 | 34.284 |
| w/o \(\mathcal G_\phi\)(不用障碍先验) | 0.636 | 0.730 | 0.714 | 30.437 |
| w/o 障碍图 | 0.626 | 0.727 | 0.717 | 34.284 |
| w/o HDBSCAN 聚类 | 0.657 | 0.757 | 0.748 | 34.284 |
| 用预测图替换观测图(极端) | 0.640 | – | 0.731 | 34.284 |
障碍先验 \(\mathcal G_\phi\) 拿掉后 PSNR 直降 3.85,IIN SR 掉 4.6%;聚类对 IIN 影响最大(−1.9%),因为长期目标更依赖单一可靠位置。
关键发现¶
- 障碍图先验是质量天花板:单看 PSNR 就证明几何骨架对扩散生成质量的决定性作用;这一点对所有 BEV/layout 类生成任务都成立。
- 执行频率「100 步起每 50 步刷新」是普适设置:起步太早地图信息不足(输入噪声多),刷新太频拉慢推理;不需要任务级动态调度。
- 开放词汇泛化:换用 Grounded SAM 做语义分割(PLMD†),在未见类别(lamp、toy car、microwave)上 SR=0.354 优于 MCoCoNav 0.327,证明 PLMD 学到的是「与具体类别无关的几何-语义关联」。
- 与 GT label map 的差距:GT Label Map 喂 OpenFMNav 上 SR 0.742 vs PLMD 0.665——还有 8% 的差距留给未来改进。
亮点与洞察¶
- 「先画结构再填语义」级联:障碍图作为几何骨架在每层 SPADE 调制语义,是把 SPADE GauGAN 思路漂亮迁移到 BEV inpainting 的案例,值得在自动驾驶 OccNet/HD-Map 补全里直接复用。
- 真正 plug-and-play:完全不动 RL/LLM 导航策略,只补地图就拿到一致提升——给「补全模块」这种 orthogonal 工具的部署价值做了好范例。
- HDBSCAN + 复合分数选 goal:解决了「扩散有噪点」的实际工程问题,是从研究到部署的关键一步。
- 统一 Label Map 表示:把多通道压成 RGB 让 DDPM backbone 直接复用,看似工程取巧实则解锁了 image inpainting 全部 SOTA 工具链。
局限与展望¶
- 训练数据来自 FBE 策略采集,可能引入探索偏差(未到达区域分布与真实部署不一致),泛化到陌生家具布局时无量化分析。
- 障碍预测错误会级联放大语义错误(SPADE 调制是单向的),文中未讨论失败案例。
- 100 步 DDPM 加上 ON/MRON 每 50 步触发一次,对实时机器人是不小延迟(开放词汇版 Grounded SAM PLMD† 单次 1500 多秒),需要 latent / consistency 加速。
- 三通道彩色化用固定调色板,类别数 \(n\) 增大时颜色拥挤会带来类别混淆;可考虑学习式 token embedding。
- 多机器人间地图融合仍是各自独立预测,未利用共享 latent 加速一致性。
相关工作与启发¶
- vs SGM (zhang2024) / T-Diff (yu2024):纯语义关联补全,没用障碍骨架;PLMD 在 ON HM3D_v0.1 +5.4% SR。
- vs StrDiffusion (liu2024):用结构稀疏性减幻觉,但仍在语义层;PLMD 显式建模障碍 → SPADE 调制语义,PSNR 高 2.8。
- vs IEVE (lei2024):IIN SOTA,PLMD 加在其上仍 +7.4% SR,证明 PLMD 与已有 IIN 强策略正交。
- vs 自动驾驶 BEV 占用预测(OccWorld、SurroundOcc):都是补全未观测占用,但 PLMD 把 free/occupied/semantic 联合处理,更贴具身导航语义。
- 启发:障碍 → 语义级联调制可以套到自动驾驶 OccNet + HDMap 联合预测、室内 SLAM 后处理等场景。
评分¶
- 新颖性: ⭐⭐⭐⭐ 障碍先验调制语义扩散是清晰的新增量,但 SPADE 思想本身是借鉴
- 实验充分度: ⭐⭐⭐⭐⭐ 3 任务 × 多数据集 × 多 backbone + 频率扫描 + 开放词汇 + 完整消融
- 写作质量: ⭐⭐⭐⭐ 故事清晰,公式严谨,附录细节充分
- 价值: ⭐⭐⭐⭐ 即插即用的 BEV 补全模块,工业落地价值高,对自动驾驶 BEV 任务也有外溢启发