Plug-and-Play Label Map Diffusion for Universal Goal-Oriented Navigation¶

会议: ICML 2026
arXiv: 2605.05960
代码: 未公开
领域: 具身导航 / BEV 地图补全 / 扩散模型
关键词: 目标导向导航、Label Map、DDPM、SPADE 调制、HM3D、MP3D

一句话总结¶

本文提出 PLMD：把 BEV 语义图与障碍图合并成 Label Map，用 DDPM 在障碍先验调制下补全未探索区域的语义+障碍标签，作为即插即用模块挂在任意 GON 策略上，在 ON / IIN / MRON 三类任务的 HM3D/MP3D 上一致刷新 SOTA。

研究背景与动机¶

领域现状：目标导向导航（GON）含三大子任务：物体类别导航 ObjectNav、实例图像导航 IIN、多机器人 ObjectNav (MRON)。主流模块化方法构建 egocentric 语义 BEV 地图，再用 RL/LLM 在地图上规划长期目标点（SemExp、IEVE、3D-Mem、Co-NavGPT 等）。

现有痛点：模块化方法的命门是「只有观察到的区域有语义」——机器人需要走遍整个房间才能定位目标，效率极差。已有工作（Ji et al. 2024、Li et al. 2025）尝试用扩散模型在语义 BEV 上补全未知区域，但只学「语义之间的统计相关」（如桌椅常共现），忽略了「障碍布局」这个更刚性的结构先验，结果在未观测区域出现房间边界漂移、墙壁穿模、物体长在墙上等语义幻觉。

核心矛盾：BEV 与自然图像不同——大片是 free space，物体像素稀疏；纯语义扩散得不到稳定的几何骨架。但「障碍/墙壁的几何结构」在房屋内部具有非常强的可学统计规律（墙必须封闭、门口连通），如果先把障碍补全再用障碍调制语义，就能避免「想象出穿墙物体」。

本文目标：(1) 在不重新训练任何 GON 策略的前提下，提供未观测区域的合理语义+障碍预测；(2) 显式利用障碍先验解决语义幻觉；(3) 兼容 RL/SSL/LLM 三种导航范式。

切入角度：把语义图与障碍图合并成 Label Map 用统一调色板可视化，分两个串行扩散网络——障碍图先验稳定 → 通过 SPADE 残差调制语义图扩散，让语义生成在每个去噪步都被几何骨架约束。

核心 idea：「障碍先生 + 语义跟随」的级联扩散补全，配合 HDBSCAN 聚类从预测 Label Map 中提取候选目标，整个模块完全 plug-and-play。

方法详解¶

整体框架¶

PLMD 接在任意基于语义地图的 GON 策略后面，分四步：(I) 机器人正常执行导航，构建 egocentric 语义+障碍 BEV \(M_t\in\mathbb R^{(n+4)\times H\times W}\)（\(n\) 个语义通道 + 占用/自由空间/位置）；(II) 用固定调色板把语义和障碍渲染成可视化 Label Map \(L_{t}=[S_{vt},C_{vt}]\)，按未观测区域生成 mask \(m\)；(III) 障碍网络 \(\mathcal G_\phi\) 先对障碍图做反向 SDE 去噪得 \(c_t^0\)，语义网络 \(\tilde{\mathcal G}_\phi\) 以 \(c_t^{\tau-1}\) 通过 SPADE 残差块调制各层特征做语义去噪得 \(s_t^0\)，拼成预测 Label Map \(L_t^P=[S_t^P,C_t^P]\)；(IV) 在 \(L_t^P\) 上用 HDBSCAN 聚类找目标颜色的最大簇核心作为长期目标，FMM 局部规划过去。若无可靠簇就退回原策略；导航开始 100 步后每 50 步 refresh 一次预测。

关键设计¶

障碍先验调制的级联扩散:
- 功能：把障碍图作为几何骨架先生成，再用它在语义扩散每个时间步调制特征，保证语义不穿墙、不长在自由空间。
- 核心思路：障碍图 \(c_\tau\) 沿 SDE \(\mathrm dc=\theta_\tau(\mu_c-c)\mathrm d\tau+\delta_\tau\mathrm dw\) 演化，反向去噪通过条件网络 \(\mathcal G_\phi(c_\tau,\mu_c,\tau)\) 最小化 \(\mathcal L_\alpha=\sum_\tau\alpha_\tau\mathbb E[\|c_\tau-(\mathrm dc_\tau)_{\mathcal G_\phi}-c_{\tau-1}^*\|_p]\)。语义网络 \(\tilde{\mathcal G}_\phi(s_\tau,c_{\tau-1},\tau)\) 在第 \(k\) 层特征 \(f_\tau^k\) 上用 SPADE：\(\hat f_\tau^k=\mathbf W_\gamma^{(k)}(c_{\tau-1})f_\tau^k+\mathbf b_\beta^{(k)}(c_{\tau-1})\)，由 \(c_{\tau-1}\) 决定 scale/bias。先单独预训练 \(\mathcal G_\phi\)，再冻结它训练 \(\tilde{\mathcal G}_\phi\)。
- 设计动机：BEV 上语义像素稀疏，没有几何骨架时扩散早期步骤会四处乱画；障碍图结构（墙线、门口）数据上更密更稳定，先做障碍再做语义符合「先把房间格局画对再放物品」的人类直觉。SPADE 调制是 GauGAN 验证过的「用 layout 驱动语义」机制，自然适配。
Label Map 统一表示:
- 功能：把多通道语义图（\(n\) 类）+ 障碍图（2 类）压缩成单张三通道彩色图，让扩散模型可以直接套用图像生成 backbone。
- 核心思路：用固定调色板把 \(n+2\) 类标签映射为不同 RGB；未观测区域填白色作为 mask；输出端按相同调色板反查得到预测的语义 vector \(S_t^P\in\mathbb R^{n\times H\times W}\) 和障碍 vector \(C_t^P\in\mathbb R^{2\times H\times W}\)，再拼成 \(L_t^P=[S_t^P,C_t^P]\)。
- 设计动机：直接对 \(n+4\) 通道做扩散需要重新设计 backbone，可视化 Label Map 让 DDPM/U-Net 的成熟 image inpainting 经验可直接复用；同时调色板天然「离散化」语义类别，降低相邻类别混淆。
基于密度聚类的候选目标提取:
- 功能：从预测 Label Map 中找出目标类别的可靠位置作为长期 goal，避免被孤立噪点骗。
- 核心思路：收集所有目标颜色的像素坐标 \(X=\{x_1,\dots,x_n\}\)，用 HDBSCAN 提取簇 \(Z=\text{HDBSCAN}(X,N)\)，\(N=5\)。按「密度 50% + 簇大小 40% + 距起点 10%」的复合分数排序，选最高分簇核心作长期目标，调用 FMM 规划过去；若无满足阈值的簇则继续按原导航策略走。
- 设计动机：扩散模型免不了散布若干噪点，单点最大概率位置极易踩坑；HDBSCAN 天然处理噪声且不需要预知簇数；复合分数兼顾「目标可信度」和「探索效率」。

损失函数 / 训练策略¶

两阶段：(1) 障碍网络 \(\mathcal G_\phi\) 用 \(\mathcal L_\alpha\) 单训；(2) 冻结 \(\mathcal G_\phi\)，训语义网络 \(\tilde{\mathcal G}_\phi\) 用 \(\mathcal L_\zeta(\phi)=\sum_\tau\zeta_\tau\mathbb E[\|s_\tau-(\mathrm ds_\tau)_{\tilde{\mathcal G}_\phi}s_{\tau-1}-s_{\tau-1}^*\|_p]\)。数据：HM3D_v0.1 + MP3D 用 FBE 在 \(\mathcal N=2000\) 个 episode 上跑，每 25 步存一个 mask 对，配合最终完整图作 GT；RedNet 做语义分割，\(n=40\) 类，分辨率 \(480\times 480\) → 模型输入 \(256\times 256\)。Adam \(\beta_1=0.9,\beta_2=0.99\)，\(T=100\) 步去噪。

实验关键数据¶

主实验¶

三个任务 × 多数据集（HM3D_v0.1/v0.2、MP3D）。PLMD 配合 OpenFMNav（ON）、FBE/IEVE（IIN）、MCoCoNav（MRON）：

任务	数据集	前 SOTA	PLMD (Ours)	提升
ON	HM3D_v0.1	SGM 0.602 / 0.308	0.656 / 0.333	+5.4% / +2.5% SR/SPL
ON	MP3D	UniGoal 0.410 / 0.164	0.426 / 0.164	+1.6% SR
IIN	HM3D_v0.2	IEVE 0.702 / 0.252	0.776 / 0.283	+7.4% / +3.1%
MRON	HM3D_v0.2	MCoCoNav 0.716 / 0.387	0.762 / 0.406	+4.6% / +1.9%
MRON	MP3D	MCoCoNav 0.568 / 0.334	0.591 / 0.382	+2.3% / +4.8%

IIN 提升最大（+7.4% SR），因为 IIN 高度依赖完整语义图做实例匹配，地图补全的收益最大。

消融实验¶

与其他扩散补全方法对比（MRON HM3D_v0.2）：

方法	SR	SPL	PSNR
IR-SDE	0.698	0.370	29.895
StrDiffusion	0.729	0.374	31.486
PLMD	0.762	0.406	34.284

关键组件消融（HM3D_v0.2）：

配置	ON SR	IIN SR	MRON SR	PSNR
Full	0.665	0.776	0.762	34.284
w/o \(\mathcal G_\phi\)（不用障碍先验）	0.636	0.730	0.714	30.437
w/o 障碍图	0.626	0.727	0.717	34.284
w/o HDBSCAN 聚类	0.657	0.757	0.748	34.284
用预测图替换观测图（极端）	0.640	–	0.731	34.284

障碍先验 \(\mathcal G_\phi\) 拿掉后 PSNR 直降 3.85，IIN SR 掉 4.6%；聚类对 IIN 影响最大（−1.9%），因为长期目标更依赖单一可靠位置。

关键发现¶

障碍图先验是质量天花板：单看 PSNR 就证明几何骨架对扩散生成质量的决定性作用；这一点对所有 BEV/layout 类生成任务都成立。
执行频率「100 步起每 50 步刷新」是普适设置：起步太早地图信息不足（输入噪声多），刷新太频拉慢推理；不需要任务级动态调度。
开放词汇泛化：换用 Grounded SAM 做语义分割（PLMD†），在未见类别（lamp、toy car、microwave）上 SR=0.354 优于 MCoCoNav 0.327，证明 PLMD 学到的是「与具体类别无关的几何-语义关联」。
与 GT label map 的差距：GT Label Map 喂 OpenFMNav 上 SR 0.742 vs PLMD 0.665——还有 8% 的差距留给未来改进。

亮点与洞察¶

「先画结构再填语义」级联：障碍图作为几何骨架在每层 SPADE 调制语义，是把 SPADE GauGAN 思路漂亮迁移到 BEV inpainting 的案例，值得在自动驾驶 OccNet/HD-Map 补全里直接复用。
真正 plug-and-play：完全不动 RL/LLM 导航策略，只补地图就拿到一致提升——给「补全模块」这种 orthogonal 工具的部署价值做了好范例。
HDBSCAN + 复合分数选 goal：解决了「扩散有噪点」的实际工程问题，是从研究到部署的关键一步。
统一 Label Map 表示：把多通道压成 RGB 让 DDPM backbone 直接复用，看似工程取巧实则解锁了 image inpainting 全部 SOTA 工具链。

局限与展望¶

训练数据来自 FBE 策略采集，可能引入探索偏差（未到达区域分布与真实部署不一致），泛化到陌生家具布局时无量化分析。
障碍预测错误会级联放大语义错误（SPADE 调制是单向的），文中未讨论失败案例。
100 步 DDPM 加上 ON/MRON 每 50 步触发一次，对实时机器人是不小延迟（开放词汇版 Grounded SAM PLMD† 单次 1500 多秒），需要 latent / consistency 加速。
三通道彩色化用固定调色板，类别数 \(n\) 增大时颜色拥挤会带来类别混淆；可考虑学习式 token embedding。
多机器人间地图融合仍是各自独立预测，未利用共享 latent 加速一致性。

评分¶

新颖性: ⭐⭐⭐⭐ 障碍先验调制语义扩散是清晰的新增量，但 SPADE 思想本身是借鉴
实验充分度: ⭐⭐⭐⭐⭐ 3 任务 × 多数据集 × 多 backbone + 频率扫描 + 开放词汇 + 完整消融
写作质量: ⭐⭐⭐⭐ 故事清晰，公式严谨，附录细节充分
价值: ⭐⭐⭐⭐ 即插即用的 BEV 补全模块，工业落地价值高，对自动驾驶 BEV 任务也有外溢启发