MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation¶
会议: CVPR 2026
arXiv: 2511.10376
代码: https://github.com/ylwhxht/MSGNav
领域: 3D视觉 / 具身导航
关键词: 多模态3D场景图, 零样本导航, 开放词汇, 闭环推理, 最后一公里问题
一句话总结¶
提出多模态3D场景图(M3DSG)用动态分配的图像边替代纯文本关系边,构建零样本导航系统 MSGNav,通过关键子图选择、自适应词汇更新、闭环推理和可见性视角决策四个模块,在 GOAT-Bench 上 SR 达 52.0%、HM3D-ObjNav 上 SR 达 74.1%,均为 SOTA。
研究背景与动机¶
领域现状:具身导航要求机器人在未知环境中根据目标(物体类别、文本描述或参考图像)自主探索并到达目标。实际部署要求开放词汇泛化和低训练开销,因此零样本方法相比任务特定的 RL 训练更具吸引力。近年来,基于显式 3D 场景图 + LLM 推理的零样本方法(如 SG-Nav、ConceptGraph)在标准基准上取得了不错表现。
现有痛点:传统 3D 场景图将物体间关系过度抽象为简单的文本标签(如"top"、"beside"),带来三个严重问题:(1) 构建昂贵——频繁调用 MLLM 推断文本关系,产生大量 token 和时间开销;(2) 视觉缺失——将视觉观测转化为纯文本图后丢弃了视觉证据,导致歧义和感知错误敏感;(3) 词汇受限——超出预设词汇表的新类别无法表示,限制了泛化能力。
核心矛盾:场景图需要编码丰富的空间-语义关系以支撑 VLM 推理,但纯文本边不可逆地压缩了视觉信息,而保留所有原始图像又会导致推理时 token 爆炸。此外,现有方法忽视了"最后一公里"问题——知道目标位置不等于找到合适的导航视角。
本文目标:构建既保留视觉信息又高效可扩展的 3D 场景图,并基于此在零样本设置下实现鲁棒的开放词汇具身导航。
切入角度:用动态分配的图像替代文本关系边,结合贪心子图选择算法将每次 VLM 查询的图像数压缩到平均仅 4 张,同时引入可见性评分机制解决最后一公里的视角选择问题。
核心 idea:场景图的关系边不用文本而用图像,既保留视觉证据又避免了频繁 MLLM 调用,配合子图选择实现高效推理。
方法详解¶
整体框架¶
MSGNav 是一个零样本具身导航系统,核心流程:(1) 增量构建多模态 3D 场景图 M3DSG——节点为检测到的物体(含类别、3D坐标、房间位置等属性),边为物体对共现的 RGB-D 图像集合;(2) 通过 Compress-Focus-Prune 三步关键子图选择(KSS)从庞大的场景图中提取与目标相关的紧凑子图;(3) 利用自适应词汇更新(AVU)动态扩展开放词汇;(4) 通过闭环推理(CLR)中的决策记忆避免重复错误;(5) 由可见性视角决策(VVD)模块选择最优终点视角。整个系统使用 GPT-4o 作为 VLM backbone,不需要任何训练或微调。
关键设计¶
-
多模态3D场景图 M3DSG:
- 功能:构建场景表示 \(\mathbf{S}=(\mathbf{O}, \mathbf{E})\),其中 \(\mathbf{O}\) 为物体节点集(含类别、3D坐标、点云、视觉特征、房间位置),\(\mathbf{E}\) 为图像边集——每条边存储一组包含对应物体对的 RGB-D 图像
- 核心思路:用 YOLO-W 检测物体、SAM 提取 mask、CLIP 计算视觉特征,通过空间+视觉相似度进行跨帧物体匹配与合并;边更新时只需将当前帧追加到共现物体对的图像集合中,完全不需要 MLLM 推断关系,构建效率极高
- 设计动机:传统文本关系边的三大缺陷(昂贵、丢信息、词汇受限)都源于"需要 MLLM 将视觉转为文本",直接存储图像从根本上避免了这个瓶颈
-
关键子图选择 KSS(Compress-Focus-Prune):
- 功能:从可能包含数百个节点的完整场景图中提取与当前目标最相关的紧凑子图,将 VLM 推理的 token 成本降低超过 95%
- 核心思路:Compress 阶段将场景图压缩为仅含 ID 和类别的邻接表;Focus 阶段将压缩图送入 VLM 选出 top-k 相关物体 \(\mathbf{O}^{rel}\);Prune 阶段通过贪心动态分配算法(Algorithm 1)选择覆盖最多边的最少图像——平均每次查询仅需约 4 张图像
- 设计动机:探索过程中场景图持续增长,直接处理全图既低效又超出 VLM 上下文限制,需要一种保留最大信息量同时最小化输入的策略
-
可见性视角决策 VVD:
- 功能:解决"最后一公里"问题——当 agent 正确定位目标后,选择一个具有良好可见性的最终导航视角,而非简单选最近可达点
- 核心思路:在目标点云 \(\mathcal{PC}_{\bar{o}}\) 周围均匀采样候选视角 \(\mathbf{V}_c\),对每个候选视角计算可见性评分 \(S_{\mathbf{v}_i} = \frac{1}{|\mathcal{PC}_{\bar{o}}|}\sum_{\mathbf{p}} \mathbb{1}_{\mathcal{E}(\mathbf{v}_i, \mathbf{p})}\),其中 \(\mathcal{E}\) 检查视线是否被遮挡,选择评分最高的视点 \(\mathbf{v}_{best}\)
- 设计动机:实验发现现有方法虽然成功接近目标(0.25m–1.0m),但由于视角不佳(太近、被遮挡)导致大量任务判定失败。VVD 在标准阈值 0.25m 下将 SR 从 33.91% 提升到 51.97%
损失函数 / 训练策略¶
零样本方法,无需任何训练或微调。使用预训练的 YOLO-W(检测)、SAM(分割)、CLIP(特征)和 GPT-4o(推理)。自适应词汇更新(AVU)从 ScanNet-200 初始化词汇表 \(V_0\),在探索中由 VLM 根据图像边提出新词汇 \(\hat{V}_t\),持续扩展:\(V_t = V_{t-1} \cup \hat{V}_t\)。闭环推理(CLR)维护决策记忆 \(\mathbf{M}_t = \mathbf{M}_{t-1} \cup \mathcal{R}_t\),将历史行动反馈纳入当前决策。
实验关键数据¶
主实验¶
| 数据集 | 指标 | MSGNav | 之前SOTA | 提升 |
|---|---|---|---|---|
| GOAT-Bench | SR | 52.0% | 47.2% (MTU3D) | +4.8% |
| GOAT-Bench | SPL | 29.6% | 27.7% (MTU3D) | +1.9% |
| HM3D-ObjNav | SR | 74.1% | 72.2% (WMNav) | +1.9% |
| HM3D-ObjNav | SPL | 33.4% | 33.3% (WMNav) | +0.1% |
注:GOAT-Bench 包含类别、语言、图像三种多模态目标,MSGNav 是零样本方法,而 MTU3D 需要训练。在 GOAT-Bench 上,MSGNav 的三种目标子类 SR 分别为 Category 63.6%、Language 57.2%、Image 59.1%。
消融实验¶
| 配置 | SR | SPL | 说明 |
|---|---|---|---|
| Baseline (3D-Mem) | 28.8% | 20.2% | 无任何模块 |
| +M3DSG | 43.8% | 28.0% | 场景图的核心贡献 +15.0% SR |
| +M3DSG+VVD | 56.3% | 34.7% | 最后一公里模块 +12.5% SR |
| +M3DSG+VVD+AVU+CLR | 60.0% | 37.0% | 完整系统 |
场景图对比(GOAT-Bench):
| 场景图类型 | SR | SPL |
|---|---|---|
| Node-only (无边) | 51.8% | 31.2% |
| 传统文本关系图 | 56.2% | 32.7% |
| M3DSG (图像边) | 60.0% | 37.0% |
VVD 模块在不同成功阈值下的效果:
| 成功阈值 d(m) | 无VVD SR | 有VVD SR |
|---|---|---|
| 0.25 (标准) | 33.91% | 51.97% |
| 0.55 | 57.44% | 63.03% |
| 1.00 | 62.38% | 66.52% |
关键发现¶
- M3DSG 相比传统场景图在 Language 和 Image 目标上优势最大(分别 +4.4% 和 +6.8% SR),说明图像边对语言和视觉目标的空间推理帮助最大
- AVU 和 CLR 单独使用时各有局限(AVU 引入噪声词汇、CLR 过于严格),但组合使用互补效果显著
- 大量失败案例集中在 0.25–1.0m 范围内——agent 已到目标附近但视角不佳,VVD 恢复了这些案例
- KSS 将 token 成本降低 95%+ 且平均每次查询仅需约 4 张图像
亮点与洞察¶
- 图像替代文本关系边的思路直击传统场景图的根本缺陷——信息的不可逆压缩。这个设计看似简单但效果显著,M3DSG 本身贡献了 +15% SR
- "最后一公里"问题的发现和量化分析非常有洞察力:通过统计不同成功阈值下的 SR 变化,清楚地展示了大量任务失败的真正原因是视角而非定位
- 贪心动态分配算法(Algorithm 1)将子图选择形式化为集合覆盖问题,确保用最少图像覆盖最多关系边
- 零样本方法能同时超越有训练的 MTU3D,凸显了场景表示质量对导航性能的决定性作用
局限与展望¶
- VFM 和 VLM 的推理延迟是主要瓶颈,限制了实时部署;作者承认场景图方法面临低推理效率问题
- VVD 缓解但未完全解决最后一公里问题(放宽阈值到 1.0m 仍有差距),作者建议用 RL 方法进一步优化
- SPL 指标上优势不大(HM3D-ObjNav 仅 +0.1%),说明 VVD 可能牺牲最短路径换取更好视角
- M3DSG 的图像边存储随探索增长,内存管理策略可进一步优化
- 目前仅在仿真环境中验证,real-world 部署效果未知
相关工作与启发¶
- vs ConceptGraph: ConceptGraph 用 MLLM 生成纯文本关系边,构建成本高且丢失视觉信息;M3DSG 用图像边直接存储视觉证据,构建效率高且无信息损失,在 GOAT-Bench 上 SR 高 3.8%
- vs 3D-Mem: 3D-Mem 也强调原始图像的价值,但缺乏结构化的图表示;MSGNav 在此基础上增加了场景图结构和多模块推理,SR 从 28.8% 提升到 60.0%
- vs SG-Nav: SG-Nav 用层次化提示进行导航推理,但受限于文本场景图的表达力;MSGNav 的多模态场景图提供了更丰富的上下文
- vs VLFM/CompassNav: 这些零样本方法用 VLM 进行 frontier 评估,但缺乏图结构的关系推理能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 图像替代文本关系边的设计新颖实用,最后一公里问题的发现和量化有洞察力
- 实验充分度: ⭐⭐⭐⭐ 两个主流基准 SOTA,多维度消融(模块/场景图类型/VVD 阈值),分析扎实
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,三个限制对应三个解决方案的叙事流畅
- 价值: ⭐⭐⭐⭐ 为零样本具身导航提供了新的场景表示范式,最后一公里问题对社区有启发