Towards Physically Executable 3D Gaussian for Embodied Navigation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HB6KvsqcAn
代码: https://sage-3d.github.io
领域: 3D视觉 / 具身导航 / 视觉语言导航(VLN)
关键词: 3D高斯泼溅, 视觉语言导航, 物理仿真, 语义标注, 具身智能

一句话总结¶

本文提出 SAGE-3D 范式，给原本只能用来"渲染好看"的 3DGS 场景补上了物体级语义和物理碰撞结构，把它升级成可训练、可评测具身智能体的导航环境，并配套发布了 1k 标注场景的 InteriorGS 数据集与首个基于 3DGS 的 VLN 基准 SAGE-Bench（2M 轨迹-指令对）。

研究背景与动机¶

领域现状：视觉语言导航（VLN）需要在仿真环境里训练智能体跟随自然语言指令走动，因为真实世界训练既贵又危险。场景表示从早期的扫描网格（Matterport3D、HM3D）一路演化到最近的 3D 高斯泼溅（3DGS）——3DGS 渲染逼真、实时，被视为缩小 sim-to-real gap 的利器。

现有痛点：相比扫描网格，3DGS 有两个天然优势——它用离散高斯表示场景，物体可以直接被标注（网格是一整片连续表面，物体粘成一团很难分离）；而且它优化的是连续辐射场，任意视角都一致逼真（网格纹理在新视角下会出现接缝、拉伸、模糊）。但当前 3DGS 只被用来做高保真渲染，根本没法直接拿来跑 VLN，因为它有两个硬伤：(1) 缺细粒度语义——现有 3DGS 场景只有颜色和密度，没有实例 ID 或物体属性，无法 ground 像"走到白色书架旁那把红椅子"这种指令；(2) 缺物理可执行结构——高斯泼溅本质是体渲染，很难从中抽出平滑表面和可靠的碰撞几何，智能体会直接"穿模"。

核心矛盾：3DGS 的逼真外观与"可执行的环境基座"之间存在断层——它有视觉，却没有语义和物理。想直接从高斯里反推表面/碰撞体既困难又易错，把语义和外观对齐也不简单。

本文目标：在保留 3DGS 逼真渲染的前提下，给它注入物体级语义 + 物理可执行性，让它成为能训练、能评测具身智能体的环境基座。

切入角度：作者发现 3DGS 场景其实是从美术师制作的网格场景采样重建出来的——既然源头有干净的网格，就可以把外观和物理解耦：用 3DGS 负责好看的外观，用源网格抽出的碰撞体负责物理，两者拼成一个混合表示。

核心 idea：用"3DGS（外观）+ Mesh 碰撞体（物理）+ 人工物体级标注（语义）"的混合范式，把纯感知的 3DGS 场景升级为可执行的 POMDP 导航环境。

方法详解¶

整体框架¶

SAGE-3D（Semantically and Physically Aligned Gaussian Environments）的核心是一个形式化升级：把一个 3DGS 的高斯原语集合 $G=\{g_i\}_{i=1}^{N}$，叠加语义层 $M$ 和物理层 $\Phi$，转化为可执行环境 $E_{exec}$：

\[G + M + \Phi \longrightarrow E_{exec}\]

最终环境被建模成一个语义+物理增强的 POMDP：$E = (U, S, A, O, T, Z; M, \Phi)$，其中 $U$ 是指令空间、$S$ 是连续状态空间、$A$ 是动作空间、$O$ 是多模态观测空间，$T, Z$ 分别是物理驱动的状态转移和渲染函数。

整条流水线从美术师设计的网格场景出发：先采样重建出 3DGS 场景（语义层 $M$ 由专家做物体级标注、再投影成 2D 语义俯视图）；再从源网格抽碰撞体作为物理层 $\Phi$，与 3DGS 拼成混合表示并接入机器人 API；最后基于这套环境生成 2M 条 VLN 数据，构成 SAGE-Bench 基准，并用三个连续性指标评测模型。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["美术师网格场景<br/>(干净几何)"] --> B["采样 + GSplat 重建<br/>3DGS 场景"]
    B --> C["物体级语义锚定<br/>专家标注 + 2D 语义俯视图"]
    A --> D["物理执行拼接<br/>CoACD 凸分解抽碰撞体"]
    C --> E["3DGS-Mesh 混合表示<br/>外观/物理解耦 + 机器人 API"]
    D --> E
    E --> F["SAGE-Bench 基准<br/>分层指令 + 三连续性指标"]

关键设计¶

1. SAGE-3D 范式：把"只能看"的 3DGS 形式化成"能跑"的 POMDP

痛点是 3DGS 长期只是个渲染器，缺一个统一的框架把它接入具身学习。本文先把它形式化为 $G + M + \Phi \to E_{exec}$ 这一升级过程，并落到 POMDP $E=(U,S,A,O,T,Z;M,\Phi)$ 上——关键在于 $T$ 和 $Z$ 是"物理驱动"的：状态转移由真实碰撞动力学决定、观测由 3DGS 渲染生成，智能体在连续度量空间里移动（不是全景节点间的瞬移）。这一形式化把"加语义、加物理"明确成两个正交的层 $M$ 和 $\Phi$，后面两个组件正好各补一层，从而既保住 3DGS 的逼真渲染，又让它具备语义可指代性和物理可执行性。

2. 物体级语义锚定：给高斯补上实例 ID 和可指代的 2D 语义地图

这一步针对"3DGS 没有实例语义、无法 ground 细粒度指令"的痛点。作者放弃从高斯反推语义，转而从干净的美术师网格采样重建 3DGS——平均每个场景渲染约 3000 个相机视角，用开源 GSplat 估计高斯参数，再对采样出的场景做人工双重校验标注，给每个物体打上类别、实例 ID、bounding box。这样得到 InteriorGS：1000 个场景（752 个住宅室内 + 248 个公共场景，覆盖音乐厅、健身房、游乐园、泳池等），含 554k 物体实例、755 个类别。

由于扫描网格那套 NavMesh 流程（靠遍历场景生成）在 3DGS 上不可行，作者额外设计了 2D 语义俯视图：把标注好的 3D 物体投影到地面，门按状态（开/关/半开）打标、墙标为不可通行。考虑到标注存的是轴对齐 3D 框、footprint 不准，他们对每个物体采表面点、投影、取 2D 凸包来精修轮廓： $$M_k = \text{Fuse}\left(\text{Hull}\{\Pi_{top}(p) \mid p \in \text{Surf}(o_k)\}\right)$$ 其中 $\text{Surf}(o_k)$ 是物体 $o_k$ 的采样表面点，$\Pi_{top}$ 是地面投影，$\text{Hull}(\cdot)$ 是 2D 凸包算子，$\text{Fuse}(\cdot)$ 把多视角 mask 融成一致 footprint。这张语义地图直接支撑了后面的指令生成和 A* 路径规划。

3. 物理执行拼接：外观与物理解耦的 3DGS-Mesh 混合表示

即便有了语义，3DGS 仍会"穿模"，无法直接当 VLN 环境。作者的做法是把外观和物理彻底解耦：拿每个物体的美术师三角网格，用 CoACD 做凸分解得到逐物体碰撞体，然后在 USDA 场景里把碰撞体写成不可见的刚体（负责接触和动力学），3DGS 文件保持可见（负责逼真外观）。每个物体被实例化为一个 USD prim，并配上刚体/接触参数 $\Phi_k$——静态场景物体默认静态刚体，少量精选物体配成可移动/可铰接以支持交互。这样运行时无需对美术网格做光线追踪，既保住 3DGS 的高保真渲染，又拿到精确碰撞几何。

Isaac Sim 5.0 起支持从 3DGUT 导出的 USDZ 渲染 3DGS（但导入的 3DGS 只有外观、不带物理），正好被这套混合表示补齐。仿真器对外暴露丰富机器人 API：支持足式/轮式地面平台（Unitree G1/Go2/H1）和空中无人机，动作接口兼顾离散命令（转/前进/停）和连续控制（地面机器人的速度命令 $(v,\omega)$、无人机的 6-DoF 速度/姿态），并同步提供 RGB、深度、语义分割、位姿、接触事件，内置碰撞检测与卡死/穿模监控恢复。离线生成的碰撞体被缓存以加速加载、保证可复现评测。

4. SAGE-Bench 与三个连续性指标：从"端点成败"转向"全程运动质量"

有了可执行环境，作者构建了首个基于 3DGS 的 VLN 基准 SAGE-Bench（2M 轨迹-指令对）。指令是分层的：高层指令强调任务语义和人类意图，分 5 类——Add Object（引入因果物体让轨迹有意义）、Scenario Driven（嵌入情境动机，如"我渴了，从冰箱拿瓶饮料"）、Relative Relationship（用空间关系区分相似目标）、Attribute-based（用颜色/状态等属性唯一锁定目标）、Area-based（指向功能区而非具体物体）；低层指令则是模板化的起止 waypoint 基础动作。高层指令由 MLLM 基于 2D 语义图里的类别、属性、空间关系生成；轨迹用 1.2m 高占据图 + 2D 语义图跑 A* 最短路生成。评测采用三轴框架（任务类型 × 指令层级 × episode 复杂度）。

更关键的是三个自然连续性指标，弥补传统指标只看端点、看不见全程运动质量的缺陷： - 连续成功率 CSR：传统 SR 只在终点做 0/1 判断，CSR 衡量智能体停留在参考路径容差走廊 $C$ 内（且满足任务条件）的时间比例，$\text{CSR}=\frac{1}{T}\sum_{t=1}^{T}s(t)$，反映"全程目标一致"的行为。 - 积分碰撞惩罚 ICP：传统碰撞率 CR 不区分偶尔触碰和持续摩擦，ICP 对碰撞强度序列 $c(t)\in[0,1]$ 时间积分，$\text{ICP}=\frac{1}{T}\sum_{t=1}^{T}c(t)$，同时刻画碰撞频率和持续时间。 - 路径平滑度 PS：由连续航向变化幅度算归一化平滑分，$\text{PS}=1-\frac{1}{T-1}\sum_{t=2}^{T}\min\left(\frac{|\Delta\theta_t|}{\pi},1\right)$，其中 $\Delta\theta_t=\theta_t-\theta_{t-1}$，值越高越平滑，越利于真机可行性。

实验关键数据¶

主实验¶

在 SAGE-Bench 上评测了闭源/开源 MLLM 和专用 VLN 模型。结果显示这个新基准对现有模型相当有挑战——除了 SOTA 的 NaVILA，其他模型 SR 都不超过 0.15。用 SAGE 数据微调后提升显著：

模型	SR↑	OSR↑	SPL↑	CSR↑	ICP↓	PS↑
NaVid-base	0.10	0.13	0.10	0.15	0.28	0.84
NaVid-SAGE (本文)	0.36	0.46	0.32	0.48	0.66	0.54
NaVILA-base	0.21	0.26	0.22	0.33	0.72	0.41
NaVILA-SAGE (本文)	0.46	0.55	0.48	0.57	0.54	0.74
NaVILA (原版)	0.39	0.47	0.34	0.48	0.61	0.68

NaVILA-SAGE 在所有任务完成度指标上都做到最佳，SR 从 base 的 0.21 提到 0.46。注意有些弱模型（SR<0.20）表现像"随机或单一动作预测"，它们的 CR/ICP/PS 不具可比性。

跨域泛化（仅用 SAGE-Bench 训练、不碰 VLN-CE 数据，测 VLN-CE R2R Val-Unseen）：

模型	SR↑	OSR↑	SPL↑
NaVILA-base	0.29	0.38	0.27
NaVILA-SAGE (本文)	0.38	0.51	0.36
NaVid-base	0.22	0.32	0.17
NaVid-SAGE (本文)	0.31	0.42	0.29

NaVILA-SAGE 在 R2R Val-Unseen 上 SR 相对提升 31%（0.29→0.38）、OSR 相对提升 34%（0.38→0.51），印证 3DGS 数据因贴近真实世界而具强泛化性。

消融实验¶

渲染速度与收敛对比（NaVILA-base，H20 GPU，10k 训练 / 1k 验证）：

环境类型	渲染时间/帧(ms)↓	显存(MB)↓	到 SR=40% 迭代数(k)↓	耗时(h)↓
扫描网格 (MP3D/HM3D)	16.7	850	120	4.8
3DGS-Mesh 混合 (本文)	6.2	220	160	6.2

数据规模影响（场景数 × 样本数）：800 场景 / 240k 样本时 SR 达 0.42；缩到 100 场景 / 60k 样本掉到 0.23，接近未微调的 NaVILA-base（0.21）。说明场景多样性和样本量都重要。

关键发现¶

3DGS 渲染更快但更难收敛：3DGS 每帧 6.2ms、显存 220MB，远优于网格的 16.7ms/850MB；但达到同样 40% SR 需 160 次迭代（6.2h）vs 网格 120 次（4.8h）——因为 3DGS 数据更丰富逼真、更接近真实世界复杂度，所以训练更难。
传统指标会漏掉运动质量问题：NaVILA 任务完成度尚可（0.39 SR）但 ICP 高达 0.61（持续碰撞）、PS 仅 0.68（转弯机械）。可视化 Case 1 里模型长时间贴墙走，传统 CR 只算 1，而 ICP 达 0.87——证明新指标能揭露传统指标看不见的"贴墙摩擦"。
高层指令远难于低层指令：NaVILA 在低层指令上 SR 0.56，到高层（更自然的语义）只剩 0.39，凸显语义理解才是 VLN 的真正瓶颈。

亮点与洞察¶

"外观/物理解耦"是化解 3DGS 物理化难题的巧招：与其费力从高斯反推平滑表面和碰撞体（SuGaR 等都很吃力），不如回到 3DGS 的源头网格抽碰撞体、让 3DGS 专心做渲染——两者在 USD 里拼成混合表示，运行时不用对网格做光追，既快又准。
三个连续性指标戳中 VLN 评测痛点：现有 VLN 几乎都只看端点 SR/SPL，CSR/ICP/PS 把评测从"到没到"扩展到"走得稳不稳、撞不撞"，这套思路可直接迁移到任何连续控制/真机部署的导航评测。
数据本身就是泛化引擎：仅靠 SAGE-Bench 训练就能在 VLN-CE 上涨 31%，说明逼真+多样的 3DGS 数据带来的真实世界对齐，比在目标域内调参更有价值。

局限与展望¶

依赖美术师制作的干净网格：整套范式的物理层和语义采样都建立在"有干净网格源"之上，对真实扫描场景（只有点云/噪声深度）不直接适用，规模化采集成本不低。
3DGS 收敛更慢：作者承认 3DGS 数据训练更难收敛（同等 SR 多花约 30% 时间），对算力预算有限的研究者是负担。
物理交互仍偏静态：绝大多数物体配成静态刚体，仅少量精选物体可移动/铰接，离"丰富可操作环境"还有距离；指标里 ICP/PS 在低性能模型上不可比，评测覆盖面受限于模型能力。
改进方向：探索从真实扫描直接生成混合表示、扩大可交互物体比例、研究加速 3DGS-VLN 训练收敛的方法。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 3DGS 系统升级为语义+物理可执行的 VLN 环境，并配套首个 3DGS VLN 基准，范式级贡献。
实验充分度: ⭐⭐⭐⭐ 覆盖 10+ 模型、跨域泛化、数据规模、渲染收敛多维消融，但可交互物体和真机验证偏少。
写作质量: ⭐⭐⭐⭐ 形式化清晰、图文对照到位，指标定义完整。
价值: ⭐⭐⭐⭐⭐ InteriorGS（1k 场景/554k 物体）+ SAGE-Bench（2M 数据）+ 三连续性指标，对具身导航社区是高复用的基础设施。