跳转至

Embodied Navigation Foundation Model

会议: ICLR 2026
项目主页: https://pku-epic.github.io/NavFoM-Web/
代码: 论文接受后开源(pre-trained weights 一并公开)
领域: 具身导航 / 机器人
关键词: 导航基础模型、跨机体导航、视觉语言导航、Token预算采样、多任务联合训练

一句话总结

NavFoM 是首个跨机体×跨任务的具身导航基础模型,在 800 万条导航样本上联合训练四足机器人、无人机、轮式机器人和车辆,用 TVI 标识符 Token 处理任意相机配置,用预算感知历史采样控制推理开销,在 7 个公开 benchmark 上免微调达到 SOTA 或竞争性性能。

研究背景与动机

领域现状:具身导航是智能体在物理世界中移动的核心能力,近年借助视觉-语言模型(VLM)取得长足进步,VLM 在检索、分类、字幕等零样本任务上展示出强泛化能力。

现有痛点:现有导航方法高度依赖特定任务场景和特定机体架构——跨任务方法(如 NaVid、Uni-NaVid)假设固定相机配置,跨机体方法(如 NoMaD、ViNT)隐式学习特定机体的物理先验,两条线始终相互割裂,无法形成统一的导航智能。

核心矛盾:不同机体相机配置各异(单目、四目、六目、八目),不同任务时间跨度差异悬殊(VLN 约 122 步、跟踪任务超 1000 帧),统一处理意味着 token 数量呈数量级增长,直接拼接不可行。

本文目标:构建一个能在四足机器人、无人机、轮式机器人和车辆上跨任务(VLN、目标搜索、主动跟踪、自动驾驶)通用的导航基础模型 NavFoM,且无需任务特定微调。

切入角度:以自我中心视频 + 语言指令为统一输入格式,输出航点轨迹,兼容绝大多数现有任务设定;用专用标识符 Token 承载相机视角与时序信息,用预算感知采样压缩推理开销。

核心 idea:用 Temporal-Viewpoint Indicator (TVI) Token 解耦视角×时序信息,用指数遗忘曲线驱动的历史帧采样(BATS)在固定 token 预算内保留关键历史,从而将多机体多任务导航统一进一个 VLM 框架。

方法详解

整体框架

NavFoM 在标准视频 VLM(Qwen2-7B + DINOv2 + SigLIP)的基础上扩展为双分支架构:导航分支输出轨迹航点,QA 分支自回归生成语言响应。两个分支共享主干,通过 TVI Token 将来自不同时刻、不同视角的视觉 Token 有序组织后送入 LLM,最终由三层 MLP 规划头将 LLM 隐状态解码为 \(M=8\) 个归一化航点 \(\{(x,y,z,\theta)\}\)

flowchart TD
    A["多相机 RGB 视频\nI^{1:N}_{1:T}"] --> B["DINOv2 + SigLIP\n视觉编码器"]
    B --> C["Grid Average Pooling\n粗粒度(4 patch) / 细粒度(64 patch)"]
    C --> D["BATS 历史采样\n指数遗忘曲线"]
    D --> E["TVI Token 组织\n时间 × 视角 标识符"]
    F["语言指令 L"] --> G["LLM Tokenizer"]
    E --> H["Qwen2-7B LLM"]
    G --> H
    H --> I{分支选择}
    I -- 导航 --> J["3-layer MLP\n规划头 → 轨迹 τ"]
    I -- QA --> K["自回归语言响应"]

关键设计

1. Temporal-Viewpoint Indicator (TVI) Token:让 LLM 分清"哪个时刻哪个视角"

视觉 Token 本身不携带时序和视角信息,朴素拼接让 LLM 无法区分"前向摄像头 t=3"与"侧向摄像头 t=7"。TVI Token 引入三类嵌入来弥补这一缺口:

\[ E_{\text{TVI}} = \begin{cases} E_{\text{Base}} + P_{\text{time}}(\text{TimePE}(t)) + P_{\text{angle}}(\text{AnglePE}(\varphi)) & \text{导航} \\ E_{\text{Base}} + P_{\text{time}}(\text{TimePE}(t)) & \text{视频 QA} \\ E_{\text{Base}} & \text{图像 QA} \end{cases} \]

其中 \(\text{AnglePE}(\varphi)\) 将方位角 \(\varphi\) 先分解为 \(\cos\varphi\)\(\sin\varphi\) 再分别过正弦位置编码,确保角度的循环连续性(\(0 \equiv 2\pi\),距离度量满足几何近邻关系);\(\text{TimePE}(t)\) 对时间步做正弦位置编码,对不规则采样间隔鲁棒;\(P_{\text{time}}/P_{\text{angle}}\) 均为两层 MLP。三种任务使用不同的 TVI 组合,使同一套 token 序列既能服务导航又能服务 QA,大幅提升 LLM 对输入语义的理解。消融实验显示,TVI 相比最近邻历史视角位置嵌入(HAMT)在 RxR Val-Unseen SR 上提升约 12%(52.3% → 64.4%)。

2. Budget-Aware Temporal Sampling (BATS):指数遗忘曲线驱动的 token 预算管理

导航过程中累积的视频帧数随任务时长线性增长,直接保留全部历史帧会导致推理时间和显存随任务进行呈线性膨胀。均匀采样(Uniform Sampling)丢失近期关键帧,Token Merging 在训练期引入额外开销且推理速度不一致。BATS 从人类"遗忘曲线"汲取灵感,对历史帧赋予指数增长的采样概率:

\[ P(t) = (1-\epsilon)\,e^{k(t-T)/T} + \epsilon, \quad k > 0 \]

越接近当前时刻 \(T\) 的帧采样概率越高,远距历史以较低概率随机保留。给定 token 预算 \(B_{\text{token}}\),期望采样帧数为:

\[ \mathbb{E}_{\text{frames}} \approx \int_0^T P(t)\,dt = (1-\epsilon)\frac{1-e^{-k}}{k}T + \epsilon T \]

约束 \(\mathbb{E}_{\text{frames}}\) 的 token 消耗不超过 \(B_{\text{token}}\),用 Brent 法离线计算各帧数对应的 \(k\),推理时直接查表无需额外计算。BATS 对多相机天然自适应:视角数 \(N\) 增大时,分子 \((4+1) \times \mathbb{E}_{\text{frames}}\) 被约束不变,自动减少每视角保留帧数。消融显示,在相同预算 \(B=1024\) 下,BATS 比均匀采样在 nDTW 上高 6.2 分(64.1 vs 57.9),预算从 2048 降至 1024 时性能下降仅 1.4%(相比均匀采样的 6.0%)。

3. 多任务协同训练:跨任务数据产生正向迁移

NavFoM 在 1270 万样本上联合训练:800 万导航样本(VLN 3.37M + 目标导航 1.02M + 主动跟踪 897K + 自动驾驶 681K + 网络视频导航)+ 476 万 QA 样本(图像 QA 315M + 视频 QA 161M)。轨迹损失采用 MSE,QA 采用交叉熵,总损失 \(\mathcal{L} = \beta \mathcal{L}_{\text{nav}} + \mathcal{L}_{\text{QA}}\)\(\beta=10\) 用于平衡数值量级)。

消融显示,仅用搜索任务单独训练时 SR 仅 10.3%,加入全部其他导航数据后升至 45.2%(+34.9%);跟踪任务从 12.6% 升至 62.0%(+49.4%)。改善来源于:单任务训练的相机配置和目标类别分布窄,跨任务数据补充了多视角观察和开放词汇的泛化能力,有效抑制了任务特定过拟合。

训练策略

模型基于 Qwen2-7B + DINOv2 + SigLIP 预训练权重初始化,fine-tune 一个 epoch;在 56 块 NVIDIA H100 GPU 上训练约 72 小时(总计 4032 GPU 小时)。轨迹航点在输出前归一化至 \([-1, 1]\),三类场景(室内导航、无人机、汽车)使用不同缩放因子 \(\alpha_{\text{task}}\)。实际部署使用 RTX 4090 单卡,token 预算 1600 时显存 19.1 GB,推理频率 5 Hz(约 218 ms/帧)。

实验关键数据

主实验

数据集 设置 指标 本文 之前 SOTA 提升
VLN-CE RxR Val-Unseen 单视角 SR↑ 57.4% 51.8% (StreamVLN) +5.6%
VLN-CE RxR Val-Unseen 四视角 SR↑ 64.4% 56.3% (HNR, 含深度+里程计) +8.1%
VLN-CE R2R Val-Unseen 四视角 SR↑ 61.7%
HM3D-OVON Val-Unseen 零样本 SR↑ 45.2% 43.6% (MTU3D, 有监督) +1.6%
EVT-Bench 跟踪 单视角 SR↑ 85.0% 85.1% (TrackVLA) 持平
EVT-Bench 跟踪(干扰目标) 单视角 SR↑ 61.4% 57.6% (TrackVLA) +3.8%
NAVSIM 自动驾驶 八视角 PDMS↑ 84.3 84.6 (LAW) 竞争性

消融实验

配置 VLN-CE RxR SR (B=2048) nDTW 说明
均匀采样 (baseline) 62.4% 63.9 Cheng et al. 2025 方式
线性概率采样 63.0% 64.8 手工线性权重
BATS(本文) 64.4% 65.8 指数遗忘曲线
视角-历史位置嵌入 (HAMT) 52.3% 58.7 增加额外分量干扰
独立可学习特殊 Token 59.1% 59.6 无结构先验
手工 Token(无 MLP 投影) 53.6% 58.0 缺乏可学习变换
TVI Token(本文) 64.4% 65.8 时序 × 视角完整表示

关键发现

  • 多视角(四目)相比单目在 RxR-CE 提升 7.0% SR,在 R2R-CE 提升 5.5% SR,说明多视角导航基础模型是有前景的研究方向
  • 跨任务协同训练对数据分布窄的任务(搜索 +34.9%、跟踪 +49.4%)收益远大于 VLN(+2–3%),表明数据多样性对分布外泛化至关重要
  • NavFoM 在零样本设置下 HM3D-OVON 超越有监督微调的 MTU3D(45.2% vs 40.8%),验证基础模型的泛化优势

亮点与洞察

  • TVI Token 的优雅设计:用三套正弦编码(角度分解为 sin/cos 保证循环连续性)+ 可学习 MLP 投影,同时满足视角感知、时间感知、任务可分离三大约束,比专用位置嵌入轻量且效果显著更好——关键在于把信息注入到"前导标识符"而非视觉 Token 本身,LLM 可以用注意力机制灵活地利用这些标识
  • BATS 与遗忘曲线的类比:把人类记忆规律迁移到 token 预算分配,用指数采样概率对齐"近期重要、远期稀疏"的导航直觉,且可离线计算参数表,推理零额外开销,工程友好
  • 800 万规模数据 + QA 协同训练:比前代方法(NaVid 1.2M、Uni-NaVid 5.9M)数据量大一倍,且引入 QA 数据不仅增强语言理解,还通过共享 backbone 为导航提供视觉语义基础

局限与展望

  • 在 NAVSIM 自动驾驶上与专用方法(LAW 84.6 PDMS)尚有微小差距,表明高度感知精度要求的专项任务上通用模型仍不如定制方案
  • BATS 存在理论边界:当帧数极大(如四目 ×1120 步)时下界概率约束 \(\epsilon\) 使期望帧数方程无解,实际场景出现率极低但存在系统性缺口
  • 当前轨迹预测为纯视觉,未引入地图、语义先验或记忆机制,复杂长程任务(多房间、城市尺度)仍具挑战
  • 实验以英语指令为主,多语言导航泛化尚未验证

相关工作与启发

  • vs NaVid / Uni-NaVid:同属视频 VLM 驱动的导航方法,但只支持单一或固定相机配置;NavFoM 引入 TVI Token 打破相机配置约束,数据规模也扩大一倍
  • vs NaVILA / StreamVLN:专注 VLN 单任务优化;NavFoM 无需任务特定微调,在多任务联合评估中仍具竞争力
  • vs NoMaD / ViNT:经典跨机体导航方法,依赖 topological map 或隐式物理先验;NavFoM 以纯 VLM 方式端到端建模,无需任何地图构建
  • vs TrackVLA:专门为主动跟踪设计的方法;NavFoM 在单目跟踪上与其持平,干扰场景下反而更优,体现出多任务训练带来的鲁棒性

评分

  • 新颖性: ⭐⭐⭐⭐ 首个同时实现跨机体 × 跨任务的导航基础模型,TVI Token 设计简洁且具普适性
  • 实验充分度: ⭐⭐⭐⭐⭐ 7 个 benchmark + 多平台真实机器人实验 + 详尽消融,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 架构图清晰,消融与分析逻辑完整,细节充实
  • 价值: ⭐⭐⭐⭐⭐ 为具身导航基础模型建立了有说服力的基线,TVI+BATS 设计可复用于其他具身任务