Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-Language Navigation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GK4rznYwhn
代码: InternNav (InternVLA-N1)
领域: 具身导航 / 视觉语言导航 (VLN) / 双系统 VLA
关键词: Vision-Language Navigation, Dual-System, Diffusion Policy, Pixel Goal, Flow Matching

一句话总结¶

DualVLN（InternVLA-N1）把视觉语言导航拆成「慢系统」7B VLM 做像素目标 grounding + 「快系统」轻量扩散策略生成连续轨迹，两系统异步运行，在 VLN-CE / VLN-PE 上全面刷新 SOTA 并实现真机动态避障。

研究背景与动机¶

领域现状：视觉语言导航（VLN）从早期离散目标规划，演进到连续动作空间（VLN-CE），再到带物理控制器的真实仿真（VLN-PE）。大 VLM 的引入让导航系统获得了对多样指令和环境的强泛化能力，成为当前主流路线。

现有痛点：现有 VLA 导航模型几乎都是「端到端紧耦合」范式——把视觉语言输入直接映射成短时程离散动作（如「前进 0.25 米」）。这带来三个硬伤：(1) 动作破碎不自然，每一步都要调用大 VLM，执行延迟高；(2) 把视觉语言推理、全局规划、局部控制全揉进一条 pipeline，层级间缺乏显式协调；(3) 难以满足敏捷控制和动态障碍物避让等真实部署需求。

核心矛盾：大 VLM 推理强但慢（高延迟、低频），而真实导航需要高频、平滑、能实时反应动态障碍的局部控制——推理能力与控制敏捷性在单一模型里无法兼得。

本文目标：构建首个双系统 VLN 基础模型，把 VLM 的推理强项与实时控制所需的敏捷性显式桥接起来，既保留泛化能力又支持高频动态避障。

核心 idea：「慢思考 + 快执行」解耦——System 2（7B VLM，2 Hz）做慢而稳健的「像素目标 grounding」，System 1（轻量扩散 Transformer，30 Hz）把目标转成连续轨迹快速执行；二者通过显式像素目标 + 隐式 latent 目标双通道连接，并解耦顺序训练以保住 VLM 泛化。

方法详解¶

整体框架¶

DualVLN 由异步运行的两个系统组成。System 2 接收一段第一视角 RGB 序列和语言指令，迭代地决定「调整视角」还是「输出像素目标」，把下一个中期 waypoint 预测为图像上的 2D 像素坐标；同时通过可学习 latent queries 抽取紧凑的隐式目标特征。System 1 是一个多模态条件扩散 Transformer（DiT），同时吃 System 2 的低频 latent 目标和自身的高频 RGB，用 flow matching 生成 32 个稠密轨迹点。慢系统 2 Hz、快系统 30 Hz 异步推理，保证任意时刻都有新轨迹可用，从而平滑连续导航。

flowchart LR
    A[指令 + 历史/当前 RGB] --> B[System 2: QwenVL-2.5 7B<br/>2 Hz 慢思考]
    B --> C[视角调整动作<br/>Turn/Look ±15°]
    B --> D[像素目标 Pixel Goal<br/>2D 坐标]
    B --> E[Latent Queries Z0<br/>隐式目标]
    F[高频 RGB t / t+k] --> G[ViT + 自注意力 + Q-Former<br/>32 tokens]
    D --> H
    E --> H[System 1: DiT 扩散策略<br/>30 Hz 快执行]
    G --> H
    H --> I[32 点连续轨迹 → MPC 跟踪]

关键设计¶

1. 最远像素目标 grounding + 自主视角调整：让 VLM「先看清再指路」。System 2 基于 Qwen-VL-2.5（7B）的空间 grounding 能力，把高层规划重新表述成「最远像素目标 grounding」问题：模型输出图像中下一个最优 waypoint 的 2D 坐标。训练样本由 3D 轨迹投影到 2D 第一视角得到——用深度图加相机-点距离判断可见性，凡是距离超过对应深度值的点判为遮挡丢弃，再据此把 VLN-CE 轨迹切成像素目标样本。但单纯投影会出问题：视角太高时地面点被遮挡、人为抬高又造成深度歧义，朝向不对时下一个 waypoint 干脆落在视野外。借鉴人类导航「先环顾、低头看地面再选路」的行为，System 2 用离散动作（Turn Left/Right 15°、Look Up/Down 15°）自主决定何时扫描环境、调整相机角度，在信息充分的视角下再预测像素目标。

2. 显式像素目标 + 隐式 latent 目标双通道连接。如果只用 2D 像素目标做 System 1 的引导，等于把双系统退化成松散的模块化 pipeline，没有充分利用 VLM 丰富的隐藏特征；而只用 latent 又失去可解释性。本文两者并用：先用像素 grounding 任务训好 System 2 并冻结其权重，再附加一组随机初始化的可学习 latent queries \(Z\)，通过 prompt tuning 优化。把上下文序列 \(X\)（指令、历史/当前图像、视角动作、像素目标）与 \(Z\) 拼成 \([X; Z]\) 过 VLM，让 \(Z\) 注意并抽取 \(X\) 中的任务相关语义，得到中间隐式目标 \(Z_0\)。这样像素目标提供可解释、可泛化的显式锚点，latent 目标在其之上提供更丰富自适应的引导，让 System 1 自动从 VLM 异构隐藏态中挑出对局部规划有用的表征。

3. 多模态条件扩散 Transformer + 异步陈旧目标补偿。System 1 是紧凑 DiT（隐维 384、12 层、6 头），用两路条件生成轨迹：低频 latent 目标 \(Z_0\)（从 3584 线性投影到 768 再与 DiT 交叉注意力）和高频 RGB。难点在于异步推理下 \(t\) 时刻生成的 latent 目标到 \(t+k\) 已过时——System 1 必须据此估计已走过的距离并适应动态变化。做法是同时编码 System 2 在 \(t\) 时刻的末帧 RGB 和当前 \(t+k\) 观测，先用 ViT（DepthAnythingV2-Small）提特征，再用自注意力跨两个时刻融合，最后 Q-Former 压成 32 个 token 作为高频视觉条件。

4. Flow Matching 轨迹生成。给定真值轨迹 \(X_0\) 与两路条件 \((Z_0, F)\)，采样扩散时刻 \(u\sim U(0,1)\) 和噪声 \(\epsilon\sim N(0,I)\)，构造带噪轨迹 \(X_u=\alpha_u X_0+\sigma_u\epsilon\)（\(\alpha_u\) 递减、\(\sigma_u\) 递增）。DiT 预测速度场 \(\hat{\dot{X}}_u=f_\theta(X_u, u, Z_0\oplus F)\)，训练目标为速度的均方误差 \(L_{flow}=\mathbb{E}_{u,X_0,\epsilon}\big[\|\hat{\dot{X}}_u-\dot{X}_u\|_2^2\big]\)。推理时 System 1 用 TensorRT 在 0.03 s 内并行生成 32 条轨迹，配合 System 2 的 KV-cache 复用（轨迹 token 推理 1.1 s→0.7 s）实现近实时。

实验关键数据¶

主实验表格（VLN-CE R2R / RxR Val-Unseen）¶

方法	R2R SR↑	R2R SPL↑	R2R NE↓	RxR SR↑	RxR nDTW↑
NaVid	37.4	35.9	5.47	–	–
NaVILA	54.0	49.0	5.22	49.3	58.8
UniNaVid	47.0	42.7	5.58	48.7	–
StreamVLN	56.9	51.9	4.98	52.9	61.9
DualVLN	64.3	58.5	4.05	61.4	70.0

仅用第一视角 RGB，DualVLN 在 R2R SR 上超过最强基线 StreamVLN +7.4 个点，且全面优于多传感器、VLM-free、Video-LLM 三类基线。

VLN-PE（物理控制器，零样本迁移自 VLN-CE）：DualVLN R2R Val-Unseen SR 51.60、SPL 42.49，而同为零样本的 NaVid 仅 21.58、CMA 16.93——即便没在 VLN-PE 上微调也碾压在 VLN-PE 上训练的基线。

消融实验表格¶

目标表征消融（Figure 7，VLN-CE R2R Val-Unseen）：

变体	SR↑	SPL↑	OS↑	NE↓
DualVLN（完整）	64.3	58.5	70.7	4.05
w/o Sys.2 Train（一阶段联合训练）	55.2	51.5	60.9	4.98
w/o Pixel Goal（去显式像素目标）	62.2	55.8	68.0	4.22
w/o Latent Goal（仅用冻结 VLM 隐藏态）	60.9	55.1	67.7	4.26

局部规划器对比（Table 4，VLN-PE flash controller，R2R Val-Unseen）：

Local Planner	SR↑	SPL↑	NE↓
iPlanner	47.07	41.09	4.91
NavDP	58.72	50.98	4.22
System 1	63.62	—	3.90

关键发现¶

解耦顺序训练最关键：一阶段联合训练（w/o Sys.2 Train）SR 暴跌 9.1 点，扩散策略收敛显著变慢且 VLM 泛化退化——证明中间像素目标对高效学习和保住 VLM 推理力都不可或缺。
显式 + 隐式缺一不可：去掉像素目标降 2.1 点、去掉 latent 目标降 3.4 点，二者互补；latent queries 让 System 1 主动选择该用哪些隐藏态作条件，而非被动消费固定特征。
Social-VLN 新基准：本文基于 R2R-CE + Habitat 3.0 humanoid 构建首个 Social-VLN，引入 Human Collision Rate (HCR)。动态场景下 DualVLN SR 37.2 仍优于 StreamVLN 31.4，但相比静态 VLN 下降约 27%，说明社会感知导航仍有大量改进空间。
真机跨本体：在轮式（Turtlebot4）、四足（Go2）、人形（G1）三平台零样本部署，office/canteen/street/便利店均能选对像素目标、平滑避障、过楼梯避行人。

亮点与洞察¶

首个异步双系统 VLN 基础模型：把「慢思考-快执行」从桌面操作首次扩展到长时程跨楼栋导航，异步推理打破了大 VLM 高延迟的瓶颈。
像素目标 grounding 这个中间表征选得巧：既是 System 2 可解释的输出、又是切分训练数据的天然监督信号、还作为 System 1 的显式锚点，一举三得。
自主视角调整富有「拟人」直觉：让模型像人一样「先低头看地面、环顾再决定方向」，优雅地解决了 3D→2D 投影的遮挡与视野外难题。
工程落地扎实：KV-cache 复用 + TensorRT + MPC 跟踪，给出 2 Hz/30 Hz/200 Hz 的清晰频率分层，配套开源 InternNav / InternVLA-N1 / InternData-N1。

局限与展望¶

Social-VLN 远未解决：动态场景 SR 仅 37.2，HCR 仍高达 35.4，人群密集时避障与任务恢复能力有限。
依赖远程算力：完整模型跑在 RTX 4090 远程服务器（20 GB），机器人需实时回传 RGB-D，对网络与算力有要求，未做端侧轻量化。
像素目标对相机外参敏感：自主视角调整缓解了部分问题，但 grounding 质量仍受相机高度/俯角影响（真机统一下倾 15°）。
System 2 仍是 2 Hz：高层重规划频率受限，极快速动态变化（如突然横穿）下中期目标可能滞后于环境。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个异步双系统 VLN 基础模型，像素目标 grounding + 显隐双目标 + 自主视角调整的组合设计原创性强。
实验充分度: ⭐⭐⭐⭐⭐ VLN-CE/VLN-PE/Social-VLN 三基准 + 三平台真机 + 完整消融与局部规划器对比，覆盖全面。
写作质量: ⭐⭐⭐⭐ 动机清晰、两个「Why」设问点题到位，方法图与频率分层讲解流畅；公式与实现细节交代充分。
价值: ⭐⭐⭐⭐⭐ 全面刷新 SOTA、开源完整栈（模型/数据/代码）、提出 Social-VLN 新基准，对具身导航社区落地价值高。