CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://makeabilitylab.github.io/CapNav/ （数据集 + 标注工具）
领域: 多模态VLM / 视觉语言导航 / Benchmark
关键词: 能力条件导航, VLM评测, 室内导航, 可通行性, 具身空间推理

一句话总结¶

CapNav 提出一个"能力条件导航"评测基准：给 VLM 一段室内巡游视频、一张导航图、一个带物理/操作能力的智能体画像和一个"从 A 到 B"的任务，看它能否判断该智能体在这个空间里到底能不能走通、走哪条路；在 13 个主流 VLM 上的实验显示，一旦给智能体加上移动约束（不能上楼梯、过道太窄），导航性能就断崖式下跌。

研究背景与动机¶

领域现状：VLM 在视觉语言导航（VLN）里被越来越多地当作"导航助手"或机器人的规划模块，给人指路、帮机器人做移动决策。已有 VLN benchmark（R2R、RxR、REVERIE 等）大多在模拟器或图结构环境里评测"与具身无关的到达目标"能力，或把导航简化成 VQA 式的空间推理。

现有痛点：真实导航本质上是被智能体的移动能力约束的——扫地机器人过不了楼梯，四足机器人能上楼梯但不会操作电梯，轮椅用户需要足够的转弯/通过净空。但现有 benchmark 普遍忽略这一点：要么是"具身无关"的到达评测，要么用单一标注真值路径来衡量轨迹保真度（如 SPL），完全没考虑同一任务对不同智能体有不同可行性、且常存在多条可行路径。

核心矛盾：现实导航的"能力条件有效性"和"解的多样性"，与现有评测范式假设的"单一具身 + 单一真值路径"之间存在根本错配。当 VLM 真被部署到具身控制或辅助场景时，一个无视能力的路线建议可能是不可行甚至危险的。

本文目标：构造一个能显式刻画移动约束、允许多条可行解、并能在边级别细粒度评判可通行性的导航评测基准，回答"VLM 给出的导航方案在特定能力约束下到底有没有效"。

切入角度：作者采用被动式（passive）全局观测设定——把整个场景以巡游视频 + 导航图的形式一次性给模型，而不是让它交互式逐步探索。这样能把"具身约束推理"从"探索噪声/底层控制"中剥离出来，纯粹考察高层的路线规划与可行性判断。

核心 idea：用 ⟨空间, 任务, 能力⟩三元组定义导航 query，给 5 类代表性智能体标注逐边可通行性真值，让 VLM 在"能不能走通 / 走哪条路 / 路上每条边是否真的可过 / 为什么不可行"四个维度上接受检验。

方法详解¶

CapNav 是一个 benchmark 论文，核心不是模型而是任务定义 + 真值标注 + 数据构建 + 评测协议。整体上：每个 query 是一个 ⟨S, τ, a⟩三元组，VLM 输出 \((\hat{y}, \hat{P}, \hat{\rho})\)——可行性、路径、理由；CapNav 用四个互补指标把输出和逐边真值对齐打分。

整体框架¶

输入端，空间 \(S\) 用一段巡游视频 + 一张人工标注的连通图 \(G=(V,E)\) 表示；任务 \(\tau\) 是"从源节点到目标节点"的自然语言指令；能力 \(a=(\phi,\kappa,\mu)\) 编码智能体的物理尺寸 \(\phi\)、垂直跨越能力 \(\kappa\)（单台阶高度、能否连续上下楼梯）和操作能力 \(\mu\)（能否开门/操作电梯）。VLM 接收三元组后产出 \((\hat{y},\hat{P},\hat{\rho})=f_\theta(S,\tau,a)\)，其中 \(\hat{y}\in\{0,1\}\) 是任务可行性，\(\hat{P}=[v_0,\dots,v_m]\) 是节点序列路径，\(\hat{\rho}\) 是不可行时的简短理由。

数据这一侧是一条人工 + Gemini 混合的标注流水线（下图）：从真实 3D 扫描出发，人工录视频、标导航图，用 Gemini 生成任务，再人工在标注界面里逐任务逐智能体标可通行性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实 3D 室内扫描<br/>HM3D / Matterport3D"] --> B["巡游视频录制<br/>Habitat 2FPS·1.5m 视高"]
    B --> C["能力条件任务三元组<br/>⟨空间, 任务, 能力⟩"]
    A --> D["导航图标注<br/>节点+可走边 G=(V,E)"]
    D --> C
    C --> E["Gemini 生成导航任务<br/>从 A 到 B + 人工校验"]
    E --> F["逐边可通行性真值<br/>5 类智能体·碰撞体验证"]
    F --> G["四指标评测协议<br/>Feas-F1/PV/RTA/RV → CapNav"]

关键设计¶

1. 能力条件三元组与 5 类代表性智能体：把"谁在走"显式注入导航任务

针对"现有 benchmark 具身无关"这个痛点，CapNav 把智能体能力做成 query 的一等公民。每个 query 是 ⟨空间, 任务, 能力⟩三元组，能力用一份 capability JSON \(a=(\phi,\kappa,\mu)\) 描述：\(\phi\) 是物理占地尺寸（高/宽/深），\(\kappa\) 是垂直跨越限制（单个障碍的最大可跨高度、能否连续上下楼梯），\(\mu\) 是操作/操纵能力（能否开门、操作电梯）。作者定义 5 类覆盖人类与常见机器人的画像：无运动障碍成人（默认可走所有路线）、轮椅用户（不能上楼梯、需通过/转弯净空）、人形机器人（不能上下楼梯、需通过净空 0.9m）、扫地机器人（需平整地面）、四足机器人（能走大多数空间但不会开门/操作电梯）。这些属性直接决定每条边 \(E\) 和整体任务 \(\tau\) 的可通行性——同一个"从地下室到顶楼"的任务，轮椅用户该坐电梯，四足只能走楼梯，于是可行性和路径都不同。这正是基准要逼出来的差异。

2. 逐边可通行性真值与可行性定义：支持多解、可解释的细粒度标注

针对"单一真值路径无法刻画解的多样性"这个痛点，CapNav 不标注唯一正确路径，而是在边级别打二值标签。对每个任务 \(\tau\) 和具身 \(a\)，标注者遍历连接 \(v_{\mathrm{src}}\) 和 \(v_{\mathrm{tgt}}\) 的每条简单路径，给路径上每条边 \(e\) 赋 \(g_e^{(a)}\in\{0,1\}\)，表示在该局部几何 + 移动能力下这条边能否过；不可通行的边还附一段文字原因（如"无法上下楼梯"）。标注 UI 会把匹配 \(\phi\) 的 3D 碰撞体可视化、支持手动移动/转身来验证净空和转弯空间。任务级可行性真值则定义为"是否存在至少一条全边可过的简单路径"：

\[\hat{y}^\star = \mathbb{I}\big[\exists\, P(v_{\mathrm{src}}, v_{\mathrm{tgt}}):\ \forall (u,v)\in P,\ g^{(a)}_{(u,v)}=1\big]\]

这样既允许多条等价可行路径，又能在某条边过不去时给出精确的"卡在哪、为什么卡"，比"和唯一真值路径比对"信息量大得多。

3. 人工 + Gemini 混合数据构建流水线：从 3D 扫描到 5k+ 可通行标注

针对"真实、可控、可扩展"三方面需求，作者设计了上图的混合流水线。3D 场景取自 HM3D 和 Matterport3D，在 Habitat 模拟器里以人眼高度（1.5m）、75° 视场、2FPS 手动巡游录制视频，模拟随手拍的走查。每个场景人工标注导航图：节点带语义标签 \(c(v)\) 和近似 3D 位置，边表示双向、可直接步行的相邻关系。任务生成交给 Gemini 2.5 Pro（输入视频 + 节点列表），再人工校验任务有效性，最后人工逐智能体标边级可通行性。过滤掉不完整、断连、语义重复或布局过于平凡的场景后，保留 45 个室内场景（平均视频 160.38s、13.8 个节点、14.5 条边），产出 2,365 个导航任务和 5,075 条可通行标注（3,945 正 / 1,130 负）。⚠️ 摘要里写的是"473 navigation tasks, 2365 QA pairs"，与正文/数据集节的"2365 navigation tasks, 5075 traversability annotations"口径不一致，以数据集节为准。

4. 四指标评测协议与 CapNav 复合分：分维度量化"能力感知导航"

针对"导航质量是多面的、单一指标会糊掉"这个问题，CapNav 用四个互补指标，整体与逐具身分别报告：

可行性分类（Feas-F1）：二值可行性预测的 F1。
路径有效性（PV）：路径 \(\hat{P}\) 在节点合法、相邻边存在、起止正确、无重复节点时才算有效，\(\mathrm{PV}=\mathbb{E}[\mathbb{I}(\hat{P}\in\mathcal{P}_{\text{simple}})]\)。
路线可通行性准确率（RTA）：在 \(\hat{y}=1\) 且路径有效时，衡量预测路径里真正可过的边占比 \(\mathrm{RTA}(\hat{P},a)=\frac{\sum_{e\in E(\hat{P})}g_e^{(a)}}{|E(\hat{P})|}\)，角色类似 SPL 但以具身可通行性为条件。
推理有效性（RV）：对不可行预测（\(\hat{y}=0\)），要求模型给出路径 \(\hat{P}\) 和失败理由 \(\hat{\rho}\)，用 LLM-as-judge \(J_{\text{LLM}}\) 判断理由是否语义匹配标注原因（人工抽检 300 条，人机一致率 89%）。

复合分 \(\mathrm{CapNav}=\lambda_c F_1+\lambda_p \mathrm{PV}+\lambda_t \overline{\mathrm{RTA}}+\lambda_r \overline{\mathrm{RV}}\)，\(\sum\lambda=1\)，默认四项各 0.25。作者还测了权重敏感性：把 0.5 分给某一项、其余各 1/6，四种方案间排名的 Kendall's τ 平均 0.909，说明结论对权重扰动稳健。参考界：随机游走策略给出下界 29.35，4 名人类各做 20 题给出上界（AVG=60.59，最高 74.77）。

实验关键数据¶

主实验¶

在 13 个 VLM（2025 年 11 月评测，含 Gemini 2.5、GPT-4.1/5-Pro、Doubao-Seed、Qwen3-VL，以及专攻空间推理的 Spatial-MLLM、Video-R1）上跑，每模型测 16/32/64 帧及 1FPS 四种输入设定，取最优。下表节选（CapNav 为复合分，单位 %）：

模型	模式	Feas-F1	PV	RTA	RV	CapNav
Gemini-2.5-pro	thinking	84.30	73.00	79.15	32.29	67.18
GPT-5-pro	thinking	86.87	67.90	75.89	34.81	66.37
Gemini-2.5-flash	thinking	84.16	65.12	68.96	38.04	64.07
Doubao-Seed-1.6	thinking	76.16	61.94	71.93	38.44	62.12
人类平均	—	—	—	—	—	60.59
Doubao-Seed-1.6	non-think	80.26	60.00	71.92	35.47	61.91
GPT-4.1	non-think	75.90	49.00	65.51	32.86	55.82
Spatial-MLLM-4B	thinking	75.27	5.04	10.16	-	30.15
Video-R1-7B	thinking	74.57	25.50	44.66	4.82	37.39
随机游走（下界）	—	—	—	—	—	29.35

关键观察：所有模型都超过随机游走下界；最强的 Gemini-2.5-pro / GPT-5-pro 超过人类平均（60.59），但仍低于人类最佳（74.77）。专门为空间推理设计的 Spatial-MLLM、Video-R1 反而显著垫底——PV/RTA 极低，说明它们的空间推理训练方案不足以应对 CapNav。

逐具身 / 障碍分析（基准的核心发现）¶

逐智能体可行任务比例本身就极不均衡（见下表），这是性能随约束收紧而下跌的根源：

智能体	可行任务比例	边可通行比例	平均 CapNav 分
Human（无障碍成人）	1.00	1.00	57.83
Quadrupedal（四足）	0.97	0.96	较高
Sweeper（扫地机）	0.57	0.79	中
Wheelchair（轮椅）	0.48	0.71	中
Humanoid（人形）	0.22	0.43	39.12（最低）

人形机器人因"不能上楼梯 + 需 0.9m 通过净空"成为最难具身，所有模型在它上面平均分最低。失败模式经 Gemini-3 挖掘 + 人工提炼为四类：路径幻觉（N=659/1500，把不相邻节点连起来或违反起止）、障碍幻觉（N=418，报告不存在的阻挡如关着的门）、尺寸忽视（N=191，忽略窄门/狭窄净空等几何约束）、能力幻觉（N=10，理由与给定能力画像矛盾，多见于 MiMo-VL 7B 等小模型）。

关键发现¶

能力约束导致系统性退化：基线具身（无障碍成人）平均 57.83%，约束收紧后下跌，人形仅 39.12%。在无约束设定下表现好不代表能迁移到受约束场景，部署前必须做针对性评测。
视觉瓶颈：开启 thinking 平均涨 ΔCapNav=6.87%，但推理时间约 8×（14.94s→123.94s）；增帧的收益不均衡——强模型（Gemini）受益、弱模型几乎无感，因为"多给证据只有能可靠整合时才有用"，更多视角反而会增加障碍幻觉。
尺寸忽视：所有模型在有显著视觉特征的障碍（楼梯、门槛）上明显好于需隐式度量估计的约束（窄净空、转弯半径）。一个把 2K 任务扩到 13K 并 LoRA 微调 Qwen3-VL-8B 的试点把测试分从 45.26% 提到 55.18%，但推理有效性反降（0.30→0.25），并频繁把可行窄道误判为堵塞——微调能缓解尺寸忽视却带来过激障碍判断。

亮点与洞察¶

把"具身能力"做成 query 一等公民：同一任务对 5 类智能体有不同可行性和路径，这个设定一下子把"具身无关导航 benchmark"的盲区暴露出来，且贴近辅助/机器人部署的真实需求。
逐边二值真值 + 可行性存在性定义：用"是否存在全边可过的简单路径"定义可行性，天然支持多解、又能精确定位"卡在哪条边"，比单一真值路径信息量大得多，RTA 指标也因此能做到边级细粒度。
"空间推理专用模型反而垫底"的反直觉结论：Spatial-MLLM/Video-R1 大幅落后通用强模型，提示当前空间推理训练方案与真实多帧几何推理之间仍有鸿沟，这个 negative result 对后续具身 VLM 训练很有指导意义。
可迁移：用碰撞体可视化 + 手动移动验证净空的标注 UI，以及"人工录视频/标图 + LLM 生成任务 + 人工标真值"的混合流水线，可直接套用到其他需要细粒度几何真值的具身评测上，并支持自定义新智能体画像。

局限与展望¶

被动全局观测而非交互式探索：CapNav 把整个场景一次性给模型，剥离了探索/底层控制噪声，但也意味着评测的是"高层路线规划与可行性判断"，不能直接等同于真实交互式导航能力。
依赖模拟器渲染视频 + LLM 生成任务：视频来自 Habitat 渲染、任务由 Gemini 生成（虽人工校验），与真实手持拍摄/真人指令仍有 domain gap；RV 用 LLM-as-judge（89% 一致）也引入一定噪声。
数据口径不一致⚠️：摘要与正文对任务数/标注数的描述（473 vs 2365 tasks）存在矛盾，读者引用时需以数据集节为准。
改进方向：作者计划用 embodiment 约束下的 task-level reward 做 RL 微调，并注入空间信息（深度估计、拓扑先验、类地图中间表示）来缓解尺寸忽视；联合优化"障碍感知"和"尺寸推理"以免微调引入过激误判。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把"具身移动能力"做成 query 一等公民、用逐边真值支持多解的能力条件导航基准。
实验充分度: ⭐⭐⭐⭐ 13 个 VLM、四指标、逐具身/逐障碍/帧预算/失败模式全面剖析，还有微调试点；但口径不一致和 LLM 生成任务略减分。
写作质量: ⭐⭐⭐⭐ 问题动机和指标定义讲得清楚，图表丰富；摘要与正文数据口径矛盾是瑕疵。
价值: ⭐⭐⭐⭐⭐ 对具身/辅助导航的安全部署有直接评测价值，并开源数据 + 标注工具支持扩展。