Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes¶

会议: ICLR2026
arXiv: 2510.19400
代码: 项目页面 (已开源)
领域: 多模态VLM
关键词: multi-view spatial reasoning, benchmark, embodied AI, VLM evaluation, robotic manipulation

一句话总结¶

提出 MV-RoboBench，首个结合多视角空间推理与机器人操作任务的基准，系统评估了 40+ 个 VLM（开源+闭源+推理增强），发现最强模型 GPT-5 仅达 56.4% 准确率，远低于人类的 91.0%，并揭示空间与机器人推理正相关、单视角基准表现无法可靠迁移至多视角场景。

背景与动机¶

VLM 是 Embodied AI 的核心组件，为 VLA（Vision-Language-Action）模型提供感知和推理能力
然而大多数 VLM 评估集中于单视角设置，对多视角信息整合的评估严重不足
多相机配置在机器人平台中已成为标准，可提供互补视角以缓解遮挡和深度模糊
现有空间推理基准（EmbSpatial-Bench、RoboSpatial 等）主要关注单视角，ERQA 和 MMSI-Bench 仅包含部分多视角数据
All-Angles Bench 和 Ego3D-Bench 虽然使用多视角输入，但任务局限于照片对齐或导航感知，缺乏面向操作的具身推理

方法详解¶

整体框架：MV-RoboBench 基准设计¶

基于 AgiWorld 和 BridgeV2 数据集，构建包含 1,708 道人工标注多选题的基准，涵盖空间理解和机器人执行两大类共 8 个子任务：

空间理解（4 个子任务）：
- Cross-View Matching：跨视角目标匹配
- Distance Judgement：物体间相对距离判断
- Viewpoint Identification：视角变换推理
- 3D Spatial Consistency：3D 空间一致性维护
机器人执行（4 个子任务）：
- Action Planning：多步动作序列规划
- Step Execution：单步动作正确性验证
- Trajectory Selection：候选运动路径可行性评估
- Affordance Recognition：物体交互可行性判断

关键设计 1：多阶段人工质控流水线¶

数据收集：规则筛选 + GPT-4.1 辅助过滤 + 人工验证（GPT-4.1 仅用于分诊，不生成 QA 内容）
QA 生成：任务特定模板 + 训练有素的标注员构建五选一 QA，确保干扰项合理但可区分
迭代审核：trained annotators 多轮审核、修订、答案分布平衡，消除偏差

关键设计 2：CoT-inspired 增强探索¶

系统探索三种 CoT 风格的增强方案： 1. 文本 CoT（w text）：GPT-4.1 生成场景描述作为额外文本上下文 2. 视觉 CoT（w vggt）：VGGT 进行新视角合成提供额外视觉证据 3. 结构 CoT（w depth）：MoGe-2 深度估计提供几何约束

关键设计 3：双轴相关性分析¶

内部相关轴：多视角场景中空间推理 vs. 机器人执行的相关性
外部迁移轴：单视角空间基准（OmniSpatial）表现 → 多视角具身推理的迁移性

实验¶

主实验结果¶

模型类型	代表模型	平均准确率
随机猜测	-	19.7%
闭源 VLM	GPT-4.1	30.9%
开源 VLM	Qwen2.5-vl-72B	24.3%
开源 MoE	Llama-4-Maverick	26.1%
推理模型	GPT-5	56.4%
推理模型	Gemini-2.5-pro	49.5%
人类	-	91.0%

CoT 增强消融实验¶

模型	原始	w cot	w text	w vggt	w depth
Qwen2.5-vl-7B	20.84	20.49	20.90	20.02	21.14
Gemma-3-12B	20.49	24.19	18.43	18.31	20.41
GPT-4.1	29.87	29.84	31.66	28.02	33.12

关键发现¶

推理能力是核心差异来源：推理增强模型（GPT-5、o4-mini）大幅领先感知型模型，但仍远低于人类
3D Spatial Consistency 极具挑战：大部分非推理模型在该子任务上接近甚至低于随机水平（19.07%）
CoT 增强效果因模型而异：合成新视角通常有害；深度先验仅在高容量模型上有效；CoT prompting 对中等规模开源模型最有效
空间与机器人推理正相关：但仅在具备足够多视角融合能力的模型上成立
单视角到多视角迁移失败：OmniSpatial 上的强表现不能可靠预测多视角具身推理能力

亮点¶

首个系统性的多视角机器人操作空间推理基准，填补空白
评估覆盖 40+ 个模型（5 大类），实验规模完整
双轴分析揭示了重要的 negative result：单视角能力不可靠迁移
人工标注质量高（1.7K QA 全部人工curated），数据来源涵盖单臂和双臂操作

局限性¶

仅使用 2D 图像作为输入，未探索显式 3D 表示（点云、网格）的效果
多视角相机配置固定（依赖现有数据集的相机布局），未探索不同相机布局的影响
基准以多选题形式评估，未覆盖开放式推理能力
CoT 增强方案较基础，未探索如 active view selection 等更高级策略

评分¶

⭐⭐⭐⭐ (4/5)

扎实的基准工作，评估规模大且系统性强。双轴分析提供了有价值的 insight。但作为 benchmark 论文，方法贡献有限，CoT 增强部分的探索较浅。¶

title: >- [论文解读] Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes description: >- [ICLR2026][多模态][空间推理] 提出 MV-RoboBench，首个面向机器人多视角空间推理能力的 VLM 评测基准，包含 1.7K 人工标注 QA，覆盖空间理解与机器人执行两大类八个子任务。实验发现当前最强 VLM 远低于人类水平，且单视角空间基准上的性能无法可靠迁移到多视角机器人场景。 tags: - ICLR2026 - 多模态 - 空间推理 - benchmark - multi-view - robotic manipulation - VLM evaluation - embodied AI

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes¶

会议: ICLR2026
arXiv: 2510.19400
代码: GitHub (项目页面已发布)
领域: multimodal_vlm
关键词: multi-view spatial reasoning, robotic manipulation, VLM benchmark, embodied AI, MV-RoboBench

一句话总结¶

提出 MV-RoboBench，首个整合多视角空间推理与机器人操作执行评测的 benchmark，包含 1.7K 人工标注 QA，揭示当前最强 VLM（GPT-5 仅 56.4%）与人类（91.0%）之间存在巨大差距。

研究背景与动机¶

视觉语言模型（VLM）是具身 AI 和视觉-语言-动作（VLA）模型的核心基础，在机器人感知、推理和决策中扮演关键角色
大多数 VLM 评测聚焦于单视角设定，但多相机配置在机器人平台上已日益普及，可提供互补视角以缓解遮挡和深度模糊
现有空间推理基准（EmbSpatial-Bench、Visual Spatial、RoboSpatial 等）主要关注单视角关系推理，缺乏多视角+机器人操作的结合
少数多视角基准（All-Angles Bench、Ego3D-Bench）仅关注照片对齐或导航感知，未涉及操作导向的具身推理
核心 gap: 缺少一个系统评测 VLM 在多视角机器人操作场景中空间推理能力的基准

方法详解¶

整体框架：MV-RoboBench¶

基于 AgiWorld 和 BridgeV2 两个真实机器人数据集构建，覆盖单臂和双臂操作场景，共 1,708 道五选一 QA 题，来源于 980 个操作 episode。

关键设计 1：两大类八任务的系统化评测体系¶

空间理解（Spatial Understanding）四个子任务： 1. Cross-View Matching：跨视角识别同一物体 2. Distance Judgement：判断物体间相对距离 3. Viewpoint Identification：推理视角变换关系 4. 3D Spatial Consistency：维护物体在 3D 空间中的一致相对位置

机器人执行（Robotic Execution）四个子任务： 1. Action Planning：选择合适的多步操作序列 2. Step Execution：验证下一步单步动作是否正确 3. Trajectory Selection：评估候选运动路径的可行性 4. Affordance Recognition：评估物体特定交互的可行性

关键设计 2：高质量人工构建流程¶

采用三阶段 pipeline： 1. 数据收集：规则过滤 + GPT-4.1 辅助筛选（仅用于候选分流，不生成 QA）+ 人工验证 2. QA 生成：任务特定模板 + 训练有素的标注员构建五选一 QA 3. Human-in-the-loop 质量审查：迭代审查、修订、答案分布平衡

关键设计 3：CoT 增强探索¶

探索三类 CoT 式增强： - 文本 CoT：GPT-4.1 生成场景描述作为补充文本 - 视觉 CoT：VGGT 进行新视角合成，提供额外视觉证据 - 结构 CoT：MoGe-2 估计深度先验，添加几何约束

实验¶

主实验表：多模型多类别评测¶

模型	平均准确率	空间理解	机器人执行
Random Choice	19.71%	~19%	~20%
GPT-4.1	30.90%	26.8% avg	32.8% avg
GPT-5 (最强)	56.41%	52.7% avg	60.4% avg
Gemini-2.5-pro	49.52%	45.8% avg	53.2% avg
o4-mini	46.47%	40.4% avg	52.5% avg
Qwen2.5-vl-72B (开源最强)	24.29%	21.9% avg	26.7% avg
InternVL3-78B	23.25%	20.9% avg	25.6% avg
人类	91.04%	93.7% avg	88.2% avg

CoT 增强消融¶

增强方式	Qwen2.5-vl-7B	Gemma-3-12B	GPT-4.1
无增强 (baseline)	20.84%	20.49%	29.87%
+ CoT prompting	20.49 (-0.35)	24.19 (+3.70)	29.84 (-0.03)
+ 文本描述	20.90 (+0.06)	18.43 (-2.06)	31.66 (+1.79)
+ 新视角合成	20.02 (-0.82)	18.31 (-2.18)	28.02 (-1.85)
+ 深度先验	21.14 (+0.30)	20.41 (-0.08)	33.12 (+3.25)

关键发现¶

3D 空间一致性最具挑战性：大多数非推理模型在此子任务上接近甚至低于随机（~19%），推理增强模型可提升至 49-82%
空间与机器人推理正相关：但仅在模型具备充足跨视角融合能力时成立
单视角表现不可靠迁移：OmniSpatial 上表现优秀的模型在 MV-RoboBench 上仍可能接近随机
CoT 增强效果混合：合成新视角倾向于降低性能，深度先验仅对高容量模型有效
推理优化架构显著优于感知模型：GPT-5 vs GPT-4.1 提升约 25 个百分点

亮点¶

首个将多视角空间推理与机器人操作执行系统整合的评测基准，填补重要空白
1,708 道人工精标 QA 质量高，覆盖八个子任务维度，评测粒度细
发现了两个重要结论：空间-机器人推理正相关 + 单视角不可靠迁移，对后续研究有指导意义
系统性地探索了 CoT 增强方式在多视角场景中的效果，发现简单堆叠几何线索不够

局限性¶

基准规模相对小（1.7K QA），可能不足以覆盖所有操作场景的多样性
所有任务均为五选一 MCQ 格式，未涉及开放式空间推理
仅使用两个数据源（AgiWorld + BridgeV2），场景多样性有限
CoT 增强探索较初步，未深入结合几何编码器等更深层方法
未包含动态/视频场景的多视角推理

总体评价¶

维度	评分
创新性	⭐⭐⭐⭐
技术深度	⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
影响力	⭐⭐⭐⭐
综合	⭐⭐⭐⭐

评测类工作，核心贡献在于识别了多视角+机器人操作这一关键 gap 并构建了高质量基准。实验覆盖 30+ 个模型非常全面，内外部相关性分析有洞见。但技术方法上偏数据构建，无模型创新。

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes¶

一句话总结¶

背景与动机¶

方法详解¶

整体框架：MV-RoboBench 基准设计¶

关键设计 1：多阶段人工质控流水线¶

关键设计 2：CoT-inspired 增强探索¶

关键设计 3：双轴相关性分析¶

实验¶

主实验结果¶

CoT 增强消融实验¶

关键发现¶

亮点¶

局限性¶

相关工作¶

评分¶

扎实的基准工作，评估规模大且系统性强。双轴分析提供了有价值的 insight。但作为 benchmark 论文，方法贡献有限，CoT 增强部分的探索较浅。¶

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架：MV-RoboBench¶

关键设计 1：两大类八任务的系统化评测体系¶

关键设计 2：高质量人工构建流程¶

关键设计 3：CoT 增强探索¶

相关性分析¶

实验¶

主实验表：多模型多类别评测¶

CoT 增强消融¶

关键发现¶

亮点¶

局限性¶

相关工作¶

总体评价¶

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes¶

一句话总结¶

背景与动机¶

方法详解¶

整体框架：MV-RoboBench 基准设计¶

关键设计 1：多阶段人工质控流水线¶

关键设计 2：CoT-inspired 增强探索¶

关键设计 3：双轴相关性分析¶

实验¶

主实验结果¶

CoT 增强消融实验¶

关键发现¶

亮点¶

局限性¶

相关工作¶

评分¶

扎实的基准工作，评估规模大且系统性强。双轴分析提供了有价值的 insight。但作为 benchmark 论文，方法贡献有限，CoT 增强部分的探索较浅。¶

Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架：MV-RoboBench¶

关键设计 1：两大类八任务的系统化评测体系¶

关键设计 2：高质量人工构建流程¶

关键设计 3：CoT 增强探索¶

相关性分析¶

实验¶

主实验表：多模型多类别评测¶

CoT 增强消融¶

关键发现¶

亮点¶

局限性¶

相关工作¶

总体评价¶

相关论文¶