ICLR 2026 机器人视觉语言空间推理 Visual Chain-of-Thought 视觉辅助物零样本操作 Affordance

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=yngvAamNQi
代码: 项目主页（论文提及，待确认仓库）
领域: 机器人操作 / 具身智能 / VLA / 空间推理
关键词: Vision-Language-Action, 空间推理, Visual Chain-of-Thought, 视觉辅助物, 零样本操作, Affordance

一句话总结¶

FSD 把机器人操作里"预测抓取点/轨迹"的活儿改造成一个显式空间推理过程：先用空间关系图做视觉链式思考（SrCoT），再生成与具身无关的中间视觉辅助物（affordance 框/点 + 视觉轨迹），从而在不微调的情况下实现零样本操作，并在 8 个空间推理 benchmark 和真机任务上大幅超越 affordance 基线。

研究背景与动机¶

领域现状：主流做法是把在互联网数据上预训练的 VLM 接上大规模具身数据集，端到端微调成 VLA（OpenVLA、π0、RT 系列），指望 VLM 的泛化能力迁移到机器人控制上。

现有痛点：经验证明这条路在全新任务上的零样本表现很差，根因是具身数据的稀缺性与异构性——机器人数据量远不及语言/视觉数据，无法触发 scaling law；不同本体的动作空间和物理交互差异巨大，直接学"视觉→动作"映射既容易遗忘预训练知识又会任务冲突。社区尝试的几条替代路也各有短板：模块化方法（检测+抓取串联）级联误差大、推理慢、缺乏整体场景理解；affordance 方法（预测抓取点等视觉辅助物）则辅助信息不够全面，而且直接吐原始坐标、没有显式推理过程，难以把指令锚定到正确的语义实体上。

核心矛盾：泛化的关键不只是"能预测视觉辅助物"，而是要先在空间与语义上下文上做显式推理，产出一个有表达力、与具身无关的中间表示。直接把 RGB 图像和坐标点硬对齐容易过拟合，VLM 也很难一步把未来动作映射成图像坐标。

本文目标：让 VLM 通过结构化空间推理来"生成"视觉辅助物，得到一个既紧凑又信息丰富、可直接开环控制或作为分层闭环策略高层规划器的中间表示。

核心 idea：[把视觉辅助物的生成当成推理任务而非预测任务]——模仿人放菜进锅的认知过程（先定位物体、再依据相对位置规划路径、考虑可行性避障），用空间关系图作为推理锚点做多跳分析，把"难以直接映射的动作生成"转化为"基于已知物体关系的可推理问题"。

方法详解¶

整体框架¶

FSD 基于 LLaVA-1.5 式架构（冻结 CLIP-ViT-L 图像编码器 + Vicuna-13B + 可训练线性投影层，由 ASMv2 初始化），核心是把"看到（Seeing）→做到（Doing）"拆成三件套：用 SrCoT 把场景推理成结构化的视觉辅助物，用弱到强分层数据管线喂养这套推理能力，用自一致性机制把坐标空间和图像-文本模态对齐。所有视觉辅助物都定义在归一化图像坐标里（离散成 0–999 的整数文本），最后再经深度反投影/抓取匹配/运动规划落到真机执行。

flowchart LR
    A[图像 + 任务指令] --> B[SrCoT 推理]
    B --> B1[Description: 物体区域描述<br/>构建空间关系图]
    B --> B2[Reasoning: 以图为锚<br/>多跳推导起点/终点/中间点]
    B2 --> C[视觉辅助物<br/>affordance框/点 + 视觉轨迹]
    C --> D{执行}
    D -->|框/点| E[CuRobo 运动规划]
    D -->|轨迹| F[深度反投影→GraspNet抓取→SE3插值]
    E --> G[机械臂执行]
    F --> G
    H[弱到强5级数据管线] -.训练.-> B
    I[自一致性对齐<br/>正向生成↔反向理解] -.训练.-> C

关键设计¶

1. 空间关系图锚定的视觉链式思考（SrCoT）：把生成拆成"先描述、再推理"两阶段。 直接 SFT 让模型把图像对齐到坐标点容易过拟合，SrCoT 反其道而行——Description 阶段先生成以物体为中心的区域描述，建一张空间关系图：节点是带坐标的物体，边是相对关系（上/下/左/右/后等）；Reasoning 阶段则以这张图为锚点，先通过物体引用和自由空间推理确定起点/终点坐标，再带着显式逻辑（"先抬高避障，再移到锅上方，最后下放")逐点推导中间点。这样就给 VLM 规定了一条模板化推理路径，把"直接把未来动作映射到图像坐标"这个难题，转化为"基于已知物体关系做多跳类比推理"的简单问题。为了稳住推理路径、降幻觉，SrCoT 强制模型用 <ref> 标物体、<point>/<box> 标坐标，把每个物体严格绑定到其坐标，做物体中心推理。

2. 弱到强的五级能力数据管线：逐层把推理拆解的能力一级级喂出来。 SrCoT 对 VLM 要求很高（精确 grounding、空间理解、复杂指令跟随），而主流模型在这些上都有短板，于是作者构建了 300K SFT 数据、覆盖 10+ 本体、按五级能力递进：① 区域 grounding（VLM 提名物体 + 视觉模型抠框）→ ② 空间关系理解（用 Metric3Dv2 + WildCamera 重建 3D 场景图推相对位置，只保留相对深度差 ≥20% 的物体对以保证质量）→ ③ 空间推理（基于 3D 场景图自动生成 Q&A）→ ④ 空间 affordance 生成（从终止帧抽操作物最终位置，结合参考物算出 affordance 区域再重渲染到首帧）→ ⑤ 视觉轨迹生成（自监督关键点抽取找抓取点 + Cotracker 抓时序动态，投影回首帧）。整条管线配严格规则过滤并对照人工标注集迭代调参。值得注意的是 SrCoT 作为通用视觉-空间推理机制，不止能服务视觉轨迹，还能泛化到一般空间推理任务。

3. 自一致性对齐：用"反向理解"逼模型搞懂坐标的物理含义。 高质量 SFT 数据能让模型"生成"视觉辅助物，但坐标空间从没出现在预训练里，模型其实不理解这些标注的物理意义。FSD 把生成任务反过来当成理解任务：正向是 \((X_v, X_q) \rightarrow \tau\)（从图像和指令推视觉轨迹 \(\tau\)），就构造逆向 \((X_v, \tau) \rightarrow X_q\)（给图像和轨迹反推可能的指令）。这种双向训练把坐标空间和图文模态对齐，让视觉辅助物同时作为理解信号和生成信号，进一步强化空间推理。训练分两阶段：先用 Level 1–3 数据 + 1.4M 通用 VQA/互联网数据混训防遗忘，培养核心空间推理；再用 Level 4–5 数据加自一致性专门训练视觉辅助物的生成与理解（生成视觉轨迹时固定预测 8 个点做简化）。

4. 推理→决策的执行链路：把 2D 视觉辅助物落成真机 3D 动作。 FSD 可从初始或中间步推理，自由选用所需视觉辅助物：用框时采样中心作目标点，用点时直接采样；用视觉轨迹时先生成 2D 轨迹 \(\tau\)，结合深度相机按针孔相机模型做深度反投影得到 \(\tau^{3d}=\{x^{3d}_t\}\)，再依据首点 \(x_1\) 查 GraspNet 候选抓取匹配最近抓取位姿 \(G^*\)，用基于梯度下降的插值优化路径生成 SE(3) 空间完整运动轨迹；只用 affordance 时则交给 CuRobo 做运动规划。与同样用视觉辅助物的 LLARVA、EmbodiedCoT 不同，FSD 把预测任务转成推理任务，更好地利用视觉-空间常识，无需场景特定微调。

实验关键数据¶

主实验¶

通用空间推理（5 个 benchmark，15 个子任务，13B 开源模型对比）：

模型	平均 Rank ↓	3D 深度	距离估计	空间关系
GPT-4o（闭源参考）	—	87.8	78.2	69.2
RoboPoint-13B	2.8	81.5	57.7	65.7
ASMv2-13B	3.1	68.9	68.9	65.0
FSD-13B	1.3	88.0	86.7	78.3

FSD 平均排名 1.3，大幅领先其他 13B 开源模型，可与闭源 GPT-4o 掰手腕。

物体/自由空间引用：FSD 在 RoboRefIt 上 56.7%（GPT-4o 仅 15.3%、RoboPoint 49.8%），Where2Place 上 45.8% 与 RoboPoint(46.0) 持平且远超其他模型。

视觉辅助物生成（VABench，作者自建 300 题）：

任务	指标	GPT-4o	RoboPoint	RoboBrain	FSD
VABench-P	Acc↑	9.30	19.09	7.00	61.82
VABench-V	RMSE↓	136.13	—	121.6	78.26
VABench-V	LLM Score↑	4.37	—	4.5	6.21

affordance 点精度比 RoboPoint 高 3 倍多。

零样本操作（SimplerEnv，WidowX，每任务 24 episode）：

类型	模型	Avg
端到端 VLA	π0-fast	48.3
端到端 VLA	OpenVLA-OFT	41.8
端到端 VLA	OpenVLA	5.2
模块化	MOKA	33.3
Affordance	RoboPoint	17.7
Affordance	FSD	40.6

FSD 零样本 40.6%，远超同为零样本基线的 RoboPoint(17.7%)；端到端 VLA 不微调时遇到背景/指令大变化会崩到接近 0。

真机（xArm 6，8 个桌面任务）：FSD 零样本 72% 成功率，比最强基线高 30%+，且能完成叠毛巾等需视觉轨迹生成的复杂任务（基线做不到）。

消融实验¶

模型	VABench-P Acc↑	VABench-V RMSE↓	LLM Score↑
FSD（完整）	61.82	78.26	6.21
w/o SrCoT	26.21	99.53	5.07
w/o Alignment	55.92	80.48	5.92

关键发现¶

SrCoT 是核心：去掉后 affordance 精度从 61.82 暴跌到 26.21，证明"先推理再生成"远胜纯数据驱动的直接预测。
自一致性对齐有效但增益较小：去掉后各指标小幅下降，说明对齐主要起锦上添花、稳定坐标语义的作用。
推理型 affordance 路线在零样本上碾压端到端 VLA：端到端 VLA 必须微调才能用，FSD 凭借具身无关的中间表示天然适配新场景。

亮点与洞察¶

把"动作生成"问题降维成"空间关系推理"问题，是这篇最聪明的一招——绕开了具身数据稀缺/异构的死结，用通用视觉数据就能训出泛化能力。
物体中心而非智能体中心的视觉轨迹定义，让中间表示与具体本体解耦，是跨本体迁移的关键。
生成↔理解双向自一致这个思路很优雅：用反向任务逼模型真正"看懂"坐标，而不是死记硬背坐标-图像映射。
VABench 填补了视觉轨迹预测无标准 benchmark 的空白，对后续工作有基础设施价值。

局限与展望¶

当前主要是开环控制，作者自己也指出未来应探索由视觉轨迹显式引导的闭环策略 VLA，把鲁棒规划和精确执行结合。
视觉轨迹生成固定预测 8 个点是简化处理，复杂长程任务可能不够精细。
执行链路依赖深度相机、GraspNet、CuRobo 等外部模块，整体系统较重，且 affordance/轨迹的物理可行性仍受这些下游模块精度制约。
自一致性对齐增益有限，说明坐标语义的真正对齐可能还需要更强的监督信号或预训练改造。

评分¶

新颖性: ⭐⭐⭐⭐ — "把视觉辅助物生成当推理任务"+空间关系图锚定 CoT+生成/理解自一致，组合很新颖，切中 VLA 泛化痛点。
实验充分度: ⭐⭐⭐⭐ — 覆盖 8 个 benchmark + 自建 VABench + SimplerEnv + 真机，消融到位；但闭环策略、长程任务、不同 LLM backbone 的探索留白。
写作质量: ⭐⭐⭐⭐ — 动机—方法—执行链路叙述清晰，图示（关系图/推理过程）直观，五级数据管线讲得明白。
价值: ⭐⭐⭐⭐ — 给数据稀缺下的机器人泛化提供了一条可落地的"推理桥接"路线，VABench 也有基础设施价值。