SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL¶

会议: CVPR 2026
arXiv: 2512.04069
代码: 有（Project Page / Code，论文标注开源 Toolshed）
领域: 多模态VLM / Agent / 空间推理 / 工具增强 / 强化学习
关键词: 工具增强推理、空间推理、双交互式RL、GRPO、具身操作

一句话总结¶

本文提出 DIRL（双交互式强化学习）——先用"单工具专家 IRL 教师 + 前沿模型全工具教师"混合数据做 SFT 打底，再用全工具集做第二轮交互式 RL 精修——把一个 3B 的 Qwen2.5-VL 训练成会自主调度十余种视觉/机器人工具的空间推理智能体 SpaceTools，在 RoboSpatial、BLINK、BOP-ASK 等基准上全面 SOTA，并能把真实 7-DOF 机械臂当作工具完成抓取放置（86% 成功率）。

研究背景与动机¶

领域现状：VLM 在开放式视觉问答上很强，但要支撑机器人等具身应用，需要"度量级精确"的空间推理——判断相对位置、距离、遮挡、朝向、姿态、可抓取性。主流做法是在任务特定数据集上微调（SpatialVLM、RoboRefer 等），每加一种低层感知能力（深度、指向、3D 感知）都要大规模标注 + 改架构。

现有痛点：微调路线靠堆数据和改模型，扩展性差。一个更优雅的替代是让 VLM 调用现成的视觉/机器人工具（深度估计、分割、位姿估计、抓取生成），用工具的精确输出辅助推理。但已有工具增强方法要么靠手工 prompt，要么写死固定工具流水线（SpatialPIN、APC），都是 training-free，限制了模型自己发现最优工具用法的能力。

核心矛盾：RL 本可以让模型自主学会用工具，但 ViGoRL 之类的工作只能在单个轻量工具（如裁剪）上做交互式 RL。一旦把 RL 直接铺到 10+ 个异构工具上，动作空间组合爆炸，朴素探索根本找不到有效策略——这是多工具 RL 的根本障碍。此外还有系统层挑战：训练时如何高吞吐地在线提供 SAM2、Depth Pro 这类重算力工具。

本文目标：(1) 设计一个能在多工具场景下稳定收敛的训练范式；(2) 搭建能在训练循环里实时服务重型视觉工具的基础设施。

切入角度：作者的关键洞察是——用单一指向工具做 RL 是可解的、且能教会 grounding；多工具 RL 能精修多样化推理但需要好的初始化。于是把难题拆成"先教基本工具用法、再放开探索"两个递进且各自可解的阶段。

核心 idea：把交互式 RL 用两次（DIRL）——第一次（藏在教师里）训出单工具专家供蒸馏，第二次直接对全工具集做交互式 RL 精修；中间用 SFT 把两路教师的轨迹灌给基座模型做初始化，从而绕开多工具 RL 的探索坍塌。

方法详解¶

整体框架¶

SpaceTools 把空间推理建模为序列决策：VLM 策略 \(\pi_\theta\) 接收用户查询 \(\mathcal{I}\)（图文对或机器人任务），按 <think>（推理）/ <tool_call>（调工具）/ <answer>（最终答案）的结构化对话格式多轮交互，每轮把工具输出拼回历史 \(h_t\)，直到产出答案或达到最大轮数 \(T_{\max}\)（Algorithm 1）。

训练范式 DIRL 分两阶段串行。教学阶段：构造一个 8k 轨迹的教学数据集，来源是两路互补教师——单工具指向专家（自身由 IRL 训出）贡献 2k 条 grounded 推理示范，前沿模型（Claude Sonnet 4.5）接全工具贡献 6k 条正确轨迹——然后对基座 Qwen2.5-VL-3B 做 SFT，得到带初步工具使用行为的策略。探索阶段：从 SFT 初始化的策略出发，放开全部工具继续做交互式 RL（IRL），用 GRPO + KL 正则在与真实工具的交互反馈中精修工具链调度。整套交互依赖 Toolshed 这套分布式工具服务基础设施：把每个重型工具隔离成按需服务，与 RL/推理主循环解耦异步扩展，保证训练时的高工具吞吐。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["用户查询 I<br/>图文对 / 机器人任务"] --> B["双教师数据构建<br/>IRL指向专家 2k + 前沿模型 6k"]
    B --> C["教学阶段：SFT 打底<br/>模仿工具用法/信息流"]
    C --> D["探索阶段：第二轮交互式RL<br/>全工具集 GRPO 精修"]
    D -->|每轮 think→tool_call→answer| E["Toolshed 工具服务<br/>SAM2/DepthPro/抓取/机械臂"]
    E -->|工具输出拼回历史 + 任务奖励| D
    D --> F["SpaceTools<br/>多工具空间推理 + 具身操作"]

关键设计¶

1. DIRL 两阶段交互式 RL：把多工具探索坍塌拆成两个可解子问题

直接对 10+ 工具做 RL，动作空间组合爆炸、优化信号微弱；而纯 SFT 在工具轨迹上又学不会灵活协调、走不出训练轨迹之外。DIRL 的解法是把"用两次交互式 RL"。第一次 IRL 不直接训目标模型，而是去训一个只用指向工具（RoboRefer）的单工具专家——因为搜索空间受限，IRL 能可靠收敛、产出有竞争力的 grounded 推理行为。把这个专家轨迹和前沿模型的全工具轨迹一起 SFT 给基座，得到一个"已经会基本工具用法"的初始化策略。第二次 IRL（探索阶段）才在这个强初始化上放开全工具集做 RL：好的初始化避免了大动作空间里的探索坍塌，交互反馈则进一步打磨工具链。名字里的"Double"正来自这两轮 IRL——一轮用于教学、一轮用于探索。消融显示去掉第二阶段 IRL 后 mean 从 52.48 掉到 50.99，去掉 IRL 教师则暴跌到 41.68。

2. 双教师互补数据构建：grounding 精度 + 多工具组合，按 1:3 配比

教学数据集的两路来源各补一块短板。IRL 指向专家（2k 条）专攻精细空间 grounding——它用单一指向工具，能把"先指向再查别的工具"这一空间推理常见首步教扎实；消融里去掉它后 RefSpatial、RoboSpatial 这类需要细粒度定位的任务掉得最狠（RefSpatial 53.07→29.60）。通用教师（前沿模型 Claude Sonnet 4.5，6k 条）接 Toolshed 全工具，负责示范"分割+深度+3D bbox"这类多工具组合，只保留导向正确答案的轨迹；去掉它后位姿任务从 34.37 崩到 8.92（因为位姿最依赖多工具组合）。两者按 IRL 教师 1 份、通用教师 3 份混合，既保 grounding 精度又保多工具协同。

3. Toolshed 工具服务基础设施：让重型视觉工具能在 RL 训练循环里实时在线

DIRL 要求训练时能真实、在线、按需地调工具，这正是以往工作的系统瓶颈：要么把工具和训练循环紧耦合（只能用裁剪这种轻工具），要么像搜索那样靠 web API（图像吞吐不够），要么干脆用预计算输出（模型学不到交互式、依赖状态的工具用法）。Toolshed 通过三点解决：(1) 每个工具实例做资源与环境隔离；(2) 工具的扩缩容和执行与策略主推理循环解耦；(3) 每工具配异步并行 worker，让工具资源独立于训练资源扩展。它托管模块化视觉工具（分割 SAM2、指向 Molmo/RoboRefer、单目深度 Depth Pro、长方体拟合、抓取生成 GraspGen、裁剪、数组索引、透视投影）和机器人工具（取图、取深度、抓取、放置）。把真实且随机的工具输出喂进学习循环，迫使模型推理工具可靠性、学会更好的查询方式和失败回退。

4. 任务特定的归一化奖励：把异构空间任务统一成 [0,1] 的可验证信号

RL 覆盖选择题、2D 框、指向、位姿、抓取等异构任务，需要把每类都归一化成可比奖励。选择题用二元奖励 \(R_B\in\{0,1\}\)；2D 框用与最近真值框的平均 IoU \(R_{\text{MIoU}}=\frac{1}{N}\sum_i \max_j \mathrm{IoU}(\hat{B}_i,B_j)\)；指向用"归一化负质心距离" \(R_{\text{NNDC}}=\frac{\exp(-5d)-\exp(-5\sqrt2)}{1-\exp(-5\sqrt2)}\)（\(d\) 为到目标区质心距离），并与二元项取 max 以强调精度；位姿把预测/真值各投影成 8 个 2D 角点、取凸包 IoU（角点数都为 8 才有效，否则 0）；抓取用"归一化负坐标误差" \(R_{\text{NNCE}}=1-\frac{1}{\delta_{\max}}\min(\delta_{\max},\frac{1}{N}\sum_i \frac{\lVert\hat p_i-p_i\rVert_2}{d})\)（\(d\) 为夹爪宽度、\(\delta_{\max}=10\) 截断极端误差）。作者还试过加结构化 format 奖励但无明显增益，最终弃用。

损失函数 / 训练策略¶

基座为 Qwen2.5-VL-3B-Instruct。第一阶段 SFT 用交叉熵 next-token 预测损失，在多轮对话的所有 assistant 轮上模仿两路教师的推理与工具用法（LLaMA-Factory 平台）。第二阶段 IRL 用 GRPO：对每个输入 \(\mathcal{I}\) 异步并发 \(N\) 个 rollout（各按 Algorithm 1 多轮交互），得到奖励 \(r_1,\dots,r_N\) 后用组相对优势优化 \(\mathcal{L}_{\text{GRPO}}\)，并对参考策略 \(\pi_{\text{ref}}\) 做 KL 正则（把 Toolshed 集成进 VERL 框架）。数据来自 RoboSpatial、RefSpatial、BOP-ASK，并用 HOPE 数据集扩展抓取与取放控制任务；两阶段用同一批图文对。

实验关键数据¶

主实验¶

SpaceTools-3B 在多个空间推理基准上全面 SOTA，3B 体量超过一众专有大模型与专用空间 VLM：

模型	RoboSpatial Overall	BLINK Depth	RefSpatial 2D Rel.	CVBench 3D Depth	BOP-ASK Pose	Grasp-SR
Claude Sonnet 4.5	57.43	78.23	07.49	78.50	01.67	48.33
GPT-5	58.39	66.13	23.10	91.33	09.03	41.67
Gemini-ER 1.5	62.50	69.23	41.72	90.50	00.00	23.33
RoboRefer-8B-SFT	59.43	88.71	48.37	96.50	00.00	00.00
Qwen2.5-VL-3B Tool-free SFT	58.00	80.65	20.22	83.33	02.44	35.00
Qwen2.5-VL-3B Tool-free RL	54.00	80.65	23.10	70.83	12.00	36.67
SpaceTools-3B (本文)	70.00	90.32	53.07	96.00	34.37	50.00

比 Gemini-ER 1.5 在 RoboSpatial 上 +7.5%，比 Claude 在位姿上 +24.4%，比 GPT-5 在抓取上 +8.3%。
同一 8k 数据下，工具增强训练全面碾压无工具微调：相对 Tool-free SFT/RL 在 RoboSpatial 上分别 +12%/+16%。

真实机器人操作（把机械臂当作动作工具，闭环感知-动作）：

模型	Pick	Rel. Pick	Pick & Place	TTFM
π0.5 (VLA)	0 (0/7)	0 (0/6)	0 (0/14)	1s
GPT-5 + Toolshed	71 (5/7)	33 (2/6)	65 (9/14)	36s
Claude Sonnet 4.5 + Toolshed	86 (6/7)	50 (3/6)	79 (11/14)	30s
SpaceTools (本文)	86 (6/7)	83 (5/6)	86 (12/14)	10s

SpaceTools 用同样工具就超过装备相同工具的前沿模型，且首次动作耗时（TTFM）仅 10s，远快于 GPT-5(36s)/Claude(30s)——它复用已算好的抓取位姿/相机内参，而 GPT-5 会"凭空发明"这些值导致工具链断裂。

消融实验¶

配置	IRL-T	Univ-T	S2-IRL	RoboSpatial	RefSpatial	Pose	Mean
SpaceTools（完整）	✓	✓	✓	70.00	53.07	34.37	52.48
w/o IRL 教师	✗	✓	✓	61.14	29.60	34.29	41.68
w/o 通用教师	✓	✗	✓	65.14	54.51	8.92	42.86
w/o 第二阶段 IRL	✓	✓	✗	67.71	51.98	33.28	50.99
Tool SFT（非交互）	✗	✓	✗	59.71	24.91	32.94	39.19
Tool NIRL（非交互）	✗	✓	✗	55.14	28.16	30.89	38.06

关键发现¶

IRL 教师对细粒度 grounding 最关键：去掉后 RefSpatial 从 53.07 暴跌到 29.60，RoboSpatial 也明显下滑。
通用教师对多工具组合最关键：去掉后位姿任务（需分割+深度+3D bbox 组合）从 34.37 崩到 8.92。
交互式 RL 是教多工具链的核心：两个非交互基线（Tool SFT / Tool NIRL）分别比 DIRL 低 13.4 / 14.4 mean——说明喂固定/预计算轨迹学不会复杂工具序列。
IRL 带来意外的跨域泛化：只在 RoboSpatial 上训的模型在 RefSpatial 上拿到 34.3%，而其他微调方法在 RefSpatial 上得 0 分。
零样本给前沿模型加 Toolshed 也涨：GPT-5 + Toolshed 在 RefSpatial 23.1→36.1、位姿 9.0→15.0；但 RoboSpatial/BLINK 这类高层任务反而混合涨跌，因为模型会过度调工具、误读工具输出。

亮点与洞察¶

"把交互式 RL 用两次"的拆解很巧：单工具 RL 可解、能教 grounding，多工具 RL 需好初始化——DIRL 正好让第一次 RL 产出的专家给第二次 RL 当初始化，绕开了多工具探索坍塌。这种"用一个可解子问题的产物去初始化一个难子问题"的范式可迁移到任何动作空间爆炸的 agentic RL。
真实+随机的工具输出进训练循环：相比预计算工具输出，让模型在训练时直面工具的真实行为（含失败/噪声），逼出"工具失败时回退自估、切换备用指向工具"这类纠错行为——这是固定流水线方法学不到的。
3B 模型当工具调度器即可超大模型：核心能力不在模型参数量，而在"会不会编排工具"，这把空间推理的瓶颈从"模型容量/数据规模"转移到"工具协调策略"，对小模型具身落地很有启发。
机械臂作为工具纳入同一推理循环：感知工具与动作工具交替调用，语言推理全程主导闭环，而非把机器人动作当作模型外部的独立过程。

局限与展望¶

依赖外部工具质量：整个能力建立在 SAM2/Depth Pro/RoboRefer/GraspGen 等现成工具上，工具本身的误差/适用范围会成为天花板；论文也观察到前沿模型加工具在高层任务上会过度调用、误读输出。
系统复杂度高：Toolshed 这套分布式工具服务 + 两阶段训练 + 双教师数据构建，工程门槛和算力成本都不低，复现需要可观基础设施。
教学阶段依赖前沿闭源模型：6k 轨迹来自 Claude Sonnet 4.5，蒸馏上限受教师能力约束，也带来对闭源 API 的依赖。
真实机器人评测规模偏小：Pick/Rel.Pick/Pick&Place 各只有 7/6/14 个 trial，统计置信度有限，结论需谨慎外推。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "双交互式 RL"把多工具探索坍塌拆解的思路新颖且通用，Toolshed 补齐系统短板。
实验充分度: ⭐⭐⭐⭐⭐ 5 个空间基准 + 真机操作 + 完整训练配方消融 + 给前沿模型加工具的零样本分析，覆盖很全。
写作质量: ⭐⭐⭐⭐ 动机递进清晰、奖励定义到位；个别系统/附录细节（MACE、GRPO 目标）需查附录。
价值: ⭐⭐⭐⭐⭐ 3B 模型靠工具编排超大模型并落到真实机械臂，对具身空间推理的小模型路线很有示范意义。