CVPR2026 语义分割视觉语言定位机器人抓取强化学习微调多粒度标注零样本泛化大规模视觉语言模型

RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation¶

会议: CVPR2026
arXiv: 2603.14880
代码: lif314/RealVLG-R1
领域: 语义分割
关键词: 视觉语言定位, 机器人抓取, 强化学习微调, 多粒度标注, 零样本泛化, 大规模视觉语言模型

一句话总结¶

提出 RealVLG 框架，包含 11B 级真实世界多粒度标注数据集 RealVLG-11B 和基于强化学习微调的统一模型 RealVLG-R1，首次将视觉语言定位（VLG）与机器人抓取统一到同一范式中，实现从自然语言指令到 bounding box、分割掩码、抓取姿态和接触点的端到端预测，并展现出零样本泛化能力。

研究背景与动机¶

VLG 与抓取的脱节：现有视觉语言定位研究聚焦于粗粒度的目标级定位（bounding box / 分割掩码），而传统机器人抓取方法依赖几何线索，缺乏语言语义引导，二者之间存在明显鸿沟。

合成数据质量不足：Grasp-Anything 等数据集使用 diffusion 模型生成低分辨率合成场景，抓取标注由 RAGT-3/3 自动生成质量有限，语言描述仅覆盖场景或物体类别级别。

缺少细粒度语言描述：现有抓取数据集的语言标注粗糙，缺乏对目标物体属性、空间关系的精细描述，无法支持语言驱动的细粒度操作。

SFT 难以处理多解问题：抓取姿态本质上存在多种可行解，但监督微调会强制拟合单一标签，导致"均值化"预测，物理上不可行。

真实世界数据集规模不足：已有真实世界抓取数据集标注不统一，缺乏分割、检测、语言描述等多模态对齐标注。

零样本能力缺失：基于闭合环境训练的抓取方法可扩展性差，无法在未见过的真实场景中直接部署。

方法详解¶

整体框架¶

RealVLG 想把"视觉语言定位（VLG）"和"机器人抓取"这两件一直脱节的事统一进一个模型，让自然语言指令能一路映射到 bbox、分割掩码、抓取姿态和接触点。它由两部分组成：数据集 RealVLG-11B——整合 Cornell、VMRD、OCID-Grasp、GraspNet、GraspClutter6D 等真实抓取数据集，经一条标注流水线统一补齐 bbox、分割掩码、矩形抓取姿态、接触点和自然语言描述，覆盖约 16.5 万张图像、800+ 物体实例、130 万标注、约 110 亿抓取示例；模型 RealVLG-R1——以 Qwen2.5-VL 为骨干，用强化学习微调（RLVR）靠可验证奖励驱动，统一预测上述四类输出。下图把"数据集构建"和"模型训练"两条流水线串起来，分别对应下面的两个关键设计。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["真实抓取数据集汇总<br/>Cornell / VMRD / OCID-Grasp / GraspNet / GraspClutter6D"]
    subgraph DATA["多粒度数据标注流水线"]
        direction TB
        B["语言标注<br/>8 视角渲染 + GPT-4o 生成 Meta Description 与 Language Instruction"]
        C["定位验证<br/>Qwen-VL-Max 出 bbox，SAM2 出分割掩码"]
        D["抓取姿态统一<br/>6-DoF → 矩形抓取姿态 → 计算接触点"]
        E["人工审核<br/>四模态交叉验证，不合格则迭代修正"]
        B --> C --> D --> E
    end
    A --> DATA
    DATA --> F["RealVLG-11B 数据集<br/>bbox / 掩码 / 抓取姿态 / 接触点 / 语言描述"]
    subgraph MODEL["强化学习微调（RLVR）"]
        direction TB
        G["Qwen2.5-VL 骨干<br/>采样 G 组候选输出"]
        H["可验证奖励 R(q,o)<br/>bbox / 分割 / 抓取 / 接触点"]
        I["策略优化：GRPO（token 级）或 GSPO（序列级）<br/>组相对优势更新"]
        G --> H --> I
    end
    F --> MODEL
    MODEL --> J["统一预测<br/>bbox + 分割掩码 + 抓取姿态 + 接触点"]

关键设计¶

1. 多粒度数据标注流水线：用四模态交叉验证产出高质量真实世界标注

现有抓取数据要么是低质量合成（Grasp-Anything 用 diffusion 生成、抓取标注靠 RAGT-3/3 自动生成），要么语言描述只到场景/类别级，撑不起语言驱动的细粒度操作。本文用四步流水线把质量做扎实：(1) 语言标注——从 8 个视角渲染物体 3D 模型，GPT-4o 生成 Meta Description，再结合图像为每个目标生成含类别、颜色、形状、空间关系的 Language Instruction；(2) 定位验证——Qwen-VL-Max 对 image + language 做 grounding 输出 bbox，SAM2 生成分割掩码；(3) 抓取姿态统一——把 6-DoF 抓取姿态转成统一矩形表示，并基于掩码算接触点；(4) 人工审核——交叉验证四模态一致性，不合格则迭代修正。

2. 强化学习微调（RLVR）：用可验证奖励解决抓取的多解问题

抓取姿态本质上有多个可行解，SFT 强行拟合单一标签会"均值化"出物理上不可行的结果。本文改用 RLVR 范式，用可验证奖励函数 \(R(q,o)\) 替代固定标签：先从旧策略采样 \(G\) 组候选输出，按可验证奖励算出组内相对优势 \(\hat{A}_i\)，再据此更新策略。策略优化给出两种可互换的算法——GRPO 做 token 级重要性加权，GSPO 则在序列级引入长度归一化的重要性权重 \(s_i(\theta) = \left(\frac{\pi_\theta(y_i|x)}{\pi_{\theta_{old}}(y_i|x)}\right)^{1/|y_i|}\) 来压低长序列的方差；二者并非串行叠加，而是作为不同配置（实验中 3B 用 GRPO 抓取精度更高、7B 用 GSPO 更稳定）。实验里 RL 微调比 SFT 在抓取上多涨 30%+，正是因为奖励允许"多个解都对"而不逼模型收敛到一个均值。

损失函数 / 训练策略¶

奖励按任务分别设计，统一要求 <think>...</think><answer>...</answer> 格式：

Bbox 奖励：基于 IoU 阈值的二值奖励 \(R_{Bbox} = \mathbf{1}(\text{IoU}(B_p, B_{gt}) \geq \tau)\)
分割奖励：IoU 粗定位 + S-measure 细粒度掩码质量 \(R_{Seg} = \mathbf{1}(\text{IoU}) + S_\alpha(M_p, M_{gt})\)
抓取奖励：对 \((x, y, \cos\theta, \sin\theta, w)\) 五个分量分别算 Huber 损失之和取负
接触点奖励：矩形对齐 IoU 二值奖励 + 两个接触点的 L2 距离惩罚

实验¶

数据质量评估¶

数据集	MTLD ↑	CLIP Score ↑	\(R_s\) ↑	\(R_g\) ↑	\(R_c\) ↑
Grasp-Anything	27.45	0.54	–	0.38	0.69
Grasp-Anything++	15.14	0.52	–	0.31	0.62
RealVLG-11B	36.49	0.65	0.99	0.69	0.87

RealVLG-11B 在语言多样性（MTLD）、视觉-语言对齐（CLIP Score）和空间一致性上全面超越合成数据集。

RealVLG Benchmark 主实验¶

模型	Seen Bbox (gIoU)	Seen Grasp (mIoU/gAcc)	Novel Bbox (gIoU)	Novel Grasp (mIoU/gAcc)
Qwen-VL-Max	92.3	16.0/16.7	88.4	8.1/5.4
Qwen2.5VL-3B + SFT	56.4	3.4/1.7	57.2	4.4/1.5
RealVLG-R1-3B (GRPO)	87.2	34.7/40.3	78.5	16.3/17.1
RealVLG-R1-7B (GSPO)	89.0	33.6/32.8	88.5	16.5/18.3

消融与关键发现¶

SFT vs RL 微调：SFT 相比 base 模型仅提升约 5% gIoU，而 GRPO/GSPO 提升超过 30%，证明强化学习在多解抓取任务上的显著优势。
GRPO vs GSPO：GRPO 在小模型上抓取精度更高（3B: mIoU 34.7 vs 29.2），GSPO 在大模型上稳定性更好且输出 Rv 率达 100%。
零样本泛化：在 Novel（全新物体）场景下，RealVLG-R1-7B (GSPO) 的 Bbox gIoU 仍达 88.5%，抓取 mIoU/gAcc 为 16.5/18.3%，展示出非平凡的泛化能力。
输出有效率：闭源 Qwen-VL-Max 的 Rv 仅 60-70%，而 RealVLG-R1 所有配置均达 96-100%，说明 RL 微调显著提升了结构化输出的一致性。
仅用 10% 训练数据：RealVLG-R1 和 SFT 仅使用训练集 10% 的数据训练 10 个 epoch，说明方法在数据效率上表现优异。

亮点¶

首个统一 VLG + 抓取的框架：将语义定位和物理交互推理统一到同一模型中，是基于 LVLM 的首个端到端机器人感知模型
高质量数据标注流水线：GPT-4o 自动生成 + Qwen-VL-Max 验证 + SAM2 分割 + 人工审核四重保障
110 亿级真实世界抓取数据集：规模最大的同时包含语义和视觉信息的真实世界感知数据集
强化学习解决多解问题：巧妙地用可验证奖励替代固定标签，优雅解决了抓取姿态多可行解的核心难题
零样本部署能力：无需针对新场景微调即可在真实世界未见环境中执行感知和操作

局限性¶

当前仅支持 2D 矩形抓取姿态，未扩展到 3D 空间和 6-DoF 抓取
Novel 场景下抓取精度（mIoU ~16%）仍有较大提升空间，与检测性能差距明显
分割完全依赖 SAM2 作为 frozen 模块，模型自身不直接生成掩码
实验未报告在真实机器人上的闭环操作成功率
数据集主要覆盖桌面场景，对复杂工业和户外环境的泛化性未验证
推理时需采样 G 组响应计算优势估计，推理效率可能受限

评分¶

新颖性: ⭐⭐⭐⭐ — 首次统一 VLG 与抓取，将 RLVR 范式从 NLP 推理迁移到具身感知
实验充分度: ⭐⭐⭐⭐ — 数据质量评估 + Benchmark + 多基线对比完备，但缺少真实机器人闭环实验
写作质量: ⭐⭐⭐⭐ — 论文结构清晰，数据集构建流程详尽，公式推导完整
价值: ⭐⭐⭐⭐ — 数据集和 Benchmark 对社区有长期价值，统一框架思路值得跟进