Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation¶

会议: ICLR 2026
代码: https://github.com/pickxiguapi/Embodied-R1
领域: 机器人操控 / 具身智能
关键词: 具身推理、pointing 表示、强化微调、视觉语言模型、零样本泛化

一句话总结¶

以"pointing"（二维坐标点/轨迹点序列）作为统一的 embodiment-agnostic 中间表示，通过两阶段强化微调（RFT）训练 3B 参数 VLM，在 11 个空间推理基准和 8 个真机任务上达到 SOTA，零样本成功率 87.5%。

研究背景与动机¶

领域现状：Vision-Language-Action（VLA）模型在机器人操控中展现了强大的视觉感知能力，但在新场景下操控性能大幅退化，端到端方法和模块化方法各有局限。

现有痛点：当前方法面临两个核心挑战——(a) 数据稀缺：有限的具身数据难以充分将语言和视觉与物理动作绑定；(b) 机器人异构性：不同机器人形态的差异严重阻碍知识跨平台迁移。即便如 FSD 这样通过 CoT 锚定推理的高级方法，也受限于 SFT 学到的刚性模板，在新任务上泛化能力受限。

核心矛盾：感知端（VLM）理解能力强，行动端却难以可靠落地，形成"seeing-to-doing gap"——视觉理解无法稳定转化为有效机器人动作。

本文目标：设计一种轻量级（3B）、具身感知强、零样本操控成功率高的 VLM，在不做任务专有微调的前提下泛化到真实机器人任务。

切入角度：将"pointing"（图像坐标点或点序列）作为统一的中间表示，既具有语义性，又与具体机器人形态无关，从而同时解决数据稀缺（可利用海量互联网视觉数据）和异构性（跨机器人通用）两大问题。

核心 idea：用强化微调代替 SFT，让模型通过奖励信号学会自由推理产生 pointing 输出，绕过端到端动作学习和多模型级联的缺陷，实现对新场景的强泛化。

方法详解¶

整体框架¶

Embodied-R1 以 Qwen2.5-VL-3B 为基础，定义四种具身 pointing 能力，构造 Embodied-Points-200K 数据集，经两阶段 RFT 训练后输出 <think>...</think><answer><point>[[...]]</point></answer> 格式的结构化推理结果，再交由下游 Action Executor 执行。

flowchart LR
    A[RGB 图像 + 语言指令] --> B[Embodied-R1\nQwen2.5-VL-3B]
    B -->|Stage1: Spatial Reasoning RFT| B
    B -->|Stage2: Pointing RFT| B
    B --> C{四种 Pointing 能力}
    C --> D1[REG: 目标定位点]
    C --> D2[RRG: 空间放置区域点]
    C --> D3[OFG: 功能抓取点]
    C --> D4[VTG: 视觉轨迹点序列]
    D1 & D2 & D3 --> E1[Affordance-P 分支\nCuRobo 运动规划]
    D4 --> E2[Visual-Trace-V 分支\n2D→3D 轨迹插值]
    E1 & E2 --> F[零样本机器人执行]

关键设计¶

1. 四种具身 Pointing 能力：从单点到轨迹的统一表示

传统 VLA 直接预测低级关节角度，导致强烈的 embodiment 依赖；而现有 pointing 方法（affordance point、bounding box 等）各自为政，表达能力有限。Embodied-R1 将 pointing 系统化为四种能力，共享同一坐标空间 \(p = (p, q) \in [0, w] \times [0, h]\)： - REG（Referring Expression Grounding）：根据语言描述定位目标对象，输出一个点（需落入分割掩码 \(M_{gt}\) 内）； - RRG（Region Referring Grounding）：理解空间关系语言（如"黄色杯子和纸箱之间的空区域"），输出放置目标点； - OFG（Object Functional Grounding）：定位对象的功能部件（如刀的刀柄、锅的提手），输出功能抓取点； - VTG（Visual Trace Generation）：输出有序轨迹点序列 \(\tau = \{p_t \mid t=1,...,T\}\)，描述对象的完整操控路径。

这种统一格式使模型只需学习一种输出语言，却能覆盖从"抓哪里"到"怎么走"的全链路操控信息，同时完全无关于机器人的自由度和硬件参数。

2. 两阶段 RFT 课程：从空间感知到精细 pointing

SFT 在 pointing 任务中存在一个根本性困境——"multi-solution dilemma"：例如"在空区域放置物体"这一指令有无数等效合法答案，SFT 倾向于过拟合单个数据点，而 RFT 可以对任意正确答案给予正强化，真正学到任务的空间约束。据此，Embodied-R1 采用两阶段训练：

Stage 1 - 空间推理（Embodied-Spatial-84K + ViRL-18K）：先在多项选择题格式的空间理解数据上用 GRPO 训练，建立稳固的空间感知基础，同时混入通识推理数据防止灾难性遗忘。
Stage 2 - 具身 pointing（Embodied-Points-200K）：在第一阶段基础上继续 RFT，数据以"问题-验证标准"对的形式组织而非"问题-答案"对，让 GRPO 根据奖励函数判定正确性，实现自由推理而非模板记忆。

3. 模块化多任务奖励库：精细化多任务平衡

多任务训练时简单任务容易主导梯度，因此设计了可组合的奖励库 \(\mathcal{F} = \{r_{format}, r_{acc}, r_{mask}, r_{dis}, r_{trace}\}\)：

\(r_{format}\)：二元奖励，检查 <think> 和 <point>[[...]]</point> 标签是否合规；
\(r_{acc}\)：通用 QA 准确率（多选题用）；
\(r_{mask}\)：预测点是否落入分割掩码，\(r_{mask}(p, M_{gt}) = \mathbb{I}(p \in M_{gt})\)；
\(r_{dis}\)：稠密辅助距离奖励，\(r_{dis} = \min(1.0, \max(0.0, 1.0 - \frac{d - D_{min}}{D_{max} - D_{min}}))\)，引导预测点快速向目标区域靠近；
\(r_{trace}\)：轨迹质量奖励，通过 RMSE 评估生成轨迹与 GT 的相似度后归一化。

每个任务的总奖励 \(R = \sum_{r \in \mathcal{F}} w_r \cdot r\)，权重归一化至 \([0,1]\)，确保不同任务梯度尺度一致。例如 RRG 的奖励为 \(R_{RRG} = 0.1 r_{format} + 0.2 r_{dis} + 0.7 r_{mask}\)，强调空间放置精度。

4. 双分支 Action Executor：pointing 到真实执行的解耦架构

Embodied-R1 产出的 pointing 信号通过两条独立分支转化为机器人动作： - Affordance-P 分支：利用 RRG + OFG 预测抓取点和放置点，交由 CuRobo 运动规划器生成无碰撞末端执行器轨迹； - Visual-Trace-V 分支：利用 VTG 生成的 2D 轨迹点，经针孔相机模型 + 初始深度信息映射到 3D 笛卡尔坐标，插值为连续 SE(3) 运动轨迹后由机器人跟随执行。

这种解耦设计使 Embodied-R1 可以按需切换控制策略，甚至与扩散策略等学习型底层控制器集成，保持上层推理的通用性。

训练策略¶

所有 RFT 阶段均使用 GRPO 算法：行为策略在每个输入上采样多个候选响应，在组内归一化奖励计算相对优势，再用 clipped surrogate loss 最大化期望回报，同时维持训练稳定性。基础模型为 Qwen2.5-VL-3B-Instruct。

实验关键数据¶

主实验¶

SIMPLEREnv（WidowX）零样本操控：

方法	类型	成功率(Avg)
OpenVLA	End-to-end VLA	5.2%
π0	End-to-end VLA	27.1%
π0-fast	End-to-end VLA	48.3%
OpenVLA-OFT	End-to-end VLA	41.8%
ThinkAct	End-to-end VLA	43.8%
Sofar	Modular	53.8%
FSD-13B	Affordance	40.6%
Embodied-R1	Pointing+RFT	56.2%

真机 xArm 8 任务零样本成功率：

方法	平均成功率
MOKA	9.2%
RoboPoint	12.5%
FSD	25.0%
Embodied-R1-P（Affordance 分支）	83.3%
Embodied-R1-V（Visual Trace 分支）	87.5%

消融实验¶

SFT vs RL（RRG 基准）：

配置	Where2Place	VABench-P
RL + Think（完整模型）	65.50	65.39
RL - Think	63.00	60.50
SFT + Think	41.25	47.67
SFT - Think	36.85	50.46

视觉干扰鲁棒性（真机任务）：

干扰条件	抓取率	成功率
无干扰	100%	100%
背景变化（BC）	100%	100%
BC + 光线变化	83%	83%
BC + 光线 + 高度变化	83%	83%

关键发现¶

RL 训练相比 SFT 在 OOD 泛化上有决定性优势（Where2Place: 65.5 vs 41.3），显式推理进一步提升约 4-5 个点
通识数据（ViRL-18K）的混合对最终 Rank 有明显贡献（Embodied-R1: 2.1 vs w/o CS: 3.4）
尽管仅在真实数据上训练，VTG 能力零样本泛化到仿真、新型机器人和手绘草图场景

亮点与洞察¶

pointing 作为通用表示的精妙设计：将机器人操控抽象成"在图像上指点"，既可利用海量互联网视觉数据克服数据稀缺，又天然无关于机器人硬件，一举解决两大核心痛点，且推理结果可解释
RFT 对 multi-solution 问题的天然适配：embodied pointing 中合法答案不唯一（空区域放置位置有无数选择），SFT 会过拟合单答案，而 RFT 对任意正确答案均能正强化，这一洞察是方法成立的关键理论依据
3B 小模型超越 13B 大模型：Embodied-R1（3B）在多个基准上超过 FSD-13B、RoboBrain-7B 等，证明正确的训练范式比模型规模更重要

局限与展望¶

当前 pointing → 执行的管线在非抓放类任务（如精细装配、布料操作）上应用受限，VTG 仅追踪目标对象运动，复杂接触力控制需要集成底层学习策略
真机实验仅覆盖 xArm 平台，跨机器人迁移尚未系统验证
长视野任务目前需要外部高级规划器（如 Gemini-2.5-Pro）做任务分解，端到端长链推理能力待提升

评分¶

新颖性: ⭐⭐⭐⭐ 系统化 pointing 四能力 + RFT 在操控域的首次成功应用，idea 清晰有力
实验充分度: ⭐⭐⭐⭐ 11 个基准 + 仿真 + 真机 + 消融 + 鲁棒性测试覆盖全面，真机 87.5% 令人信服
写作质量: ⭐⭐⭐⭐ 框架清晰，问题拆解到位，图表信息密度高
价值: ⭐⭐⭐⭐ 3B 模型零样本 62% 超越强 baseline，pointing 范式有望成为具身 AI 中间层标准抽象