RobotArena ∞: Scalable Robot Benchmarking via Real-to-Sim Translation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=OutljIofvS
代码: https://robotarenainf.github.io (项目页，环境与评测代码将开源)
领域: 机器人 / 具身智能
关键词: 机器人评测, real-to-sim, VLA 策略, 人类偏好排名, 可微渲染

一句话总结¶

本文提出 RobotArena ∞，一个把真实机器人演示视频自动翻译成仿真数字孪生、再在其中部署 VLA 策略并用「VLM 进度分 + 众包人类成对偏好」双轨打分的可扩展评测框架，用 8500+ 对偏好比较了来自全球实验室的 6 个 VLA，揭示了当前策略跨数据集泛化弱、对扰动敏感的现实。

研究背景与动机¶

领域现状：随着机器人通用策略（generalist policy，尤其是 VLA 视觉-语言-动作模型）能力快速增长，如何公平、可复现、可扩展地评测它们成了卡脖子的问题。NLP/CV 靠 ImageNet、LMArena 这类标准 benchmark 高速迭代，而机器人领域至今没有对应物。

现有痛点：真实世界评测本质上不可扩展——需要人工搭场景、复位物体、监督安全、人工判定成功，慢、贵、不安全、难复现。论文举例：有工作为评一个策略要把 T 形物体手动摆回 20 个预设初始位姿，每个 baseline 都重复一遍，这个复位步骤无法并行，是巨大瓶颈。集中式物理评测（如 Amazon Picking Challenge）虽是金标准，但成本高到一年最多办一次。

核心矛盾：机器人「成功」的定义往往依赖对执行质量的细腻人类判断，无法像分类任务那样用一个标量 metric 自动算出；但人类深度介入又恰恰是不可扩展的根源。评测既需要人类判断，又被人类介入拖累——这是根本张力。

本文目标：把人类的角色从「繁琐的搭场景、复位、安全监督」转变为「轻量的偏好比较」，并把评测整体搬进可大规模并行的仿真里。具体拆为两个子问题：(1) 如何自动从单视角真实视频造出物理一致的仿真孪生；(2) 如何在仿真里可扩展地给执行轨迹打分。

切入角度：作者受 LMArena 启发——LMArena 靠众包人类对同一 prompt 下两个模型回复的成对比较，聚合出 Elo 排名。作者问：机器人版的 LMArena 应该长什么样？答案是：用 real-to-sim 把视频变仿真当「同一道题」，再让人对两段执行视频投偏好票。

核心 idea：用「real-to-sim 自动翻译 + 仿真内 VLM/人类成对评测」替代「真实世界手工评测」，把一次性、不可复现的物理测试变成持续演化、可复现、可扩展的 benchmark。

方法详解¶

整体框架¶

RobotArena ∞ 要解决的是「怎么自动把真实视频变成能跑策略、能打分的仿真考场」。整条管线分两大块：前半段把单帧真实视频翻译成仿真环境（提取相机位姿、物体网格与位姿、干净背景、控制器增益五要素），并对环境施加可控扰动；后半段把待测 VLA 部署进去、对执行轨迹双轨打分（VLM 自动进度分 + 人类成对偏好），最后用 Bradley-Terry 模型聚合出全局排名。整个流程除了演示视频自带的机器人关节轨迹标注外，不需要任何额外人工监督，且模块化设计使每个组件都能随 real-to-sim 技术进步被替换升级。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实机器人演示视频<br/>Bridge / DROID / RH20T"] --> B["自动 Real-to-Sim 翻译<br/>提取相机位姿/3D网格/<br/>物体位姿/背景/PD增益"]
    B --> C["可微渲染机器人-相机标定<br/>RGB+光流+DINOv2 三损失"]
    C --> D["可控域扰动<br/>背景 / 颜色 / 物体位姿"]
    D --> E["部署待测 VLA 策略<br/>采集执行轨迹"]
    E --> F["双轨评测<br/>VLM 进度分 + 人类成对偏好"]
    F --> G["Bradley-Terry 全局排名"]

关键设计¶

1. 全自动 Real-to-Sim 翻译流水线：从单张 RGB 还原可跑仿真的数字孪生

这一步直击「真实评测要人工搭场景」的痛点。给定一段带语言任务描述和逐帧关节角的演示视频，方法从中自动提取五个要素：相机相对机器人本体的 6-DoF 位姿、任务相关物体的 3D 网格重建、物体的朝向/尺寸/材质、一张干净背景图、以及比例-微分（PD）控制增益。物体重建链路是：用 Gemini 分割机器人和相关物体 → InvSR 超分每个 crop → Hunyuan-3D 把图生成有纹理的 3D 网格（在 canonical 坐标系下）。为恢复物体真实 3D 位姿，把重建网格渲染成多个 2D 视图，用 MINIMA 做对应点匹配挑出匹配最多的视图，再用 MoGE 单目深度（并以机器臂的相对深度对齐仿真真值深度算出度量尺度因子）把掩码像素反投影成度量尺度点云，最后对 3D–3D 对应做 SVD 求出位姿。背景用 LaMa 把机器人和物体区域 inpaint 掉得到干净底图，再用系统辨识对齐仿真末端轨迹与真实视频来标 PD 增益。

与现有 real-to-sim（如 Phone2Proc、Re3Sim）相比，它们普遍依赖多视角拍摄、精选物体库或 fiducial marker，对典型单视角机器人数据集不实用；RobotArena ∞ 只需静态相机的单张 RGB，也不像 RialTo 那样要人在回路分割或机器人专门跑标定轨迹，因而能扩展到 Bridge/DROID/RH20T 这类既有大规模数据集。

2. 可微渲染的机器人-相机自动标定：用三项对齐损失解开未知外参

机器人演示视频通常是「未标定」的——相机相对机器人的位姿未知，而这恰恰是把仿真摆对的前提。方法先按 URDF 用可微渲染构建一个关节角条件化的 3D 高斯机器人模型（沿用 DR-Robot）；给定逐帧关节角的视频，渲染该高斯模型并优化相机的 3D 平移与旋转，最小化一个三项组合对齐损失：(i) RGB 损失惩罚像素级外观差异；(ii) 光流损失强制渲染运动场与视频光流一致；(iii) 特征损失对齐渲染帧与观测帧的 DINOv2 嵌入。当有标定元数据（如 DROID）时用作初始化，否则像 BridgeV2 那样先粗网格搜索给一个鲁棒起点。三项损失从外观、运动、语义特征三个互补角度约束，使得只靠单视角视频就能解出可靠外参。

3. 可控域扰动：沿多个轴系统性压力测试泛化与鲁棒性

光在「原始环境」里打分还不够，作者要测策略在分布漂移下到底有多脆。于是对生成的环境施加三类受控扰动：背景变化（∆BG）用多样背景数据集里的不同 inpaint 纹理替换原场景背景，隔离策略对上下文外观线索的依赖；颜色偏移（∆Color）改 RGB 通道配置（如 RGB→BGR），以约 33% 为步长从 0% 到 100% 施加，测低层颜色鲁棒性；物体位姿变化（∆ObjPose）随机置换场景中物体位置。因为这些扰动都建在仿真里，可以在严格受控、其他变量不变的条件下逐轴单独施加——这是真实世界几乎做不到的事，也是仿真评测的独特价值。

4. 双轨评测：VLM 自动进度分与人类成对偏好互补，BT 模型聚合排名

评测分绝对与相对两条轨。绝对评测（VLM 进度分）：把有序视频帧连同特权仿真状态（物体状态、机器人状态，初始态作为零进度参考）喂给 Gemini 2.5 Pro，让它对每帧打一个进度分；轨迹级分数取最后 30% 帧的平均，因为终末阶段最能体现成功或失败，作者发现该 metric 与人工进度分高度吻合。相对评测（人类偏好）：对同一仿真环境、同样初始条件和指令下的两段策略执行视频做双盲成对比较，标注者给出偏好标签（A 好 / 平局 / B 好）和一段自由文本理由——要求写理由能提升标注者投入度与准确率。最后用 Bradley–Terry 模型聚合：给每个策略一个潜在能力分 \(\theta_i > 0\)，定义 \(P(\pi_i \succ \pi_j) = \frac{\theta_i}{\theta_i + \theta_j}\)，仅用非平局比较做最大似然估计（log 参数化下目标凹，可梯度上升高效求解），排序 \(\theta\) 即得全局排名 \(R\)，并用稳健（sandwich）方差估计给出置信区间。两轨互补：VLM 提供可扩展的标量信号，人类偏好捕捉数值 metric 漏掉的细腻执行质量。

实验关键数据¶

初版 benchmark 在 100 个名义环境 + 数百个扰动上聚合了 8500+ 对偏好（BridgeSim 上为 8,749 对人类成对比较），对比来自全球独立实验室的 6 个 VLA：Octo、RoboVLM、SpatialVLA、CogAct、X-VLA、π0。环境分三套：BridgeSim（70 个环境，源自常用于预训练的 BridgeV2）、DROIDSim（DROID，噪声较高、常被排除在预训练外）、RH20TSim（RH20T，仅 SpatialVLA 的 backbone 在此预训练过），从而覆盖 in-distribution 与 out-of-distribution。

主实验¶

维度	现象	含义
人类 vs VLM 排名	两者排名完全一致（π0、X-VLA 优于 CogAct/RoboVLM/Octo/SpatialVLA）	自动 VLM 评测与人类判断高度一致，可放心用 VLM 扩展
跨数据集泛化	在非训练数据集（DROID/RH20T）派生的环境上性能大幅下降	当前 VLA 不是真正的 generalist，只擅长训练分布内
与 SIMPLER 对比	所有 VLA 在 SIMPLER（仅 4 个环境）上分数都显著高于 BridgeSim（70 个环境）	SIMPLER 因环境少、场景选择有偏而高估了策略性能

扰动鲁棒性 / 关键发现¶

扰动轴	观察	解读
颜色偏移 ∆Color	backbone 更强的策略更抗色变	强 backbone 依赖不变的结构线索而非表层外观，Octo 这类较弱模型易被干扰
背景变化 ∆BG	所有策略普遍掉点	策略重度依赖固定环境线索，存在对训练视觉布置的过拟合
物体位姿 ∆ObjPose	显式 3D 建模带来一定抗性但仍下降	3D 结构有帮助但不足以实现真正语义泛化

关键发现¶

「空间悖论」：π0 和 X-VLA 没有 SpatialVLA 那种显式 3D 归纳偏置，反而更鲁棒。作者推测因其预训练含腕部相机多视角数据，从原始多视角中学到的跨视角一致性可能比显式 3D 先验提供了更强的空间表征。
模型选择确实有区分度：BridgeSim 及其扰动变体清晰把 π0、X-VLA 区分为最强；但优势并非普适——在 RH20TSim 上 RoboVLM 达 19.05%、远超其他，而 X-VLA 直接 0.00%，说明排名随分布而变。
排名跨条件稳定：尽管绝对性能随分布漂移和扰动下降，模型间排名在各条件下保持一致，说明架构与数据设计差异带来的是可测、可复现的性能差。
真实-仿真一致性初步验证：在「Put the carrot in the plate」任务上同时跑真实与仿真，RoboVLM/SpatialVLA 两边都成功、Octo 两边都失败（始终抓不起胡萝卜），结论一致。

亮点与洞察¶

把人类从「搭场景的劳力」变成「投偏好票的裁判」：这是整篇最聪明的视角转换——既保留了机器人评测离不开的人类细腻判断，又把不可扩展的体力活（复位、监督）从评测回路里彻底剔除。
VLM 进度分取「末 30% 帧均值」是个朴素但有效的 trick：把「是否成功」这个本来要看整段轨迹的判断，收敛到最能体现成败的终末阶段，且实测与人工高度对齐，可直接迁移到任何需要自动判定 episode 成败的具身任务。
「benchmark 太小会系统性高估」的实证：用同源数据（Bridge V2）造 70 个环境 vs SIMPLER 的 4 个环境，直接量化出小 benchmark 的乐观偏差，对整个领域如何设计评测有警示意义。
模块化 real-to-sim 的可升级性：每个子模块（分割/3D 生成/深度/inpaint）都能被更强模型替换，benchmark 保真度随技术进步持续提升，而非一次性冻结。

局限与展望¶

作者承认：当前被评策略不用腕部相机，限制了部分精细操作的保真度；正在扩展管线以生成支持多视角观测的完整 3D 交互环境。
仿真器对细粒度接触动力学（如把充电器插进插座）仍难以忠实建模，是物理引擎与资产生成的公开难题。
自己发现的局限：与真实世界排名的相关性只在单个任务上验证过（精确复刻真实场景结构/纹理/相机布置本身极难且易引入人为偏差），跨任务的 sim-to-real 排名一致性尚缺大规模证据；VLM 打分依赖特权仿真状态，迁移到无状态场景时可靠性待考。
评测者是普通终端用户而非机器人专家，这既贴近「机器人最终服务对象」的初衷，也可能在涉及专业执行质量判断时引入噪声。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「real-to-sim 自动翻译 + 仿真内成对人类偏好」首次组合成可扩展机器人 benchmark，是 LMArena 范式的机器人化迁移。
实验充分度: ⭐⭐⭐⭐⭐ 6 个独立 VLA、三套数据集、数百扰动、8500+ 偏好对，迄今最大规模机器人评测，还与 SIMPLER 和真实世界做了对照。
写作质量: ⭐⭐⭐⭐ 动机与管线讲得清晰，五要素提取链路完整；个别评测细节（置信区间、扰动强度）需查附录。
价值: ⭐⭐⭐⭐⭐ 直击机器人领域缺标准 benchmark 的痛点，开源且承诺持续维护，有望成为社区基础设施。