NeurIPS 2025 机器人视觉语言软体连续体机械臂实体差异桥接 OpenVLA-OFT π₀ 安全人机交互

Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots¶

会议: NeurIPS 2025
arXiv: 2510.17369
代码: https://huggingface.co/HCSuMoss （开源了首个软体机器人操纵示范数据集）
领域: 机器人 / 软体机器人 / VLA / 实体迁移 / 安全人机交互
关键词: Vision-Language-Action, 软体连续体机械臂, 实体差异桥接, OpenVLA-OFT, π₀, 安全人机交互

一句话总结¶

本文首次将 VLA（Vision-Language-Action）模型部署到软体连续体机械臂 Embuddy 上，发现开箱即用的刚性机器人预训练策略因运动学和动力学差异完全失败，但通过在少量软体机器人示范数据上进行针对性微调，可以成功弥合刚性-软体之间的实体鸿沟，使软体平台在抓取和人机交互任务上达到与 UR5 刚性臂相当的任务完成率。

研究背景与动机¶

领域现状：Vision-Language-Action（VLA）模型是当前机器人领域最有前景的通用控制框架之一，它将视觉感知、自然语言理解与动作生成统一在单一多模态策略中。从 CLIPort、SayCan 到 RT-2、OpenVLA，VLA 模型在任务通用性和设置泛化性上取得了显著进步。然而，几乎所有现有的 VLA 模型和部署工作都聚焦于刚性串联连杆机械臂，例如 UR5、Franka 等，这些机器人具有可预测的运动学特性，简化了控制问题，但在安全性和适应性方面存在根本性限制——刚性结构在与人类密切接触时可能造成伤害，且无法柔性适应复杂的非结构化环境。

现有痛点：当前 VLA 研究的一个核心盲区在于，所有主流数据集和基准测试（如 Open X-Embodiment、LIBERO、ALOHA）都依赖于刚性机器人平台。这带来两个关键问题。第一，VLA 的适用范围被局限于不需要柔顺交互的场景，对于需要内在安全性的人体环境（如辅助喂食、近距离协作）缺乏解决方案。第二，软体机器人的非线性、欠驱动动力学特性与刚性机器人截然不同，在刚性臂上训练的策略能否迁移到软体平台是一个完全未知的开放问题。现有的实体迁移工作（cross-embodiment transfer）主要在不同刚性平台之间进行，这些平台共享相似的逆运动学结构和外观，迁移相对容易。而软体连续体机械臂具有完全不同的形态、运动学约束和动力学行为，这一设定从未在 VLA 基准中被涉及。

核心矛盾：VLA 模型的语义理解和任务泛化能力需要与物理世界中安全可靠的交互能力相结合，而实现后者的最自然途径——使用软体机器人——却因为缺乏相应的数据集、部署流水线和系统性评估而被完全忽视。刚性机器人虽然运动学可控，但本质上无法提供与人共享环境所需的内在安全性；软体机器人虽然天然安全，但其复杂的非线性动力学使得基于学习的控制方法难以直接应用。

本文目标 本文聚焦于三个核心问题：（1）VLA 策略在没有微调的情况下能否直接迁移到软体机器人？（2）如果不能，通过什么样的微调流水线可以弥合这一实体差距？（3）不同架构的 VLA 模型（OpenVLA-OFT vs. π₀）在软体平台上的表现对比如何？

切入角度：作者的核心观察是，软体连续体机械臂（如 Embuddy）具有两个关键优势使其天然适合人类环境部署——欠驱动结构意味着无论电机位置如何，柔性段始终可被外力形变，加之轻量化设计（仅5kg）限制了惯性力。如果能够将 VLA 的高级推理能力与软体机器人的物理安全性结合，就能在安全性和智能性之间找到一个此前不存在的最优点。

核心 idea：通过构建首个软体机器人示范数据集和结构化微调流水线，证明 VLA 模型可以在少量数据微调后成功部署到软体连续体机械臂上，在操纵任务中达到与刚性机器人相当的性能，同时保留软体平台的内在安全特性。

值得强调的一点是，软体机器人与刚性机器人的差距不仅仅是"控制参数不同"这么简单。刚性机器人的关节空间与笛卡尔空间之间存在解析映射（逆运动学有闭式解或高效数值解），而软体连续体机器人的变形是连续分布的、无限自由度的、且受到材料非线性和重力耦合的影响。这意味着从概念上讲，刚性机器人的"实体"主要体现在关节数量和连杆几何中，而软体机器人的"实体"则深深嵌入到其材料力学和结构动力学之中。因此，VLA 能够仅通过视觉和动作层面的微调就弥合这一鸿沟，暗示 VLA 学到的高级语义和时序模式确实具有相当程度的物理不变性。

方法详解¶

整体框架¶

本文的方法论采用结构化流水线设计，涵盖从任务设计、数据采集、预处理、模型适配到评估的完整闭环。整体流程如下：首先，定义三个代表性操纵任务来覆盖软体机器人的能力范围；然后，搭建数据采集环境，通过遥操作记录多模态示范数据；接着，将原始数据转换为标准化格式（RLDS 用于 OpenVLA-OFT，LeRobot 用于 π₀）；在此基础上对两个 VLA 模型进行可比条件下的微调；最后，在设计的任务上进行推理评估，评估策略的成功率和定性行为。

输入端包括第三人称相机图像、腕部相机图像、本体感受状态（末端执行器位姿，8维向量 \(s = [x, y, z, r, p, y, \text{pad}, g]\)）以及自然语言任务指令。输出端为增量动作向量（7维：\(a = [\Delta x, \Delta y, \Delta z, \Delta r, \Delta p, \Delta y, g]\)），直接控制机器人在笛卡尔空间中的运动。

关键设计¶

软体连续体机器人平台 Embuddy:
- 功能：作为实验的核心物理平台，Embuddy 是一个自定义设计的连续体机器人臂，用于验证 VLA 在柔顺平台上的可行性。
- 核心思路：Embuddy 由三个模块化段组成，每段包含一个标准旋转关节和一个软体连续体段。连续体段采用腱驱动机制，在一个平面内弯曲（受不可压缩中心线约束），结构通过 3D 打印热塑性聚氨酯（TPU）制造。机器人总高度约 1m，与标准串联连杆机械臂尺度相当，但工作空间受限于各段的弯曲角度：第一段最大弯曲 80°，第二和第三段各最大 50°。
- 设计动机：Embuddy 的内在安全性来自两个关键特性。第一，欠驱动结构意味着无论电机处于何种位置，各柔性段始终可以被外力变形——这是刚性机器人无法提供的被动安全机制。第二，整机仅重 5kg，大幅限制了惯性力，即使发生碰撞也不会造成严重伤害。这两个特性使 Embuddy 天然适合人类共享环境中的近距离交互任务。实验中 Embuddy 使用与 UR5 相同的夹爪和相机配置，确保跨平台比较的公平性。
基于分段常曲率模型的遥操作与逆运动学:
- 功能：将人类操作者的笛卡尔空间指令映射到软体机器人的腱长度控制信号，实现流畅的遥操作数据采集。
- 核心思路：采用分段常曲率（Piecewise Constant Curvature, PCC）模型作为逆运动学方案。PCC 模型将每个连续体段近似为恒定曲率弧，从而将腱长度与建模形状关联起来，进而确定末端执行器的位姿。通过 3dconnexion 空间鼠标作为操纵杆控制器，以 5Hz 的频率采集遥操作数据。每个示范 episode 记录第三人称图像、腕部图像、本体感受状态和语言指令。数据采集后进行裁剪和下采样至 256×256 分辨率，并对腕部视图进行翻转以使其更直觉化。
- 设计动机：PCC 模型是软体机器人控制中最常用的简化模型，它在保证足够精度的同时实现了实时控制所需的计算效率。相比有限元方法（FEM），PCC 牺牲了部分精度但换取了实时性，这对于遥操作数据采集至关重要。角度差值采用了周期性处理公式 \(\Delta = ((\Delta + \pi) \bmod 2\pi) - \pi\) 以避免在 \([-\pi, \pi]\) 边界处产生错误的大跳变。
面向两种 VLA 架构的差异化微调策略:
- 功能：分别为 OpenVLA-OFT 和 π₀ 设计适配其架构特点的微调方案，在计算效率和精度之间取得平衡。
- 核心思路：
  - OpenVLA-OFT 微调：由于其骨干网络 Llama 2 7B 参数量巨大，采用 LoRA（rank=32）低秩适配进行全微调。输入包含本体感受状态和双视角图像（第三人称+腕部），训练连续动作头使用 L1 回归目标。关键超参数设置为 action chunk 大小 8、batch size 8、学习率 \(5 \times 10^{-4}\)、最大训练步数 200k（Task 1/2）或 150k（Task 3），学习率在 120k 步后衰减 10 倍。对于需要语言区分的 Task 2，启用 FiLM 模块增强语言理解能力，并将训练步数增加到 240k。在 A100 上训练 150k 步约需 56 小时。
  - π₀ 微调：由于其骨干网络 PaliGemma 仅 3B 参数，直接进行全参数微调。使用 batch size 32、学习率 \(2.5 \times 10^{-5}\)、warmup 1000 步、余弦衰减策略，最大训练步数 30k。在 H100 上训练约 11 小时。
- 设计动机：两种微调策略的选择直接源于模型规模的差异——7B 的 OpenVLA-OFT 如果全参数微调计算成本过高且容易过拟合少量示范数据，LoRA 通过低秩约束在保持大部分预训练知识的同时实现高效适配；而 3B 的 π₀ 规模较小，全参数微调在计算上可行且能充分利用有限数据。两者都使用 action chunk 大小为 8，保证了公平比较。数据增强（随机裁剪、亮度/对比度/饱和度/色调调整）仅应用于 OpenVLA-OFT 的输入图像。

任务设计与评估协议¶

本文设计了三个代表性操纵任务，覆盖从简单抓放到近距离人机交互的不同难度级别：

Task 1："Put the orange in the plate" —— 简单抓放任务，工作区内随机放置四种常见食物（橙子、牛奶、酸奶、法棍），盘子位置大致固定。数据集包含 50 个示范 episode。
Task 2："Put the X in the plate"（X 可以是 orange 或 milk）—— 带选择的抓放任务，要求模型根据语言指令正确识别目标物体。数据集包含 100 个示范 episode（每类 50 个）。
Task 3："Feed the person with marshmallow" —— 近距离人机交互任务，要求机器人从盘中拿起棉花糖并递给场景中的人。数据集仅包含 20 个示范 episode，是最具挑战性的任务。

评估采用最常见的 10 次试验成功率作为量化指标，物体在每次试验中随机放置于工作区内。

推理部署架构¶

推理时采用远程-本地通信架构，这是当前大模型驱动的机器人控制中常见的部署模式。本地 PC 连接机器人并实时采集观察（第三人称图像、腕部图像、本体感受状态、语言指令），将数据打包发送至远程 GPU 服务器进行模型前向推理，服务器返回 action chunk（大小为 8 的动作序列），本地依次执行每个动作后重新采集观察，如此循环直至任务完成或达到最大步数。这种"采集→传输→推理→传输→执行"的异步循环引入了不可避免的网络延迟，但由于 action chunk 机制一次预测 8 步动作，有效摊薄了单步延迟的影响。

尽管存在网络延迟（软体机器人实验中使用远程 HPC 集群，延迟显著高于 UR5 实验中的 Azure 虚拟机），软体机器人仍能保持至少 25 Hz 的控制频率（OpenVLA-OFT on H100: 25.1 Hz，π₀ on H100: 38.0 Hz，UR5 上 OpenVLA-OFT on A100: 32.3 Hz）。π₀ 的推理速度显著快于 OpenVLA-OFT，这主要得益于其更小的骨干网络（3B vs. 7B）和 JAX 的高效并行执行。值得注意的是，即使在最慢的配置下（25.1 Hz），控制频率仍远高于数据采集频率（5 Hz），理论上为实时视觉闭环控制提供了充足的带宽。

损失函数 / 训练策略¶

OpenVLA-OFT：使用 L1 回归损失训练连续动作头，直接回归末端执行器位姿的增量动作向量。相比离散化的 token 预测（如原版 OpenVLA），连续输出避免了离散化伪影，提高了动作精度。当训练损失稳定在 0.01 左右时认为训练完成。
π₀：使用条件流匹配（Conditional Flow Matching）目标。训练时生成噪声动作序列，模型学习预测将噪声映射回真实动作的"去噪"流。这种基于流的方法相比扩散模型在推理速度上具有优势，且能直接输出连续动作。使用余弦学习率衰减策略，从 \(2.5 \times 10^{-5}\) 衰减到 \(2.5 \times 10^{-6}\)。

实验关键数据¶

主实验¶

论文的核心实验验证了两个关键假设：（1）开箱即用的 VLA 策略无法直接在软体机器人上工作；（2）微调可以有效弥合实体差距。

零样本迁移实验：所有未经微调的 VLA 模型（包括以跨实体泛化著称的 π₀）在 Embuddy 上完全失败，成功率为 0%。失败的根本原因在于软体机器人与刚性机器人在动力学映射上的不匹配——当模型生成适合刚性机械臂的运动指令时，由于各段最大弯曲角的约束（第一段 80°、第二和第三段各 50°），Embuddy 会在执行过程中"卡住"，无法继续跟随预测的轨迹。具体而言，刚性机械臂的关节可以在全范围内自由旋转，生成的运动序列可能包含大幅度的快速位移；而软体连续体段的弯曲是由腱拉力驱动的连续变形过程，响应速度和运动范围都受到材料弹性和几何约束的严格限制。这种本质性的动力学失配导致开箱即用的策略完全不可用，明确证实了刚性-软体之间存在显著的领域差异。

这一结果也引发了一个有趣的思考：π₀ 的跨实体预训练覆盖了 7 种不同的刚性平台和 68 种操纵任务，但这种"广度"并不能弥补"深度"上的差距——所有训练平台都共享刚性运动学这一根本假设，因此当遇到违反这一假设的新实体时，泛化能力归零。这提示我们，真正的跨实体泛化可能需要在训练数据中显式包含不同物理形态的样本，而非仅仅增加同类平台的数量。

任务	平台	模型	成功率	说明
Task 1: 简单抓放	UR5 (刚性)	OpenVLA-OFT	90%	刚性基线
Task 1: 简单抓放	Embuddy (软体)	OpenVLA-OFT	90%	与刚性臂持平
Task 1: 简单抓放	Embuddy (软体)	π₀	80%	略低于 OpenVLA-OFT
Task 2: 带选择抓放	UR5 (刚性)	OpenVLA-OFT	70%	需要语言区分
Task 2: 带选择抓放	Embuddy (软体)	OpenVLA-OFT	70%	与刚性臂持平
Task 3: 喂食交互	UR5 (刚性)	OpenVLA-OFT	80%	近距离人机交互
Task 3: 喂食交互	Embuddy (软体)	OpenVLA-OFT	80%	与刚性臂持平
Task 3: 喂食交互	Embuddy (软体)	π₀	70%	略低于 OpenVLA-OFT

推理效率对比¶

平台	模型	GPU设备	控制频率 (Hz)
UR5	OpenVLA-OFT	A100 (Azure VM)	32.3
Embuddy	OpenVLA-OFT	H100 (远程集群)	25.1
Embuddy	π₀	H100 (远程集群)	38.0

关键发现¶

微调完全弥合了实体差距：在 Task 1 和 Task 2 上，微调后的 OpenVLA-OFT 在软体机器人上取得了与 UR5 完全相同的成功率（90% 和 70%）。这是一个令人惊讶的结果——尽管软体机器人的运动学和动力学与刚性机器人截然不同，但微调策略能够完美适配。Task 3 的喂食任务中两个平台也达到了相同的 80% 成功率。这三个任务的一致性结论表明，微调弥合实体差距的效果不是偶然的，而是一个可靠的、可复现的现象。
OpenVLA-OFT 在软体平台上优于 π₀：值得注意的是，虽然 π₀ 在刚性实体间的泛化能力更强（这是它的设计目标），但在迁移到具有完全不同动力学的软体平台后，经过适当微调的 OpenVLA-OFT 反而表现更好（Task 1: 90% vs 80%, Task 3: 80% vs 70%）。这一反直觉结果可能有多重解释。首先，OpenVLA-OFT 的 LoRA 微调策略保留了更多预训练知识作为强先验，通过低秩更新仅调整必要的动力学映射；而 π₀ 的全参数微调在少量数据下可能产生过拟合风险。其次，OpenVLA-OFT 的 FiLM 模块提供了更深层次的语言-视觉融合，使得策略能更精确地根据指令条件化动作生成。第三，OpenVLA-OFT 使用 L1 回归的连续动作头可能比 π₀ 的流匹配在小数据集上收敛更稳定。
语言指令的语义遵循性良好：在 Task 2 中，FiLM 模块有效引导模型关注指令中指定的目标物体而非任意选择。在 Task 3 中，当盘中放置橙子替代棉花糖时，模型能够正确地拒绝执行而非错误地操纵可见物体，说明策略是语义驱动而非视觉显著性驱动。
软体机器人的物理鲁棒性得到验证：在 Task 3 的推理过程中（每次约 2-3 分钟），人为推动 Embuddy 偏离原始位姿（每次约 5 秒，共 2 次），机器人能够在 VLA 控制循环下自主恢复位姿并继续完成任务，未观察到性能下降。这证明了软体机器人的柔顺特性与 VLA 控制的闭环反馈机制之间存在天然的协同作用。
对人类出现的鲁棒性：在推理过程中，场景中人类的自由走动对模型性能没有任何影响。模型能够将注意力聚焦在工作区域，只要工作区未被遮挡或打断即可正常工作。
工作区的确定性约束：当目标物体被放置在训练集中出现的工作区域之外（即使仅偏移 10cm），模型在所有试验中均失败。这揭示了 VLA 策略对训练时工作区分布的强烈依赖，是一个重要的部署局限。

亮点与洞察¶

首次打通 VLA→软体机器人的完整链路：这是第一篇系统性地将 VLA 模型部署到软体连续体机械臂的工作，不仅证明了可行性，还提供了从数据采集到部署的完整开源流水线。这一先例打开了将先进的语言引导机器人控制与内在安全的物理平台结合的新方向。
"少量数据即可弥合巨大领域差异"的发现：仅用 50-100 个遥操作 episode（每个 episode 仅几十帧），就能使 VLA 从完全失败跃升到 70-90% 的成功率。这表明 VLA 模型的预训练知识（视觉理解、语义对齐、动作时序模式）具有惊人的可迁移性，微调主要需要学习的只是新平台的"运动学映射"这一相对低维的适配。这一观察对于那些难以大规模采集数据的新型机器人平台具有重要实践意义——如果 50-100 个 episode 就足够，那么几乎任何新平台都可以在几小时的遥操作投入下获得可用的 VLA 策略。这极大降低了将先进 AI 能力部署到非标准机器人平台的门槛。
LoRA vs. 全参数微调在不同模型规模上的对比启发：OpenVLA-OFT（7B）用 LoRA、π₀（3B）用全参数微调，最终 LoRA 方案反而在软体平台上效果更好。这暗示在数据极其有限的新领域适配场景下，参数高效微调方法通过保留更多预训练知识可能比全参数微调更有优势，即使后者有更大的适配自由度。全参数微调在仅 20-50 个 episode 的数据量下可能更容易过拟合到训练分布的细节，而 LoRA 的低秩约束起到了隐式正则化的作用，保持了预训练阶段积累的泛化能力。这一发现对其他数据稀缺的机器人领域（如水下机器人、空间机器人等）具有直接的方法论参考价值。
软体柔顺性与闭环 VLA 的天然互补：当 Embuddy 被外力推离轨迹时，VLA 策略能够通过视觉反馈自主恢复。这种鲁棒性并非来自显式的力控制或抗扰算法，而是软体结构的被动柔顺性与视觉闭环控制的自然结合——软体变形而非断裂，VLA 看到偏差后自动修正。在 Task 3 的推理过程中（每次约 2-3 分钟），实验者两次手动推偏 Embuddy（每次约 5 秒），机器人均能自主恢复并成功完成任务，未观察到任何性能下降。这一发现的深层含义在于：软体机器人的"缺点"（不够刚硬、位置精度低）在闭环 VLA 控制下反而变成了"优点"——柔顺变形提供了安全缓冲，而视觉闭环则补偿了位置不确定性。这一协同机制可以推广到任何需要人机安全交互的容错场景。
FiLM 模块在语言条件化中的关键作用：在 Task 2 中，启用 FiLM 是成功区分不同物体指令的关键。FiLM 通过在每个 Transformer 层将语言嵌入注入视觉特征，实现了比简单 token 拼接更深层次的模态融合。这一设计思路可以迁移到任何需要强语言-视觉关联的 VLA 任务。

局限与展望¶

任务复杂度和多样性有限：论文仅评估了三个相对简单的操纵任务（抓放和喂食），缺少更复杂的多步推理任务、灵巧操纵或需要精确力控制的场景。在更复杂的任务上，软体机器人的运动学约束可能成为更严重的瓶颈。
工作区泛化能力缺失：物体偏出训练工作区仅 10cm 就导致完全失败，这严重限制了实际部署的灵活性。未来需要研究如何通过数据增强或领域随机化来扩大策略的空间泛化范围。
数据集规模极小：最少的 Task 3 仅有 20 个 episode，虽然这展示了数据效率，但也意味着结果的统计可靠性有限（10 次试验评估）。更大规模的数据采集和更多试验次数的评估将增强结论的说服力。
缺少定量的安全性评估：虽然论文定性地展示了软体机器人的安全交互优势（可被推动、低惯性力），但缺少接触力测量、碰撞能量等定量安全性指标的系统评估。
PCC 模型的精度限制：分段常曲率模型是一种简化近似，对于大变形或复杂载荷条件下可能引入显著误差。这一建模误差如何影响 VLA 策略的长期执行稳定性未被讨论。
远程推理的延迟问题：当前架构依赖远程 GPU 服务器进行推理，网络延迟将控制频率从 38 Hz 降低到 25 Hz。对于更动态的交互任务，边缘部署（如使用 Jetson 等设备）将是必要的。
仅对比了两个 VLA 模型：缺少与其他策略类型（如扩散策略 RDT-1B、强化学习方法）在软体平台上的对比，无法全面评估何种策略架构最适合柔顺实体。
未探索模拟到真实（sim-to-real）的路径：论文完全依赖真实世界遥操作数据，但构建高保真的软体机器人仿真环境并利用大规模仿真数据预训练，可能是降低数据采集成本的有效途径。当前缺乏适用于软体连续体机器人的仿真平台是一个生态层面的挑战。
单一软体平台的代表性问题：仅在 Embuddy 一种软体机器人上做了实验。软体机器人的形态多样性远超刚性机器人（气动、电活性聚合物、形状记忆合金等驱动方式），当前结论能否推广到其他类型的软体平台仍然未知。

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 VLA 部署到软体连续体机械臂，问题设定新颖且具有明确的实际应用价值，但方法论本身（微调 VLA）并无显著创新，更多是工程整合。
实验充分度: ⭐⭐⭐ 仅三个任务、两个模型、10次试验的评估规模，任务复杂度偏低且统计置信度有限，也缺少安全性的定量评估指标。
写作质量: ⭐⭐⭐⭐ 结构清晰、动机阐述充分，附录详实地覆盖了实验细节和超参数设置，但主文的定量分析和消融实验深度可以进一步加强。
价值: ⭐⭐⭐⭐ 作为首篇系统性研究 VLA+软体机器人的工作，具有重要的先驱价值和实践参考意义，开源数据集也为后续研究奠定了基础。提出的微调流水线具有良好的可复用性，可以直接推广到其他非标准机器人平台的 VLA 部署场景。