Cross-Hand Latent Representation for Vision-Language-Action Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://xl-vla.github.io （项目页）
领域: 机器人 / 具身智能
关键词: 视觉-语言-动作模型, 灵巧手, 跨本体, 潜在动作空间, 重定向

一句话总结¶

XL-VLA 为四种结构各异的灵巧手训练了一个共享的、与本体无关的潜在动作空间，把它直接插进 π0 这样的 VLA 框架替换原来的关节状态 token，使单一手无关策略能同时控制多种灵巧手，在真机上把跨本体操作平均成功率从 0.55 提到 0.90。

研究背景与动机¶

领域现状：视觉-语言-动作（VLA）模型把大规模视觉/语言模型的能力延伸到机器人控制——看图、理解语言指令、输出动作。主流做法是把动作当成序列模型的额外输出模态，和视觉、语言一起做 seq-to-seq 建模。

现有痛点：语言有相对稳定通用的"词表"，但机器人的动作空间天生绑定在机器人的形态上。对灵巧手尤其严重——动作参数化（关节角度）在不同手之间差异巨大，且新硬件层出不穷。每出一款新手就要重新采一大批数据，成本高到不现实。

核心矛盾：要做可扩展的跨本体学习，就得有一个能跨多种手复用的统一动作表示；但关节空间维度（Ability/Inspire 12 维、X-Hand 12 维、Paxini 16 维）、手指数（4 或 5 指）、驱动方式都不一样，没法直接共享。

本文目标：拆成两个具体子问题——(1) 如何在一族机器人内定义统一的动作表示？(2) 如何无缝接入一个动作空间和现有手不同的新机器人？

切入角度：作者观察到，虽然每只手的关节空间是手特有的，但执行动作时指尖的几何关系（比如拇指到各指的捏合距离与方向）是可以跨手对齐的语义量。于是把"手特有的关节"和"手无关的序列模型"解耦——序列模型只在一个共享潜在空间里工作，手的身份只用来挑选对应的编解码器。

核心 idea：用一个跨手共享的潜在动作空间替代各手各自的原始关节空间，作为可直接插进标准 VLA 的"本体不变"动作表示，从而实现跨本体联合训练与零样本复用。

方法详解¶

整体框架¶

XL-VLA 由两部分组成：(1) 一个预训练好的跨本体潜在动作空间（一组手特有的编码器 \(E_h\) / 解码器 \(D_h\)，它们都映射到同一个潜在分布），以及 (2) 一个建立在 π0 之上的 VLA 主干（视觉、语言编码器 + 动作专家 action expert）。

潜在空间先独立于 VLA 单独预训练好；之后训练 VLA 时把这些编解码器全部冻结。在线推理时，对手 \(h\)，先用 \(E_h\) 把上一段绝对关节动作块 \(q_t^{(h)}\)（64 帧 @ 20 Hz，约 3.2 秒）压成一个紧凑潜在向量 \(z_t = E_h(q_t^{(h)})\)；VLA 主干以一小段这样的潜在 token 历史加上视觉、语言 token 为条件，预测下一段潜在块 \(\hat z_{t+1}\)；再用本体对应解码器 \(D_h\) 解回关节命令 \(\hat q_{t+1}^{(h)} = D_h(\hat z_{t+1})\)。关键点：手身份 \(h\) 只用于选择 \(E_h/D_h\)，从不作为显式 token 喂给 VLA 主干，所以同一个手无关策略能跨手运行。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["各手关节动作块<br/>q^(h)（手特有维度）"] --> ENC["共享潜在动作空间<br/>多头VAE：E_h 编码到 z"]
    ENC --> LAT["本体不变潜在向量 z"]
    LAT -.离线预训练:重定向对齐.-> RET["可微FK重定向损失<br/>跨手指尖几何对齐"]
    RET -.自监督:随机关节采样.-> SELF["无演示自监督训练<br/>采样→自解码+跨解码"]
    LAT --> VLA["VLA集成（π0）<br/>潜在token替换状态token"]
    V["图像 V + 语言 T"] --> VLA
    VLA -->|预测下一段 ẑ| DEC["D_h 解码回关节命令"]
    DEC --> OUT["多灵巧手执行"]

关键设计¶

1. 共享潜在动作空间 + 多头 VAE 自编码器：让维度不同的手共用一个动作流形

针对"每只手关节空间维度/结构都不一样、没法共享"的痛点，作者不为每只手单独定义动作空间，而是用一个多头 VAE 风格的自编码器把所有手映射到同一潜在分布。对每只手 \(h\)，编码器输出高斯后验参数 \((\mu^{(h)}, \sigma^{(h)}) = E_h(q^{(h)})\)，用重参数化技巧采样潜在码 \(z\)，即 \(q(z\mid q^{(h)}) = \mathcal N(\mu^{(h)}, \mathrm{diag}((\sigma^{(h)})^2))\)，解码器再重建回关节空间 \(\hat q^{(h)} = D_h(z)\)。每个编解码器都是轻量 MLP。最基础的重建约束 \(L_1\) 保证自编码不退化任何一只手的运动学：

\[L_1 = L_{rec} = \frac{1}{|H|}\sum_{h\in H}\mathrm{MSE}\big(\hat q^{(h)}, q^{(h)}\big)\]

只有 \(L_1\) 还不够——它只保证每只手各自自编码良好，潜在码并没有被逼到"同一个 \(z\) 在不同手上意义相同"。这正是下一个设计要补的。

2. 可微前向运动学的重定向损失：用指尖几何把不同手的同一潜在码对齐

要让潜在空间真正跨本体，必须让"同一个 \(z\) 在不同手上产生几何一致的动作"。作者用可微前向运动学（FK）把关节映成指尖位置 \(p_i^{(h)}\)，定义指尖位移 \(\delta_{ij}^{(h)} = p_i^{(h)} - p_j^{(h)}\)，对子集 \(P\)（拇指对食/中/无名/小指四对捏合）施加重定向损失，惩罚源手 \(s\) 与目标手 \(t\) 之间捏合距离与方向的差异：

\[L_2 = \frac{1}{|H|(|H|-1)|P|}\sum_{s\neq t}\sum_{(i,j)\in P} w_{ij}^{(s)}\Big(\lambda_{dis}\big(\|\delta_{ij}^{(s)}\|_2 - \|\hat\delta_{ij}^{(t)}\|_2\big)^2 + \lambda_{dir}\big(1 - c_{ij}^{(s,t)}\big)\Big)\]

其中 \(\hat\delta_{ij}^{(t)}\) 来自目标手解码后的配置，\(c_{ij}^{(s,t)}\) 是两手捏合方向的余弦相似度，权重 \(w_{ij}^{(s)} = \exp(-\lambda_{dis}^{exp}\|\delta_{ij}^{(s)}\|_2)\) 让越紧的捏合权重越大。手指索引按语义手工对齐；Paxini 缺小指，评估 \(L_2\) 时丢掉涉及小指的对。这一项是潜在码"跨手语义一致"的核心来源——它把"对齐"这个本来需要配对轨迹监督的事，变成了只靠 FK 几何就能算的可微目标。

3. 无演示的自监督潜在对齐训练：不要任何配对轨迹也能把空间对齐

潜在自编码器训练时完全不用演示数据，也不用 IK 生成的轨迹。对每只手 \(s\)，在硬件关节限位内随机采样关节配置 \(q^{(s)}\)；把它编码成 \(z\)，再用所有解码器 \(\{D_t\}_{t\in H}\) 解码：自解码 \(D_s(z)\) 贡献 \(L_1\)，跨手解码 \(D_t(z)\ (t\neq s)\) 贡献 \(L_2\)。所有手的损失聚合后一次反传，编解码器联合优化。因为 \(L_2\) 只用各手的 FK 和解码姿态，整个跨本体对齐是完全自监督的，不需要任何配对的跨手轨迹——这也是它比 LAD 等需要配对监督的方法更省数据的根本原因。再加一项把潜在变量正则到标准高斯先验的 KL 损失，让空间平滑可采样、可插值：

\[L_3 = L_{KL} = \mathbb E_q\big[\mathrm{KL}\big(q(z\mid q)\,\|\,\mathcal N(0, I)\big)\big]\]

总潜在目标为 \(L_{latent} = L_1 + L_2 + \beta L_3\)，固定 \(\beta=10^{-5}\)、\(\lambda_{dis}=2000\)、\(\lambda_{dir}=5\)、\(\lambda_{dis}^{exp}=12\)。

4. 把潜在 token 插入 π0：用冻结编解码器让 VLA 直接吃本体不变动作

VLA 主干沿用 π0（PaliGemma 初始化的 VLM + 动作专家）。原版 π0 用一摞状态 token提供本体感知历史；XL-VLA 把它们整体替换成潜在动作 token：对手 \(h\)，\(E_h\) 把上一段关节动作块编成潜在向量喂进去，模型在潜在 token 历史 + 视觉/语言 token 上预测下一段潜在块，再由 \(D_h\) 解回关节命令。VLA 微调时编解码器全冻结，只训练动作专家。这样做的好处是潜在空间一旦练好就能即插即用，VLM 预训练带来的网络先验也被完整保留；而旧式 VLA 把动作离散化成 token 自回归解码，难以支撑灵巧手所需的高频精细控制，本文换成在潜在空间回归连续动作块正好绕开这个瓶颈。

损失函数 / 训练策略¶

潜在空间在合成随机关节样本上预训练（\(L_1 + L_2 + \beta L_3\)）。VLA 阶段从 π0 权重初始化，在自采的 4 手 × 10 任务多本体数据集上微调 60K 步，batch 128，8×H100（80GB）。这是一个用语言条件化的统一跨本体多任务策略。

实验关键数据¶

数据集：2 臂 7-DoF xArm + Unitree G1，4 种手（Ability/Inspire/X-Hand1 5 指，Paxini DexH13 4 指），10 个真机操作任务，每任务每手 50 条遥操作演示、共 2000 条（论文 intro 另称约 2M state-action 对）。每个任务真机执行 10 次算成功率。

主实验：跨本体 VLA 建模（vs π0）¶

四手十任务（PF/SC/SoC/HB/RL/PS/RB/PuS/PoS/PC）平均成功率：

方法	Ability	Inspire	Paxini	XHand	总平均
π0（共享策略，原始关节空间）	0.37	0.27	0.35	0.29	0.55*
XL-VLA（潜在动作空间）	0.73	0.68	0.78	0.70	0.90

* 论文按任务×手聚合后报告 π0 总均值 0.55 → XL-VLA 0.90（+0.35，约 +40%）。逐手看 Ability 0.37→0.73、XHand（机械结构最特殊）0.29→0.70，提升在 Sort Cans、Hand over Bottle、Re-arrange Boxes 这类高灵巧度任务上尤为明显。⚠️ 表中各手单行均值与"0.55→0.90"是不同聚合口径，以原文为准。

潜在重放对比（vs LAD，有监督潜在重定向）¶

把一对手的遥操作轨迹编码进潜在空间、解码到另一对手上真机重放，能无断触/无自碰执行算成功：

方法	Ability+Inspire	Paxini+XHand
LAD（有监督）	0.60	0.61
XL-VLA（无监督）	0.82	0.81

XL-VLA 在完全无监督、无配对标签的情况下显著超过有监督的 LAD，且在 SC/SoC/HB 等精细任务上 LAD 退化明显。

消融实验（潜在空间设计，指标均"越低越好"）¶

配置	Recon Joint↓	跨本体 PTdir↓	RTdist↓	说明
Ours（H128→64, dim 32）	5.476	11.857	6.295	完整配置，各项均衡较优
− \(L_1\)	61.672	11.741	6.375	去重建，单手重建彻底崩
− \(L_2\)（both）	3.781	62.733	62.809	去重定向，跨本体几何全崩
− \(L_2^{dir}\)	4.966	46.217	5.518	去方向项，方向误差暴涨
L128（潜在维过大）	5.324	8.736	6.215	维度过大反而损害本体不变结构

关键发现¶

去掉哪个损失最致命要看目标：去 \(L_1\) 重建直接崩（Joint RMSE 5.48→61.7）；去 \(L_2\) 跨本体方向/距离误差从约 12/6 暴涨到约 63/63——印证重定向损失是"跨手语义一致"的命根子。
潜在维度不是越大越好：性能在很宽的架构/维度范围内稳定，只有潜在维显著增大（如 L128）才退化，说明过大的潜在空间反而妨碍学到本体不变结构；最终选 dim 32 在容量与紧凑度间折中。
零样本跨本体迁移：把若干任务从某手训练集里 hold out，XL-VLA 直接经对应解码器迁移到"未见任务×手"组合，全面超过"π0 + 运动学重定向"基线，且在任何手/任务上从不低于基线；G1 跨机器人共训也比原始动作空间高约 +57%。

亮点与洞察¶

用可微 FK 把"跨本体对齐"从需要配对数据变成自监督几何目标：这是最巧的一步——指尖捏合的距离与方向是跨手可比的语义量，FK 可微就能端到端优化，于是无需任何配对轨迹即可对齐潜在空间，直接省掉了跨本体数据采集这一最贵环节。
潜在空间与 VLA 解耦、即插即用：编解码器先单独练好再冻结插进 π0，意味着换 VLA 主干或加新手只动一侧，工程上很干净；新手只要补一对 MLP 编解码器并加入联合训练即可。
把"动作离散 token 自回归"换成"潜在连续块回归"：既保留 VLM 预训练先验，又绕开了离散化动作对高频灵巧控制的限制，这个思路可迁移到任何需要高自由度连续控制的 VLA。

局限与展望¶

评测全在自建的 4 手 + 2 臂平台、10 个桌面任务上，未见更开放场景或更长程任务；泛化边界尚不清楚。
跨手对齐依赖手工对齐手指语义索引（拇指-各指配对），对手指拓扑差异更大或非拟人手（如多指/缺拇指）能否自动对齐存疑 ⚠️。
潜在空间用随机关节采样训练，覆盖的是硬件可达关节配置，但真实操作分布可能集中在某些子流形；随机采样是否充分覆盖任务相关姿态、会不会在罕见姿态上解码失真，论文未深入。
改进方向：把手指语义对齐也学习化（而非手工）、把潜在训练分布与真实演示分布对齐、扩到全身/双臂协同动作空间。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用可微 FK 重定向损失把跨本体潜在对齐做成完全自监督，且即插进标准 VLA，思路干净有效。
实验充分度: ⭐⭐⭐⭐ 真机 4 手 10 任务 + 跨机器人 + 零样本 + 重放 + 多维消融，扎实；但平台与任务规模有限、缺更开放场景。
写作质量: ⭐⭐⭐⭐ 公式与 pipeline 清晰，但主结果聚合口径（0.55/0.90 与各行均值）标注略含糊。
价值: ⭐⭐⭐⭐⭐ 直击灵巧手 VLA 的跨本体数据成本痛点，新手只需加一对编解码器，实用性强。