Learning a Unified Latent Action Space from Videos with Action-centric Cycle Consistency¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 机器人 / 具身智能
关键词: 潜在动作, 视频预训练, 循环一致性, VLA, 跨本体

一句话总结¶

提出 CycleMimic，用"动作中心循环一致性（AC3）"约束从无标注视频里学习潜在动作 tokenizer——靠"采样潜在动作→生成未来帧→再从原帧和生成帧预测回该动作"的闭环，逼出语义一致且跨本体统一的潜在动作空间，在 LIBERO 上比 OpenVLA 提升 20.1%、CALVIN 平均完成任务数从 3.27 升到 3.93。

研究背景与动机¶

领域现状：机器人模仿学习依赖昂贵的动作标注示范，而视频是几乎免费的海量数据源。近年的主流做法是先训练一个"潜在动作 tokenizer"：给定相邻两帧 \(o_t, o_{t+H}\)，编码出帧间的潜在动作 \(z_t\)，再用当前帧加潜在动作去重建未来帧，从而把视频里的行为模式蒸馏成离散动作 token，供 VLA（Vision-Language-Action）策略预训练用（如 Genie、LAPA、UniVLA）。

现有痛点：作者做了 pilot study 暴露两个硬伤。其一，每个当前帧与其未来帧是唯一配对的，tokenizer 只要记住"这一对"就能完成重建，根本不需要理解底层转移动力学——结果学到的潜在动作语义不一致（把参考视频的潜在动作施加到新当前帧上，生成的运动与参考发散）。其二，为了容纳不同机器人的异构形态，tokenizer 通常给每个本体分配互不相交的潜在动作子集，导致潜在动作空间碎片化、知识无法跨本体迁移。

核心矛盾：重建目标太"容易"——唯一配对让 tokenizer 走捷径，既学不到语义一致的动作，也不会主动统一不同本体的动作表示。

本文目标：构造一个统一的潜在动作空间，同时满足（1）语义一致性、（2）跨本体统一。

切入角度：把"唯一配对"这个捷径打破——不再只用数据集里成对的 \((o_t, o_{t+H})\)，而是从一个潜在动作池里采样动作、解码生成多样的未来帧，再要求 tokenizer 从原帧与生成帧里把这个采样动作预测回来。

核心 idea：用循环一致性（CycleGAN 思想搬到动作空间）造一个更难的自监督任务——"采样动作 → 生成帧 → 反预测动作"形成闭环，逼 tokenizer 学到语义连贯、可跨本体复用的潜在动作。

方法详解¶

整体框架¶

CycleMimic 的输入是无标注视频数据集 \(T^o\) 与少量带动作标注的机器人示范 \(T^a\)，输出是一个能执行操作任务的策略。整条管线分三段：先学一个带循环一致性约束的潜在动作 tokenizer（核心创新都在这一段），再把 tokenizer 的编码器当作逆动力学模型、在视频上预训练 VLA 策略去预测潜在动作 token，最后用带标注数据微调出连续的低层机器人动作。

tokenizer 本身是个 VQ-VAE 风格的编码器-解码器：编码器 \(E\) 用 DINOv2 抽取当前帧与未来帧的特征，拼上可学习的潜在动作 token，过一个时空（ST）transformer 聚合转移动力学，量化成离散动作 \(z_t^q\)（每个动作用 \(l_z\) 个 token、码本大小 \(K\)）；解码器 \(D\) 用当前帧加 \(z_t^q\) 重建未来帧。真正让它"学好"的是叠加在上面的三个贡献：动作中心循环一致性、潜在动作缓冲、局部-全局判别器。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["无标注视频<br/>+ 少量带标注示范"] --> B["潜在动作 tokenization<br/>DINOv2 编码 + ST-transformer + VQ-VAE"]
    B --> C["动作中心循环一致性 AC3<br/>采样动作→生成帧→反预测动作"]
    C -->|从池中均匀采样| D["潜在动作缓冲 Z<br/>累积前 B 个 batch 近似动作空间"]
    C -->|约束生成帧分布| E["局部-全局判别器<br/>对齐分布 + 防信息泄漏"]
    D --> F["策略预训练<br/>VLM 预测潜在动作 token"]
    E --> F
    F --> G["动作微调<br/>LoRA + 动作 token 解码连续动作"]
    G --> H["机器人执行"]

关键设计¶

1. 动作中心循环一致性（AC3）：用闭环造一个更难的任务，逼出语义一致与跨本体统一

这是全文的核心，针对"唯一配对让 tokenizer 走捷径"。做法是：取数据集帧 \(o_c\)，从潜在动作缓冲 \(Z\) 里采样一个动作 \(z_s^q\)，用解码器生成对应未来帧 \(\hat{o}_g = D(o_c, z_s^q)\)；然后把 \(o_c\) 与 \(\hat{o}_g\) 一起送进编码器，要求它恢复出原本采样的动作 \(\hat{z}_s^q = E(o_c, \hat{o}_g)\)，并强制 \(\hat{z}_s^q \approx z_s^q\)。为了让梯度能传，用量化前的嵌入 \(\hat{z}_s^e\) 与码本向量算 L2 距离作为相似度，再以采样动作的码本索引为监督做交叉熵：

\[\mathcal{L}_C = -\sum_{k=1}^{K} y_k \log\left(\frac{\exp(-d(\hat{z}_s^e, e_k)/\tau)}{\sum_{j=1}^{K}\exp(-d(\hat{z}_s^e, e_j)/\tau)}\right)\]

与原来"固定帧对重建"不同，这个闭环里未来帧是采样动作生成的、多样且不再唯一配对，tokenizer 必须真正理解"什么动作导致什么变化"才能反预测成功——语义一致性由此被逼出来。跨本体统一也顺势解决：采样本体 \(E_i\) 编码的动作 \(z_s^q\)，施加到本体 \(E_j\) 的帧 \(o_c\) 上生成帧、再预测 \(E_j\) 的动作，循环一致性强制两者相等，于是不同本体的动作被对齐进同一空间。

2. 潜在动作缓冲 \(Z\)：给一个"会动的"动作空间一个可采样的近似，并防止其坍缩

AC3 要"从潜在动作空间采样"，但 tokenizer 在训练中潜在动作空间是动态变化的，没有一个预定义的空间可采。最直接的办法是只从当前 batch 采，但这会给 tokenizer 留下偷懒空间——它会把潜在动作空间压缩得很小来降低循环一致性的难度（即空间坍缩）。本文的解法很简洁：用一个缓冲 \(Z\) 累积前 \(B\) 个 batch 编码出的潜在动作，从中均匀采样，以此近似真实的潜在动作空间，同时因为来源跨多个 batch、空间被撑开而不易坍缩。消融显示这个 \(B\) 不能太小也不能太大：\(B=1\)（仅当前 batch）因空间坍缩掉点，\(B=16\) 因纳入过早 batch 的"陈旧动作"污染空间也掉点，\(B=4\) 最优。

3. 局部-全局判别器：对齐生成帧与真实帧分布，同时堵住解码器→编码器的信息泄漏

AC3 引入了两个新风险。其一，解码器生成的帧与数据集真实帧存在分布差异，编码器在"假帧"上表现会退化；其二，解码器可能把采样动作的信息直接泄漏进生成帧的像素里，让编码器靠"读泄漏"而非"理解动作"就能反预测成功——形成看似循环一致、实则错误的对应。本文用一个局部-全局判别器 \(\Psi\) 解决：它用空间 transformer 抽 patch 特征产出 patch logits（局部细节），再卷积+全局池化产出 global logits（全局风格），在两个层级上做对抗：

\[\mathcal{L}^{\Psi}_{GAN} = -\log(\Psi(o)) - (1 - \log(\Psi(D(o,z)))), \quad \mathcal{L}^{D}_{GAN} = 1 - \log(\Psi(D(o,z)))\]

判别器逼解码器生成更逼真的帧，从而对齐分布；而一旦解码器把动作信息嵌进生成帧，就会引起分布偏移被判别器惩罚，间接堵住了信息泄漏。消融里去掉判别器在 LIBERO-Object 上从 97.6 掉到 88.1，只用局部判别器也明显逊于局部-全局组合。

4. 三段式策略学习与动作 token 解码：把视频先验稳稳搬到真实机器人动作上

tokenizer 学好后，编码器 \(E\) 被当作逆动力学模型，从 \(o_t, o_{t+H}\) 抽潜在动作 token。策略基于 Prismatic-7B VLM（融合 SigLip+DINOv2 视觉编码器 + LLaMA-2），词表扩展 \(K\) 个专用 token \(\{LACT_1,...,LACT_K\}\)，在视频上做自回归预训练去预测潜在动作（实验设动作 token 长度 \(N=4\)）。微调阶段接一个动作解码器，在潜在动作 token 后追加 query token ACT，从 VLM 末层隐状态聚合出连续机器人动作（delta 末端位姿），VLM 用 LoRA 微调以保留先验、动作解码器全参训练。消融对比三种解码方式：离散分箱预测最差（精度受限），直接把潜在动作解码成连续值居中，本文"追加动作 token 再解码"最好——因为直接从潜在动作 token 解动作会让同一 token 同时背负连续回归与潜在动作预测两重约束，反而难优化。

实验关键数据¶

主实验¶

LIBERO（130 个语言条件操作任务，4 个 suite）平均成功率：

方法	Spatial	Object	Goal	Long	平均
LAPA	73.8	74.6	58.8	55.4	65.7
OpenVLA	84.7	88.4	79.2	53.7	76.5
UniVLA	96.5	96.8	95.6	92.0	95.2
Ours w/ Genie (Full)	91.6	92.7	85.5	84.9	88.6
Ours (Bridge)	95.8	97.6	96.2	92.0	95.4
Ours (Full)	97.5	98.2	97.3	93.4	96.6

亮点：仅用 Bridge 数据集预训练（数据量远小于 OpenVLA/Octo/UniVLA 用的大库）就反超它们；同架构同训练策略、只把 AC3 换成 Genie 的"Ours w/ Genie"平均仅 88.6，直接验证循环一致性的增益。相对 OpenVLA 平均提升约 20.1%。

CALVIN（ABC→D 未见场景泛化，Avg. Len. = 1000 条序列里平均连续完成任务数）：

方法	1	2	3	4	5	Avg. Len.
OpenVLA	0.913	0.778	0.620	0.521	0.435	3.27
UniVLA	0.955	0.858	0.754	0.669	0.565	3.80
Ours w/ Genie	0.952	0.838	0.691	0.542	0.437	3.46
Ours	0.973	0.867	0.792	0.704	0.594	3.93

真实机器人（Franka 臂，9 类任务，每任务仅 30 条示范，10 次随机位姿评测）整体成功率：OpenVLA 0.44、UniVLA 0.77、Ours w/ Genie 0.68、Ours 0.88——相对最强视频预训练 baseline 提升约 44%（⚠️ 论文摘要的 "44% improvement" 对应此处口径，具体基线以原文为准）。SimplerEnv（WidowX+Bridge）抓取与任务成功率亦显著优于 Genie 基线（图示，无表格数值）。

消融实验¶

均在 Bridge 预训练 + LIBERO 微调上做：

配置	Spatial / Object / Goal / Long	说明
缓冲 \(B=1\)	93.4 / 95.7 / 92.5 / 87.9	仅当前 batch，空间坍缩掉点
缓冲 \(B=4\)（默认）	95.8 / 97.6 / 96.2 / 92.0	最优
缓冲 \(B=16\)	92.5 / 98.1 / 95.3 / 91.5	陈旧动作污染空间
无判别器	90.3 / 88.1 / 87.9 / 81.6	信息泄漏，大幅掉点
仅局部判别器	95.4 / 95.6 / 93.3 / 90.8	逊于局部-全局
局部-全局判别器（默认）	95.8 / 97.6 / 96.2 / 92.0	最优
离散动作解码	89.6 / 90.3 / 85.9 / 78.6	精度受限，最差
潜在动作解码	94.8 / 97.1 / 95.5 / 91.1	居中
动作 token 解码（默认）	95.8 / 97.6 / 96.2 / 92.0	最优

关键发现¶

判别器贡献最大：去掉后 LIBERO-Long 从 92.0 暴跌到 81.6，说明防信息泄漏 + 分布对齐是 AC3 能真正生效的前提，否则循环一致性会被"读泄漏"作弊绕过。
缓冲 batch 数存在甜区（\(B=4\)）：太小坍缩、太大污染，印证"潜在动作空间动态变化"这一痛点的真实性。
判别器深度匹配编码器（12 层）最稳；过浅容量不足维持不住与编码器的对抗均衡、易泄漏。
跨数据规模优势明显：小数据集（Bridge）预训练即可超过大数据集预训练的强基线，说明 AC3 提升的是数据利用效率而非靠堆数据。

亮点与洞察¶

把 CycleGAN 的循环一致性思想迁移到"潜在动作"空间，是很巧的概念搬运：原本图像翻译里 \(F(G(x))\approx x\) 解决无配对域映射，这里 \(E(o_c, D(o_c, z))\approx z\) 解决"无监督动作语义一致"，闭环天然制造了一个比帧对重建更难、无法走捷径的任务。
"潜在动作缓冲"是一个朴素但点睛的工程设计：它把"如何从一个还在变化的空间里采样"这个看似无解的问题，用跨 batch 累积近似解决，且顺带防坍缩——可迁移到任何"目标分布随训练动态漂移、又需要从中采样"的自监督场景。
局部-全局判别器一石二鸟：既对齐生成帧分布、又堵信息泄漏，提醒做"生成-再编码"闭环时务必警惕解码器把答案偷偷写进像素。
跨本体统一不靠新模块、纯靠 AC3 的采样-施加机制自然实现（从本体 A 采样的动作施加到本体 B 的帧），思路优雅。

局限与展望¶

潜在动作的语义一致性靠生成帧质量兜底，若解码器在复杂/长时序场景生成质量下降，循环一致性约束可能失效——论文实验多为相对短程操作任务。
缓冲 batch 数 \(B\)、判别器深度等超参对结果敏感（消融可见），换数据集可能需要重新调，缺乏自适应机制。
真实机器人实验每任务仅 30 条示范、9 类任务，规模偏小；"44% 提升"的对照口径需结合原文具体基线理解（⚠️ 以原文为准）。
仍依赖一定量带动作标注数据做微调，未完全摆脱标注；可探索更少标注或零标注迁移。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把循环一致性创造性迁移到潜在动作空间，同时解决语义一致与跨本体统一两个长期痛点。
实验充分度: ⭐⭐⭐⭐ LIBERO/CALVIN/SimplerEnv/真实机器人全覆盖、消融到位；真实实验规模与基线口径略可加强。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、pilot study 有说服力；部分符号与生成帧细节偏密。
价值: ⭐⭐⭐⭐⭐ 显著提升视频预训练数据效率，对低成本机器人技能学习有直接落地意义。