Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/MINT-SJTU/Evo-1 (有)
领域: 具身智能 / 视觉-语言-动作 (VLA)
关键词: 轻量化VLA, 语义对齐保持, 流匹配扩散, 交叉注意力DiT, 两阶段训练

一句话总结¶

Evo-1 用一个仅 0.77B 参数的原生多模态 VLM 当主干，配上纯交叉注意力的流匹配扩散动作专家和一套"先冻结后微调"的两阶段训练，在完全不做机器人数据预训练的前提下，靠保住 VLM 的语义空间在 Meta-World / RoboTwin / LIBERO 上拿到 SOTA，真机 78% 成功率且推理频率 16.4 Hz、显存仅 2.3 GB。

研究背景与动机¶

领域现状：视觉-语言-动作（VLA）模型把感知、语言、控制统一进一个多模态框架，让机器人能"看图听指令做动作"。主流路线（OpenVLA、π0、GR00T 等）是拿几十亿参数的大 VLM 当骨干，再在 OXE / DROID 这类大规模机器人数据上长时间预训练，泛化能力很强。

现有痛点：这条路有四个具体毛病。① 参数动辄几 B，训练和推理都吃显存、算力贵；② 计算量大导致控制频率低，真机交互时反应慢；③ 普遍用的端到端联合训练会破坏 VLM 骨干的表征空间，下游过拟合、泛化差；④ 强依赖大规模机器人数据预训练，而这种数据采集既贵又费人力。已有的轻量方案（TinyVLA、SmolVLA）参数压下去了，但复杂操作任务上的性能和鲁棒性明显不够看。

核心矛盾：这里有一个被忽视的张力——保住预训练 VLM 的多模态语义 与 适配下游动作生成 之间会打架。直接端到端联合训练，随机初始化的动作头会把带噪梯度反传进 VLM，把原本对齐好的视觉-语言注意力冲散（论文用注意力图直观展示了这种"语义漂移"）。

本文目标：在不做机器人数据预训练、参数 < 1B 的约束下，既要高成功率又要高推理频率，还要保住骨干的泛化能力。

切入角度：与其用"先纯文本 LLM 再后挂视觉对齐"的拼接式骨干，不如直接用原生多模态预训练的紧凑 VLM（InternVL3-1B），它的视觉-语言表征本就对齐紧密；再用一套训练调度避免动作头污染骨干。

核心 idea：用"原生多模态轻量骨干 + 纯交叉注意力流匹配动作专家 + 两阶段（冻结→微调）训练"三件套，把"语义对齐"当成第一优先级保护对象，从而在小参数、零机器人预训练下打平甚至超过大模型。

方法详解¶

整体框架¶

Evo-1 是一个模块化的 VLA：给定多视角 RGB 观测 \(\{I_t^i\}_{i=1}^N\)、语言指令 \(L_t\) 和机器人本体状态 \(s_t\)，输出当前时刻的连续动作向量 \(a_t \in \mathbb{R}^{d_a}\)，整体映射写成 \(a_t = f_{\text{Evo-1}}(\{I_t^i\}_{i=1}^N, L_t, s_t; \theta)\)。它由三个核心组件串成一条"感知-语言-动作"流水线：① VLM 主干把图像+指令编码成融合表征 \(z_t\)；② 整合模块把 \(z_t\) 和本体态 \(s_t\) 对齐拼接，喂给控制端；③ Cross-modulated 扩散 Transformer（动作专家）在这个条件下用流匹配生成未来一段连续动作。横切这条流水线的是一套两阶段训练：决定哪些部分先冻结、哪些后解冻，是"保住语义"能否成立的关键。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视角RGB + 指令 + 本体态"] --> B["VLM主干<br/>原生多模态轻量编码<br/>取第14层融合特征 z_t"]
    B --> C["整合模块<br/>z_t 与 s_t 拼接作 KV"]
    C --> D["Cross-modulated DiT<br/>纯交叉注意力 + 流匹配"]
    D --> E["连续动作块 â_t..â_t+H-1"]
    F["两阶段训练<br/>冻结骨干→全量微调"] -.调度.-> B
    F -.调度.-> C
    F -.调度.-> D

关键设计¶

1. 原生多模态轻量主干：用对齐紧密的小 VLM 换掉拼接式大骨干

针对痛点①②（参数大、频率低）和③（端到端破坏表征），Evo-1 直接选 InternVL3-1B 当骨干，而不是 OpenVLA 那种"文本 LLM 事后挂视觉"的拼接式 7B 骨干。InternVL3 在单阶段原生多模态范式下联合学视觉和语言，跨模态本就对齐得更好，所以同样的下游训练后，它的注意力图（论文 Fig.2）仍保持空间一致、语义聚焦，而 Prismatic-7B 已经明显漂移。具体地，视觉端用 InternViT-300M（从 InternViT-6B 蒸馏而来），每张 RGB 缩放到 448×448 后做 pixel-unshuffle 下采样把视觉 token 数降到 1/4，得到紧凑又保空间粒度的 patch 嵌入；语言端用 Qwen2.5-0.5B。融合时 InternVL3 把 patch 级图像嵌入替换进序列里的 <img> 占位 token，再过共享解码器得到融合表征 \(z_t = f_{\text{VLM}}(\{I_t^i\}, L_t)\)。一个关键取舍是只保留语言分支的前 14 层——中间层被发现跨模态对齐最强，对视觉运动控制最有用，砍掉深层既省算力又不丢对齐信息。

2. Cross-modulated 扩散 Transformer：纯交叉注意力的流匹配动作专家

针对"如何高效、连贯地生成连续动作"，Evo-1 的动作专家是一个只堆叠交叉注意力层的 DiT，刻意去掉了 π0/SmolVLA 那种"自注意力与交叉注意力交替"的结构——作者后面消融证明这种交替会打断多模态信息的连续传播。它走流匹配（flow-matching）范式：学一个时间相关的速度场，把初始噪声逐步推向真值动作。训练时把真值动作 \(A_t\) 和随机噪声 \(\epsilon\) 线性插值

\[A_t^\tau = \tau A_t + (1-\tau)\epsilon,\]

其中插值权重 \(\tau\) 从 Beta 分布采样并夹到 \([0.02, 0.98]\) 保证数值稳定。动作专家学一个以多模态上下文 \(z_t\) 和状态 \(s_t\) 为条件的速度场 \(v_\theta\)，优化目标是

\[\mathcal{L}^\tau(\theta) = \mathbb{E}\left[\,\left\| v_\theta(A_t^\tau, z_t, s_t) - u(A_t^\tau \mid A_t) \right\|^2\,\right],\]

\(u(A_t^\tau \mid A_t)\) 是把 \(A_t^\tau\) 推向 \(A_t\) 的目标流方向。推理时一次预测一段长度为 \(H\) 的动作块 \(\hat A_t = f_{\text{AE}}(z_t, s_t, A_t^\tau)\)。纯交叉注意力 + 动作分块让结构更紧凑、推理频率更高，这正是 16.4 Hz 的来源。

3. 整合模块：中层特征与本体态"拼接"而非"投影"，保全信息

针对"感知表征怎么接进控制端不丢信息"，整合模块从 VLM 的第 14 层取融合特征 \(z_t\)（中层语义，平衡视觉与语言），然后把 \(z_t\) 与机器人本体态 \(s_t\) 直接拼接，而不是投影到一个共享嵌入空间——拼接保留了感知嵌入和本体态各自的完整信息。拼好的特征作为动作专家所有 DiT 层的 key-value 输入，噪声动作 \(A_t^\tau\) 作 query 做交叉注意力，给动作生成提供一个全局、信息无损的条件上下文。论文消融里把它叫 Module A（Mid-Layer Cross-Attention），并和另外三种变体对比：B 在交叉注意力间插自注意力、C 逐层注入不同深度 VLM 特征、D 把 VLM 特征/状态/噪声动作一起拼成联合 KV——结果 A 因为多模态信息传播最连续而最优，B-D 都因打断了这种连续性而掉点。

4. 两阶段训练：先冻结骨干对齐动作头，再全量微调，护住语义空间

这是全文的灵魂设计，直接对应痛点③（端到端破坏表征）。直接端到端联合训练会让随机初始化的动作头把带噪梯度灌进 VLM，扭曲预训练语义、导致下游过拟合。Evo-1 拆成两步：Stage 1（动作专家对齐）——冻结整个 VLM 主干，只训整合模块和动作专家，让随机初始化的动作头先在不污染骨干的前提下，逐步对齐到多模态嵌入空间；Stage 2（全量微调）——等对齐稳定后再解冻 VLM，对整个架构联合微调，让骨干和动作头深度耦合、更好适配多样任务。作者用注意力可视化（Fig.7）佐证：两阶段训练后注意力仍清晰聚焦在物体和任务相关区域，而单阶段联合训练则注意力涣散、跑到无关区域。正因为护住了继承来的语义空间，模型才能在零机器人预训练下保持强泛化。

损失函数 / 训练策略¶

核心训练目标就是上面的流匹配 velocity 回归损失 \(\mathcal{L}^\tau(\theta)\)。训练调度即两阶段：Stage 1 冻 VLM 只训整合模块 + 动作专家，Stage 2 解冻全量微调。所有仿真任务每个任务约 50 条演示、真机每个任务 100 条遥操作演示，全程不依赖任何大规模机器人数据预训练。

实验关键数据¶

主实验¶

三大仿真基准（成功率 %，越高越好；Evo-1 仅 0.77B 且无机器人预训练）：

基准	指标	Evo-1 (0.77B)	之前最佳	提升
Meta-World	平均成功率	80.6	SmolVLA 68.2 (2.25B)	+12.4
RoboTwin	平均成功率	37.8	π0 30.9 (3.5B)	+6.9
LIBERO	平均成功率	94.8	π0 94.2 (3.5B)	+0.6

Meta-World 上四个难度（easy/medium/hard/very hard）全面领先，very hard 达 79.2%（SmolVLA 64.0）；LIBERO 在最难的 long 任务上 92.3%，明显高于多数会退化的基线；RoboTwin 的 Click Alarmclock 难档 58%（π0 仅 11%），展示出强双臂协调。

真机四任务（xArm6，每任务 20 试）+ 推理效率（RTX 4090d）：

模型	参数(B)	显存(GB)	推理频率(Hz)	真机成功率(%)
SmolVLA	0.45	2.0	12.7	50.0
OpenVLA	7.0	15.1	7.9	55.0
π0	3.5	17.9	11.5	73.0
Evo-1	0.77	2.3	16.4	78.0

Evo-1 以约 π0 四分之一的参数，在显存、频率、成功率三项上都占优。

消融实验¶

配置	验证基准	结论
整合模块 A（中层交叉注意力，本文）	LIBERO-Long	最优——多模态信息传播最连续
整合模块 B（交叉+自注意力交替）	LIBERO-Long	自注意力打断传播，掉点
整合模块 C（逐层注入不同深度特征）	LIBERO-Long	各层条件不一致，掉点
整合模块 D（联合 KV 拼接）	LIBERO-Long	条件特征跨层不一致，掉点
两阶段训练（本文）	Meta-World	各难度全面优于单阶段
单阶段联合训练	Meta-World	注意力涣散、语义漂移，全面掉点

关键发现¶

"信息传播连续性"是整合模块成败的关键：A 之所以赢，是因为同一份中层特征 + 状态被一致地喂给所有 DiT 层；B-D 要么插自注意力、要么各层用不同特征，破坏了这种连续性。
两阶段训练的收益主要来自"护住语义"：注意力图直接显示单阶段会让模型注意到无关区域，两阶段则保持对物体/任务实体的聚焦——这解释了为什么它能在零机器人预训练下还泛化得好。
泛化鲁棒性：真机 Pick-and-Place 干扰实验里，Evo-1 在未见干扰物（80% vs SmolVLA 65%）、背景变色（75% vs 60%）、目标位移/高度变化下全面优于 SmolVLA，base 场景 95%。
小骨干 + 原生多模态 > 大骨干 + 事后对齐：InternVL3-1B 训练后注意力比 Prismatic-7B 更稳，印证了"原生对齐"对动作迁移的价值。

亮点与洞察¶

把"语义对齐"当成被保护的一等公民：多数 VLA 默认端到端训练，本文反过来先冻结骨干、用注意力图量化"语义漂移"，把训练调度本身做成核心贡献，思路很干净。
纯交叉注意力 DiT 的反直觉选择：去掉自注意力反而更好，背后逻辑是"别打断多模态条件的连续传播"——这个观察可迁移到其他条件扩散策略的结构设计。
拼接而非投影：整合模块用 concat 保全 \(z_t\) 与 \(s_t\) 的完整信息，避免投影到共享空间造成的信息压缩，是个简单但有效的 trick。
工程友好：0.77B + 2.3GB 显存 + 16.4Hz，能跑在消费级 GPU 上做实时控制，对落地很有意义。

局限与展望¶

论文未对各设计点做更细粒度的解耦（如"原生多模态骨干"与"两阶段训练"各自贡献多少），目前只能看到整体 SOTA。
⚠️ 真机泛化实验只在单一 Pick-and-Place 任务上做干扰，干扰类型（距离/高度/背景/干扰物）相对受控，是否覆盖更剧烈的分布漂移待验证。
第 14 层取特征、保留前 14 层语言分支这些超参带有经验性（"中间层对齐更强"引自他人工作），换骨干时是否仍最优需重新搜索。
仍依赖每任务数十~上百条演示，虽免了大规模机器人预训练，但 few-shot/zero-shot 到全新任务的能力尚未展示。

评分¶

新颖性: ⭐⭐⭐⭐ 组合式创新（原生骨干+纯交叉注意力DiT+两阶段训练），单点不算颠覆但"护语义"视角清晰
实验充分度: ⭐⭐⭐⭐⭐ 三仿真基准+真机四任务+效率/泛化/双消融，对比基线充分
写作质量: ⭐⭐⭐⭐ 结构清楚、注意力图佐证有力，部分设计动机偏经验性
价值: ⭐⭐⭐⭐⭐ 0.77B 实时可部署、零机器人预训练拿 SOTA，落地价值高且开源