Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/MINT-SJTU/Evo-1 (有)
领域: 具身智能 / 视觉-语言-动作 (VLA)
关键词: 轻量化VLA, 语义对齐保持, 流匹配扩散, 交叉注意力DiT, 两阶段训练
一句话总结¶
Evo-1 用一个仅 0.77B 参数的原生多模态 VLM 当主干,配上纯交叉注意力的流匹配扩散动作专家和一套"先冻结后微调"的两阶段训练,在完全不做机器人数据预训练的前提下,靠保住 VLM 的语义空间在 Meta-World / RoboTwin / LIBERO 上拿到 SOTA,真机 78% 成功率且推理频率 16.4 Hz、显存仅 2.3 GB。
研究背景与动机¶
领域现状:视觉-语言-动作(VLA)模型把感知、语言、控制统一进一个多模态框架,让机器人能"看图听指令做动作"。主流路线(OpenVLA、π0、GR00T 等)是拿几十亿参数的大 VLM 当骨干,再在 OXE / DROID 这类大规模机器人数据上长时间预训练,泛化能力很强。
现有痛点:这条路有四个具体毛病。① 参数动辄几 B,训练和推理都吃显存、算力贵;② 计算量大导致控制频率低,真机交互时反应慢;③ 普遍用的端到端联合训练会破坏 VLM 骨干的表征空间,下游过拟合、泛化差;④ 强依赖大规模机器人数据预训练,而这种数据采集既贵又费人力。已有的轻量方案(TinyVLA、SmolVLA)参数压下去了,但复杂操作任务上的性能和鲁棒性明显不够看。
核心矛盾:这里有一个被忽视的张力——保住预训练 VLM 的多模态语义 与 适配下游动作生成 之间会打架。直接端到端联合训练,随机初始化的动作头会把带噪梯度反传进 VLM,把原本对齐好的视觉-语言注意力冲散(论文用注意力图直观展示了这种"语义漂移")。
本文目标:在不做机器人数据预训练、参数 < 1B 的约束下,既要高成功率又要高推理频率,还要保住骨干的泛化能力。
切入角度:与其用"先纯文本 LLM 再后挂视觉对齐"的拼接式骨干,不如直接用原生多模态预训练的紧凑 VLM(InternVL3-1B),它的视觉-语言表征本就对齐紧密;再用一套训练调度避免动作头污染骨干。
核心 idea:用"原生多模态轻量骨干 + 纯交叉注意力流匹配动作专家 + 两阶段(冻结→微调)训练"三件套,把"语义对齐"当成第一优先级保护对象,从而在小参数、零机器人预训练下打平甚至超过大模型。
方法详解¶
整体框架¶
Evo-1 是一个模块化的 VLA:给定多视角 RGB 观测 \(\{I_t^i\}_{i=1}^N\)、语言指令 \(L_t\) 和机器人本体状态 \(s_t\),输出当前时刻的连续动作向量 \(a_t \in \mathbb{R}^{d_a}\),整体映射写成 \(a_t = f_{\text{Evo-1}}(\{I_t^i\}_{i=1}^N, L_t, s_t; \theta)\)。它由三个核心组件串成一条"感知-语言-动作"流水线:① VLM 主干把图像+指令编码成融合表征 \(z_t\);② 整合模块把 \(z_t\) 和本体态 \(s_t\) 对齐拼接,喂给控制端;③ Cross-modulated 扩散 Transformer(动作专家)在这个条件下用流匹配生成未来一段连续动作。横切这条流水线的是一套两阶段训练:决定哪些部分先冻结、哪些后解冻,是"保住语义"能否成立的关键。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["多视角RGB + 指令 + 本体态"] --> B["VLM主干<br/>原生多模态轻量编码<br/>取第14层融合特征 z_t"]
B --> C["整合模块<br/>z_t 与 s_t 拼接作 KV"]
C --> D["Cross-modulated DiT<br/>纯交叉注意力 + 流匹配"]
D --> E["连续动作块 â_t..â_t+H-1"]
F["两阶段训练<br/>冻结骨干→全量微调"] -.调度.-> B
F -.调度.-> C
F -.调度.-> D
关键设计¶
1. 原生多模态轻量主干:用对齐紧密的小 VLM 换掉拼接式大骨干
针对痛点①②(参数大、频率低)和③(端到端破坏表征),Evo-1 直接选 InternVL3-1B 当骨干,而不是 OpenVLA 那种"文本 LLM 事后挂视觉"的拼接式 7B 骨干。InternVL3 在单阶段原生多模态范式下联合学视觉和语言,跨模态本就对齐得更好,所以同样的下游训练后,它的注意力图(论文 Fig.2)仍保持空间一致、语义聚焦,而 Prismatic-7B 已经明显漂移。具体地,视觉端用 InternViT-300M(从 InternViT-6B 蒸馏而来),每张 RGB 缩放到 448×448 后做 pixel-unshuffle 下采样把视觉 token 数降到 1/4,得到紧凑又保空间粒度的 patch 嵌入;语言端用 Qwen2.5-0.5B。融合时 InternVL3 把 patch 级图像嵌入替换进序列里的 <img> 占位 token,再过共享解码器得到融合表征 \(z_t = f_{\text{VLM}}(\{I_t^i\}, L_t)\)。一个关键取舍是只保留语言分支的前 14 层——中间层被发现跨模态对齐最强,对视觉运动控制最有用,砍掉深层既省算力又不丢对齐信息。
2. Cross-modulated 扩散 Transformer:纯交叉注意力的流匹配动作专家
针对"如何高效、连贯地生成连续动作",Evo-1 的动作专家是一个只堆叠交叉注意力层的 DiT,刻意去掉了 π0/SmolVLA 那种"自注意力与交叉注意力交替"的结构——作者后面消融证明这种交替会打断多模态信息的连续传播。它走流匹配(flow-matching)范式:学一个时间相关的速度场,把初始噪声逐步推向真值动作。训练时把真值动作 \(A_t\) 和随机噪声 \(\epsilon\) 线性插值
其中插值权重 \(\tau\) 从 Beta 分布采样并夹到 \([0.02, 0.98]\) 保证数值稳定。动作专家学一个以多模态上下文 \(z_t\) 和状态 \(s_t\) 为条件的速度场 \(v_\theta\),优化目标是
\(u(A_t^\tau \mid A_t)\) 是把 \(A_t^\tau\) 推向 \(A_t\) 的目标流方向。推理时一次预测一段长度为 \(H\) 的动作块 \(\hat A_t = f_{\text{AE}}(z_t, s_t, A_t^\tau)\)。纯交叉注意力 + 动作分块让结构更紧凑、推理频率更高,这正是 16.4 Hz 的来源。
3. 整合模块:中层特征与本体态"拼接"而非"投影",保全信息
针对"感知表征怎么接进控制端不丢信息",整合模块从 VLM 的第 14 层取融合特征 \(z_t\)(中层语义,平衡视觉与语言),然后把 \(z_t\) 与机器人本体态 \(s_t\) 直接拼接,而不是投影到一个共享嵌入空间——拼接保留了感知嵌入和本体态各自的完整信息。拼好的特征作为动作专家所有 DiT 层的 key-value 输入,噪声动作 \(A_t^\tau\) 作 query 做交叉注意力,给动作生成提供一个全局、信息无损的条件上下文。论文消融里把它叫 Module A(Mid-Layer Cross-Attention),并和另外三种变体对比:B 在交叉注意力间插自注意力、C 逐层注入不同深度 VLM 特征、D 把 VLM 特征/状态/噪声动作一起拼成联合 KV——结果 A 因为多模态信息传播最连续而最优,B-D 都因打断了这种连续性而掉点。
4. 两阶段训练:先冻结骨干对齐动作头,再全量微调,护住语义空间
这是全文的灵魂设计,直接对应痛点③(端到端破坏表征)。直接端到端联合训练会让随机初始化的动作头把带噪梯度灌进 VLM,扭曲预训练语义、导致下游过拟合。Evo-1 拆成两步:Stage 1(动作专家对齐)——冻结整个 VLM 主干,只训整合模块和动作专家,让随机初始化的动作头先在不污染骨干的前提下,逐步对齐到多模态嵌入空间;Stage 2(全量微调)——等对齐稳定后再解冻 VLM,对整个架构联合微调,让骨干和动作头深度耦合、更好适配多样任务。作者用注意力可视化(Fig.7)佐证:两阶段训练后注意力仍清晰聚焦在物体和任务相关区域,而单阶段联合训练则注意力涣散、跑到无关区域。正因为护住了继承来的语义空间,模型才能在零机器人预训练下保持强泛化。
损失函数 / 训练策略¶
核心训练目标就是上面的流匹配 velocity 回归损失 \(\mathcal{L}^\tau(\theta)\)。训练调度即两阶段:Stage 1 冻 VLM 只训整合模块 + 动作专家,Stage 2 解冻全量微调。所有仿真任务每个任务约 50 条演示、真机每个任务 100 条遥操作演示,全程不依赖任何大规模机器人数据预训练。
实验关键数据¶
主实验¶
三大仿真基准(成功率 %,越高越好;Evo-1 仅 0.77B 且无机器人预训练):
| 基准 | 指标 | Evo-1 (0.77B) | 之前最佳 | 提升 |
|---|---|---|---|---|
| Meta-World | 平均成功率 | 80.6 | SmolVLA 68.2 (2.25B) | +12.4 |
| RoboTwin | 平均成功率 | 37.8 | π0 30.9 (3.5B) | +6.9 |
| LIBERO | 平均成功率 | 94.8 | π0 94.2 (3.5B) | +0.6 |
Meta-World 上四个难度(easy/medium/hard/very hard)全面领先,very hard 达 79.2%(SmolVLA 64.0);LIBERO 在最难的 long 任务上 92.3%,明显高于多数会退化的基线;RoboTwin 的 Click Alarmclock 难档 58%(π0 仅 11%),展示出强双臂协调。
真机四任务(xArm6,每任务 20 试)+ 推理效率(RTX 4090d):
| 模型 | 参数(B) | 显存(GB) | 推理频率(Hz) | 真机成功率(%) |
|---|---|---|---|---|
| SmolVLA | 0.45 | 2.0 | 12.7 | 50.0 |
| OpenVLA | 7.0 | 15.1 | 7.9 | 55.0 |
| π0 | 3.5 | 17.9 | 11.5 | 73.0 |
| Evo-1 | 0.77 | 2.3 | 16.4 | 78.0 |
Evo-1 以约 π0 四分之一的参数,在显存、频率、成功率三项上都占优。
消融实验¶
| 配置 | 验证基准 | 结论 |
|---|---|---|
| 整合模块 A(中层交叉注意力,本文) | LIBERO-Long | 最优——多模态信息传播最连续 |
| 整合模块 B(交叉+自注意力交替) | LIBERO-Long | 自注意力打断传播,掉点 |
| 整合模块 C(逐层注入不同深度特征) | LIBERO-Long | 各层条件不一致,掉点 |
| 整合模块 D(联合 KV 拼接) | LIBERO-Long | 条件特征跨层不一致,掉点 |
| 两阶段训练(本文) | Meta-World | 各难度全面优于单阶段 |
| 单阶段联合训练 | Meta-World | 注意力涣散、语义漂移,全面掉点 |
关键发现¶
- "信息传播连续性"是整合模块成败的关键:A 之所以赢,是因为同一份中层特征 + 状态被一致地喂给所有 DiT 层;B-D 要么插自注意力、要么各层用不同特征,破坏了这种连续性。
- 两阶段训练的收益主要来自"护住语义":注意力图直接显示单阶段会让模型注意到无关区域,两阶段则保持对物体/任务实体的聚焦——这解释了为什么它能在零机器人预训练下还泛化得好。
- 泛化鲁棒性:真机 Pick-and-Place 干扰实验里,Evo-1 在未见干扰物(80% vs SmolVLA 65%)、背景变色(75% vs 60%)、目标位移/高度变化下全面优于 SmolVLA,base 场景 95%。
- 小骨干 + 原生多模态 > 大骨干 + 事后对齐:InternVL3-1B 训练后注意力比 Prismatic-7B 更稳,印证了"原生对齐"对动作迁移的价值。
亮点与洞察¶
- 把"语义对齐"当成被保护的一等公民:多数 VLA 默认端到端训练,本文反过来先冻结骨干、用注意力图量化"语义漂移",把训练调度本身做成核心贡献,思路很干净。
- 纯交叉注意力 DiT 的反直觉选择:去掉自注意力反而更好,背后逻辑是"别打断多模态条件的连续传播"——这个观察可迁移到其他条件扩散策略的结构设计。
- 拼接而非投影:整合模块用 concat 保全 \(z_t\) 与 \(s_t\) 的完整信息,避免投影到共享空间造成的信息压缩,是个简单但有效的 trick。
- 工程友好:0.77B + 2.3GB 显存 + 16.4Hz,能跑在消费级 GPU 上做实时控制,对落地很有意义。
局限与展望¶
- 论文未对各设计点做更细粒度的解耦(如"原生多模态骨干"与"两阶段训练"各自贡献多少),目前只能看到整体 SOTA。
- ⚠️ 真机泛化实验只在单一 Pick-and-Place 任务上做干扰,干扰类型(距离/高度/背景/干扰物)相对受控,是否覆盖更剧烈的分布漂移待验证。
- 第 14 层取特征、保留前 14 层语言分支这些超参带有经验性("中间层对齐更强"引自他人工作),换骨干时是否仍最优需重新搜索。
- 仍依赖每任务数十~上百条演示,虽免了大规模机器人预训练,但 few-shot/zero-shot 到全新任务的能力尚未展示。
相关工作与启发¶
- vs OpenVLA:OpenVLA 用 7B Prismatic 骨干 + 离散动作建模 + OXE 大规模预训练;Evo-1 用 0.77B 原生多模态骨干 + 连续流匹配 + 零机器人预训练,参数小一个量级、注意力更稳,真机成功率 78% vs 55%。
- vs π0:π0 基于 PaliGemma + 流匹配动作专家,3.5B 且需机器人预训练;Evo-1 同样走流匹配但用纯交叉注意力 DiT、约 1/4 参数,仿真/真机均反超(Meta-World 80.6 vs 47.9,真机 78 vs 73)。
- vs SmolVLA/TinyVLA:同为亚十亿参数轻量 VLA,但它们在复杂操作上鲁棒性不足;Evo-1 靠"原生对齐骨干 + 护语义的两阶段训练"在难任务(very hard、LIBERO-long、RoboTwin hard)上拉开差距。
评分¶
- 新颖性: ⭐⭐⭐⭐ 组合式创新(原生骨干+纯交叉注意力DiT+两阶段训练),单点不算颠覆但"护语义"视角清晰
- 实验充分度: ⭐⭐⭐⭐⭐ 三仿真基准+真机四任务+效率/泛化/双消融,对比基线充分
- 写作质量: ⭐⭐⭐⭐ 结构清楚、注意力图佐证有力,部分设计动机偏经验性
- 价值: ⭐⭐⭐⭐⭐ 0.77B 实时可部署、零机器人预训练拿 SOTA,落地价值高且开源