MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent¶
会议: CVPR 2026
arXiv: 2511.18810
代码: 项目主页
领域: 机器人操控 / VLA模型 / 模型合并
关键词: Vision-Language-Action, 模型合并, 多任务机器人, task mask, 跨技能泛化
一句话总结¶
MergeVLA 通过诊断 VLA 模型不可合并的两大根因(LoRA 参数冲突 + action expert 自注意力导致的架构不兼容),设计了稀疏激活的 task mask 和去除自注意力的 action expert 架构,实现了多个单任务 VLA 专家的免训练合并,在 LIBERO 上达到 90.2%、真机 SO101 上 90.0% 成功率。
研究背景与动机¶
领域现状:VLA(Vision-Language-Action)模型通过微调 VLM 做机器人操控,单任务效果优异但无法泛化多任务。模型合并(model merging)在 LLM/VLM 领域已证明有效。
现有痛点:
- 直接合并 VLA 专家会导致成功率降为零——这在 LLM/VLM 合并中从未出现过
- 合并 4 个任务时,75% 以上的 LoRA 参数是"自私"的(仅被一个任务保留),参数冲突极度严重
- Action expert 中自注意力层在训练中积累强烈的任务依赖,使深层块参数距离爆炸式增长,破坏模块化可组合性
核心矛盾:VLA 模型的 LoRA 参数在不同任务间极度分化,action expert 的自注意力传播了任务专属信息到所有层——两者叠加导致现有合并方法完全失效。
本文目标 设计一种"为合并而生"的 VLA 架构,让多个单任务专家可以高效合并为一个通才模型。
切入角度:先精确诊断失败的两个根因,再针对性设计解决方案——task mask 解决参数冲突,去自注意力解决架构不兼容。
核心 idea:通过稀疏激活的 task mask 抑制 LoRA 冲突参数 + 删除 action expert 的自注意力层消除任务依赖传播,使 VLA 模型"天生可合并"。
方法详解¶
整体框架¶
MergeVLA 基于 VLA-Adapter 架构(Qwen2.5-0.5B 作为 VLM backbone),做了三个关键改造:(1) VLM 的 LoRA 加 task-specific binary mask 解决参数冲突;(2) action expert 去除所有自注意力层、只保留交叉注意力;(3) 推理时用免训练的 task router 自动判断当前任务。各任务独立微调后,合并阶段完全免训练。
关键设计¶
-
Task Mask(解决 LoRA 参数冲突)
- 功能:为每个任务构建 binary mask,选择性激活与该任务一致的合并参数,抑制冲突参数
- 核心思路:对每个参数位置,检查任务向量是否与合并向量方向一致且显著:S_m = I[|tau_m| > lambda * |tau_merge - tau_m|],其中 lambda 控制容忍度
- 实际效果:合并 4 个任务时自私参数占比超过 75%,mask 保留有益参数、抑制冲突,同时促使部分参数回退到预训练权重减轻视觉遗忘
- 设计动机:直接合并会激活与当前任务无关甚至矛盾的参数,mask 实现了参数的选择性激活
-
去自注意力的 Action Expert(解决架构不兼容)
- 功能:重新设计 action expert 架构使其天生可合并
- 核心思路:(a) 删除所有自注意力层,只保留交叉注意力——迫使 expert 依赖 VLM 的鲁棒特征;(b) 把 tanh gate 换成 sigmoid gate,避免负激活抑制 VLM 信号
- 浅层块直接用权重平均合并,最后一层(expert head)保持任务独立不合并
- 设计动机:自注意力在从头训练中积累任务偏差且跨层传播,删除后强制依赖预训练 VLM 特征反而提升泛化性(OOD 上 +13.4%)
-
Test-time Task Router(免训练任务推断)
- 功能:在任务身份未知时自动判断当前任务并选择对应的 mask 和 expert head
- 核心思路:对每个候选任务 m,用对应 task mask 构建 VLM 变体 → 提取隐状态 → 投影到 action expert value 矩阵的 top-k_r 右奇异向量子空间 → 计算激活强度 → softmax 选最高分任务
- 只需在 t=0 做一次路由,后续固定
- 设计动机:value 子空间直接编码任务依赖信息,比 query/key 更稳定和区分性
损失函数 / 训练策略¶
- 各任务独立用标准模仿学习训练(30k-50k 步,batch size 8,LoRA rank 32)
- 合并阶段完全免训练:用 TIES/TA/WUDI 等方法合并 LoRA + 权重平均 action expert 浅层 + 保留各任务 expert head
- 设备:单卡 NVIDIA A6000 Ada 48GB
实验关键数据¶
主实验¶
| 方法 | 数据集 | 平均成功率(%) | 对比 |
|---|---|---|---|
| MergeVLA (TIES+Mask) | LIBERO (4 suites) | 90.2 | 单任务微调上限 96.7%(-6.5pp) |
| MergeVLA | LIBERO-Plus (OOD) | 62.5 | VLA-Adapter 59.0%(同为单任务微调) |
| MergeVLA | RoboTwin (跨具身) | 70.7 | 单任务微调上限 76.0%(-5.3pp) |
| MergeVLA | SO101 真机 (3 tasks) | 90.0 | 与单任务微调持平 |
| 方法 | Params(B) | Spatial | Object | Goal | Long | Avg |
|---|---|---|---|---|---|---|
| OpenVLA (TA 合并) | 7 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| OpenVLA (TA+Mask) | 7 | 74.2 | 82.6 | 68.8 | 24.0 | 62.4 |
| VLA-Adapter (TA+Mask) | 0.68 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| MergeVLA (TIES+Mask) | 0.70 | 94.8 | 94.6 | 91.8 | 79.4 | 90.2 |
消融实验¶
| 配置 | LIBERO Avg | 说明 |
|---|---|---|
| 仅 Mask(不改 action expert) | 0.0% | mask 必要但不充分 |
| 仅去自注意力(无 mask) | 65.5% | 架构改造有效但需配合 mask |
| 去自注意力 + Mask | 90.2% | 两者缺一不可 |
| lambda=0.6~0.9 | >70% | 最佳容忍度区间 |
| 路由用 Value | 89.7% | 最稳定 |
| 路由用 Key | 下降严重 | 某些任务直接 0% |
| 去自注意力(LIBERO-Plus OOD) | +13.4% | 仅此一项修改就大幅提升泛化性 |
关键发现¶
- Task mask + 去自注意力缺一不可:前者解决 VLM 参数冲突,后者解决 action expert 不可组合
- 仅删除自注意力就在 OOD 上提升 13.4%,自注意力是泛化性的主要瓶颈
- Value 子空间做路由远优于 Query/Key
- 真机实验中合并模型与单任务微调持平(90.0%),证明实用可行
亮点与洞察¶
- 诊断式研究范式非常优雅:先用实验精确定位两个根因,再针对性设计解决方案
- 架构修改极简但效果显著——去自注意力 + 换门控函数就大幅提升泛化性
- Test-time task router 完全免训练,利用 Value 子空间的 SVD 做任务判别
- 真机 SO101 上合并后性能等同单任务微调(90%),实用价值高
局限与展望¶
- 每个任务仍需保留一个 expert head 和 task mask,任务数增多时存储线性增长
- VLM backbone 只用了 0.5B 的 Qwen2.5,更大模型(7B+)的有效性未验证
- 路由只在 t=0 做一次判断,需中途切换技能的长序列任务可能不够
- 跨具身实验规模较小(3 种机器人),大规模异构合并的可扩展性待验证
相关工作与启发¶
- vs OpenVLA:直接合并完全失败(0%),因 LM body 的任务冲突无法通过简单方法解决。MergeVLA 用 task mask 绕过了问题
- vs VLA-Adapter:自注意力导致 action expert 不可合并,即使加 mask 也失败。MergeVLA 从架构上消除障碍
- vs pi0/pi0.5:大规模 VLA 依赖联合训练实现多任务,成本高昂。MergeVLA 允许独立训练再合并,更灵活
- 启发:"去自注意力提升泛化性"值得关注——其他从头训练的模块是否也存在类似现象?可探索扩展到连续技能学习场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 诊断+设计的范式清晰,但每个技术点本身不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 三个仿真 benchmark + 真机实验 + 丰富的消融和分析
- 写作质量: ⭐⭐⭐⭐⭐ 叙事逻辑清晰,从诊断到解决方案层层递进
- 价值: ⭐⭐⭐⭐ 解决了 VLA 合并的关键问题,对机器人多技能学习有实际意义