MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent¶

会议: CVPR 2026
arXiv: 2511.18810
代码: 项目主页
领域: 机器人操控 / VLA模型 / 模型合并
关键词: Vision-Language-Action, 模型合并, 多任务机器人, task mask, 跨技能泛化

一句话总结¶

MergeVLA 通过诊断 VLA 模型不可合并的两大根因（LoRA 参数冲突 + action expert 自注意力导致的架构不兼容），设计了稀疏激活的 task mask 和去除自注意力的 action expert 架构，实现了多个单任务 VLA 专家的免训练合并，在 LIBERO 上达到 90.2%、真机 SO101 上 90.0% 成功率。

研究背景与动机¶

领域现状：VLA（Vision-Language-Action）模型通过微调 VLM 做机器人操控，单任务效果优异但无法泛化多任务。模型合并（model merging）在 LLM/VLM 领域已证明有效。

现有痛点：

直接合并 VLA 专家会导致成功率降为零——这在 LLM/VLM 合并中从未出现过
合并 4 个任务时，75% 以上的 LoRA 参数是"自私"的（仅被一个任务保留），参数冲突极度严重
Action expert 中自注意力层在训练中积累强烈的任务依赖，使深层块参数距离爆炸式增长，破坏模块化可组合性

核心矛盾：VLA 模型的 LoRA 参数在不同任务间极度分化，action expert 的自注意力传播了任务专属信息到所有层——两者叠加导致现有合并方法完全失效。

本文目标 设计一种"为合并而生"的 VLA 架构，让多个单任务专家可以高效合并为一个通才模型。

切入角度：先精确诊断失败的两个根因，再针对性设计解决方案——task mask 解决参数冲突，去自注意力解决架构不兼容。

核心 idea：通过稀疏激活的 task mask 抑制 LoRA 冲突参数 + 删除 action expert 的自注意力层消除任务依赖传播，使 VLA 模型"天生可合并"。

方法详解¶

整体框架¶

MergeVLA 基于 VLA-Adapter 架构（Qwen2.5-0.5B 作为 VLM backbone），做了三个关键改造：(1) VLM 的 LoRA 加 task-specific binary mask 解决参数冲突；(2) action expert 去除所有自注意力层、只保留交叉注意力；(3) 推理时用免训练的 task router 自动判断当前任务。各任务独立微调后，合并阶段完全免训练。

关键设计¶

Task Mask（解决 LoRA 参数冲突）
- 功能：为每个任务构建 binary mask，选择性激活与该任务一致的合并参数，抑制冲突参数
- 核心思路：对每个参数位置，检查任务向量是否与合并向量方向一致且显著：S_m = I[|tau_m| > lambda * |tau_merge - tau_m|]，其中 lambda 控制容忍度
- 实际效果：合并 4 个任务时自私参数占比超过 75%，mask 保留有益参数、抑制冲突，同时促使部分参数回退到预训练权重减轻视觉遗忘
- 设计动机：直接合并会激活与当前任务无关甚至矛盾的参数，mask 实现了参数的选择性激活
去自注意力的 Action Expert（解决架构不兼容）
- 功能：重新设计 action expert 架构使其天生可合并
- 核心思路：(a) 删除所有自注意力层，只保留交叉注意力——迫使 expert 依赖 VLM 的鲁棒特征；(b) 把 tanh gate 换成 sigmoid gate，避免负激活抑制 VLM 信号
- 浅层块直接用权重平均合并，最后一层（expert head）保持任务独立不合并
- 设计动机：自注意力在从头训练中积累任务偏差且跨层传播，删除后强制依赖预训练 VLM 特征反而提升泛化性（OOD 上 +13.4%）
Test-time Task Router（免训练任务推断）
- 功能：在任务身份未知时自动判断当前任务并选择对应的 mask 和 expert head
- 核心思路：对每个候选任务 m，用对应 task mask 构建 VLM 变体 → 提取隐状态 → 投影到 action expert value 矩阵的 top-k_r 右奇异向量子空间 → 计算激活强度 → softmax 选最高分任务
- 只需在 t=0 做一次路由，后续固定
- 设计动机：value 子空间直接编码任务依赖信息，比 query/key 更稳定和区分性

损失函数 / 训练策略¶

各任务独立用标准模仿学习训练（30k-50k 步，batch size 8，LoRA rank 32）
合并阶段完全免训练：用 TIES/TA/WUDI 等方法合并 LoRA + 权重平均 action expert 浅层 + 保留各任务 expert head
设备：单卡 NVIDIA A6000 Ada 48GB

实验关键数据¶

主实验¶

方法	数据集	平均成功率(%)	对比
MergeVLA (TIES+Mask)	LIBERO (4 suites)	90.2	单任务微调上限 96.7%（-6.5pp）
MergeVLA	LIBERO-Plus (OOD)	62.5	VLA-Adapter 59.0%（同为单任务微调）
MergeVLA	RoboTwin (跨具身)	70.7	单任务微调上限 76.0%（-5.3pp）
MergeVLA	SO101 真机 (3 tasks)	90.0	与单任务微调持平

方法	Params(B)	Spatial	Object	Goal	Long	Avg
OpenVLA (TA 合并)	7	0.0	0.0	0.0	0.0	0.0
OpenVLA (TA+Mask)	7	74.2	82.6	68.8	24.0	62.4
VLA-Adapter (TA+Mask)	0.68	0.0	0.0	0.0	0.0	0.0
MergeVLA (TIES+Mask)	0.70	94.8	94.6	91.8	79.4	90.2

消融实验¶

配置	LIBERO Avg	说明
仅 Mask（不改 action expert）	0.0%	mask 必要但不充分
仅去自注意力（无 mask）	65.5%	架构改造有效但需配合 mask
去自注意力 + Mask	90.2%	两者缺一不可
lambda=0.6~0.9	>70%	最佳容忍度区间
路由用 Value	89.7%	最稳定
路由用 Key	下降严重	某些任务直接 0%
去自注意力（LIBERO-Plus OOD）	+13.4%	仅此一项修改就大幅提升泛化性

关键发现¶

Task mask + 去自注意力缺一不可：前者解决 VLM 参数冲突，后者解决 action expert 不可组合
仅删除自注意力就在 OOD 上提升 13.4%，自注意力是泛化性的主要瓶颈
Value 子空间做路由远优于 Query/Key
真机实验中合并模型与单任务微调持平（90.0%），证明实用可行

亮点与洞察¶

诊断式研究范式非常优雅：先用实验精确定位两个根因，再针对性设计解决方案
架构修改极简但效果显著——去自注意力 + 换门控函数就大幅提升泛化性
Test-time task router 完全免训练，利用 Value 子空间的 SVD 做任务判别
真机 SO101 上合并后性能等同单任务微调（90%），实用价值高

局限与展望¶

每个任务仍需保留一个 expert head 和 task mask，任务数增多时存储线性增长
VLM backbone 只用了 0.5B 的 Qwen2.5，更大模型（7B+）的有效性未验证
路由只在 t=0 做一次判断，需中途切换技能的长序列任务可能不够
跨具身实验规模较小（3 种机器人），大规模异构合并的可扩展性待验证

评分¶

新颖性: ⭐⭐⭐⭐ 诊断+设计的范式清晰，但每个技术点本身不算全新
实验充分度: ⭐⭐⭐⭐⭐ 三个仿真 benchmark + 真机实验 + 丰富的消融和分析
写作质量: ⭐⭐⭐⭐⭐ 叙事逻辑清晰，从诊断到解决方案层层递进
价值: ⭐⭐⭐⭐ 解决了 VLA 合并的关键问题，对机器人多技能学习有实际意义