Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging¶
会议: ICML 2025
arXiv: 2505.05464
代码: https://github.com/shiqichen17/VLM_Merging
领域: 多模态VLM
关键词: 模型融合, VLM推理, 感知与推理解耦, 跨模态迁移, 层级分析
一句话总结¶
通过将数学推理 LLM 的参数与 VLM 的文本部分直接加权平均(模型融合),在无需训练的情况下将推理能力迁移到 VLM,并发现感知能力集中在前层、推理能力集中在中后层的层级分布规律。
研究背景与动机¶
领域现状¶
领域现状:VLM 在视觉感知+语言任务上表现优秀,但在复杂多模态推理(如数学图表解读)上远落后于纯文本 LLM,部分原因是多模态推理数据匮乏。
现有痛点:提升 VLM 推理能力通常需要收集大量多模态推理数据并微调,成本高昂。
核心矛盾:感知和推理能力能否解耦?推理能力能否从 LLM 直接迁移到 VLM?
本文目标:探索模型融合作为跨模态能力迁移的途径。
切入角度:VLM 的文本部分与 LLM 共享相同架构和初始化,满足模型融合的连通子空间假设。
核心 idea:对 VLM 和数学 LLM 的文本参数做加权平均,实现零训练的推理能力迁移。
方法详解¶
整体框架¶
- 选择共享 base model 的 VLM(如 LLaVA-NeXT/8B)和数学 LLM(如 Dart-Math)
- 计算 task vector:\(\tau = W_{\text{math}} - W_{\text{base}}\)
- 融合:\(W_{\text{merged}} = W_{\text{VLM}} + \alpha \cdot \tau\)
- 直接使用融合后的模型,无需训练
关键设计¶
-
跨模态模型融合:
- 功能:将数学 LLM 的 task vector 加到 VLM 的文本部分参数上
- 核心思路:VLM 和 LLM 从相同 base model 微调,参数空间相连,加权平均可传递能力
- 设计动机:推理能力应编码在文本处理层,视觉编码器不变即可保持感知能力
-
层级能力分析(Knockout Analysis):
- 功能:逐层屏蔽融合参数,观察感知和推理的变化
- 核心发现:(a) 感知能力集中在前层(early layers); (b) 推理能力集中在中后层; (c) 融合后推理能力扩展到所有层,但感知分布不变
- 设计动机:理解融合如何在参数空间中影响不同能力
损失函数 / 训练策略¶
- 完全无训练(training-free)
- 融合系数 \(\alpha\) 通常在 0.3-0.7 之间最优
实验关键数据¶
主实验¶
| 模型 | MathVista (Math) | MathVerse (Vision-Only) | 感知任务 |
|---|---|---|---|
| LLaVA-NeXT | 38.2 | 21.3 | 78.5 |
| + Dart-Math 融合 | 41.8 (+3.6) | 22.7 (+1.4) | 78.1 (-0.4) |
| + MetaMath 融合 | 40.9 (+2.7) | 22.0 (+0.7) | 78.3 (-0.2) |
消融实验¶
| 配置 | Math↑ | Perception | 说明 |
|---|---|---|---|
| 仅前层融合 | +0.8 | 不变 | 前层主要编码感知 |
| 仅中后层融合 | +3.1 | 不变 | 推理主要在中后层 |
| 全层融合 | +3.6 | 微降 | 最佳但感知略受影响 |
| \(\alpha=0.3\) | +2.1 | 不变 | 保守融合 |
| \(\alpha=0.7\) | +3.6 | -0.8 | 激进融合 |
关键发现¶
- 模型融合可在多个 VLM(LLaVA、Idefics2、InternVL2)和多个数学 LLM 上一致提升推理
- 感知和推理在参数空间中确实大致解耦——前者在前层,后者在中后层
- 融合改变了推理的层分布(扩展到所有层),但感知分布保持不变
亮点与洞察¶
- 零训练能力迁移极其实用——只需参数加权平均,成本几乎为零
- 层级能力分布的发现对理解 VLM 内部机制有重要价值
- 为"模型融合作为多模态集成工具"开辟了新方向
局限与展望¶
- 要求 VLM 和 LLM 共享 base model,限制了适用范围
- 仅测试数学推理,其他类型推理(逻辑、常识)未验证
- 感知任务的轻微下降在更激进融合时可能加剧
- 未探索更复杂的融合策略(如 TIES、DARE)
相关工作与启发¶
- vs 传统模型融合: 之前只融合同类模型,本文首次跨模态融合
- vs 推理数据微调: 需要大量多模态推理数据,本文零数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 跨模态模型融合+层级分析的组合新颖
- 实验充分度: ⭐⭐⭐⭐ 多VLM、多LLM、层级消融充分
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,分析深入
- 价值: ⭐⭐⭐⭐⭐ 实用且有洞察力