Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging¶

会议: ICML 2025
arXiv: 2505.05464
代码: https://github.com/shiqichen17/VLM_Merging
领域: 多模态VLM
关键词: 模型融合, VLM推理, 感知与推理解耦, 跨模态迁移, 层级分析

一句话总结¶

通过将数学推理 LLM 的参数与 VLM 的文本部分直接加权平均（模型融合），在无需训练的情况下将推理能力迁移到 VLM，并发现感知能力集中在前层、推理能力集中在中后层的层级分布规律。

领域现状：VLM 在视觉感知+语言任务上表现优秀，但在复杂多模态推理（如数学图表解读）上远落后于纯文本 LLM，部分原因是多模态推理数据匮乏。

现有痛点：提升 VLM 推理能力通常需要收集大量多模态推理数据并微调，成本高昂。

核心矛盾：感知和推理能力能否解耦？推理能力能否从 LLM 直接迁移到 VLM？

本文目标：探索模型融合作为跨模态能力迁移的途径。

切入角度：VLM 的文本部分与 LLM 共享相同架构和初始化，满足模型融合的连通子空间假设。

核心 idea：对 VLM 和数学 LLM 的文本参数做加权平均，实现零训练的推理能力迁移。

跨模态模型融合:
- 功能：将数学 LLM 的 task vector 加到 VLM 的文本部分参数上
- 核心思路：VLM 和 LLM 从相同 base model 微调，参数空间相连，加权平均可传递能力
- 设计动机：推理能力应编码在文本处理层，视觉编码器不变即可保持感知能力
层级能力分析（Knockout Analysis）:
- 功能：逐层屏蔽融合参数，观察感知和推理的变化
- 核心发现：(a) 感知能力集中在前层（early layers）; (b) 推理能力集中在中后层; (c) 融合后推理能力扩展到所有层，但感知分布不变
- 设计动机：理解融合如何在参数空间中影响不同能力

模型	MathVista (Math)	MathVerse (Vision-Only)	感知任务
LLaVA-NeXT	38.2	21.3	78.5
+ Dart-Math 融合	41.8 (+3.6)	22.7 (+1.4)	78.1 (-0.4)
+ MetaMath 融合	40.9 (+2.7)	22.0 (+0.7)	78.3 (-0.2)

配置	Math↑	Perception	说明
仅前层融合	+0.8	不变	前层主要编码感知
仅中后层融合	+3.1	不变	推理主要在中后层
全层融合	+3.6	微降	最佳但感知略受影响
\(\alpha=0.3\)	+2.1	不变	保守融合
\(\alpha=0.7\)	+3.6	-0.8	激进融合