Scaling Laws for Native Multimodal Models¶
会议: ICCV 2025 (Oral)
arXiv: 2504.07951
代码: 无
领域: 多模态VLM / Scaling Laws
关键词: native multimodal, early fusion, late fusion, scaling laws, MoE
一句话总结¶
通过训练457个不同架构、规模和训练配比的模型,系统研究Native Multimodal Models(NMM)的scaling law,发现early-fusion架构(不依赖预训练视觉编码器)在小参数规模时优于late-fusion,训练更高效,部署更简单,引入MoE可进一步显著提升性能。
研究背景与动机¶
领域现状:当前主流VLM(如LLaVA、InternVL)采用late-fusion架构——先独立预训练视觉编码器(如CLIP-ViT)和LLM,再通过connector连接进行多模态训练。这种方式的样本效率高,但它是否在架构上inherently更优一直是开放问题。
现有痛点:(1) late-fusion架构的视觉编码器带来固定分辨率/宽高比约束,且多组件协调增加工程复杂度;(2) Native Multimodal Models(NMM)从零开始在所有模态上训练,但缺乏系统性的架构对比和scaling law研究;(3) 社区默认late-fusion更优,但缺乏充分实证。
核心矛盾:在计算预算固定的前提下,NMM应该选择early-fusion还是late-fusion架构?不同规模和数据量下的scaling行为如何?
切入角度:大规模实证研究——训练457个模型覆盖不同架构×规模×数据配比×MoE配置,通过拟合scaling law给出定量结论。
方法详解¶
整体框架¶
这是一项系统性实证研究。作者覆盖了以下维度:
- 架构:(a) Early-fusion:无视觉编码器,原始图像patch直接输入统一Transformer;(b) Late-fusion:使用预训练视觉编码器(如CLIP-ViT)+ connector + LLM;(c) 视觉Tokenizer:先将图像离散化为token序列再输入
- 模型规模:从小到大的多种参数量配置
- 训练数据:不同的图文数据混合比例
- MoE配置:不同专家数和激活比例
通过标准power law拟合各配置下的validation loss关于模型参数和训练token数的关系。
关键设计¶
-
Early-fusion vs Late-fusion的系统对比
- 核心发现:在相同参数量和训练数据下,early-fusion不比late-fusion差——这直接挑战了"CLIP+LLM是最优范式"的社区共识
- 进一步发现:在较小参数规模时,early-fusion实际上更优——因为它不需要为视觉编码器分配额外参数和计算
- Early-fusion的优势:(a) 训练更高效——不需先独立预训练视觉组件;(b) 部署更简单——只有一个统一模型;(c) 更灵活——不受视觉编码器分辨率/宽高比限制
-
MoE for NMM
- 将Mixture of Experts引入NMM,允许模型为不同模态学习特定的权重路径
- 设计动机:模态间的干扰是NMM的核心挑战——视觉和文本的训练信号可能相互冲突,MoE提供了高效的隐式解耦
- MoE在early-fusion架构上的提升尤为显著——进一步证实了模态解耦的重要性
-
视觉Tokenizer的劣势
- 离散化视觉token方案表现最差——信息在量化过程中不可恢复地损失
- 这为"连续vs离散视觉表示"的争论提供了scaling角度的实证
损失函数 / 训练策略¶
标准的next-token prediction用于文本,不同架构变体有不同的视觉损失配置。Scaling law使用标准power law形式:\(L(N,D) = aN^{-\alpha} + bD^{-\beta} + c\),其中\(N\)为参数量,\(D\)为训练token数。
实验关键数据¶
主实验¶
| 发现 | 具体数据 |
|---|---|
| 总训练模型数 | 457个,覆盖多种架构×规模×数据配比×MoE配置 |
| Early-fusion vs Late-fusion | 小规模:early-fusion优于late-fusion;大规模:两者持平 |
| Early-fusion效率 | 达到相同validation loss所需的训练FLOPs更少 |
| MoE提升 | 在各架构变体上一致带来显著性能提升 |
| 视觉Tokenizer | 所有规模下均劣于连续表示方案 |
消融实验¶
| 因素 | 关键观察 |
|---|---|
| 数据混合比例 | early-fusion对视觉数据比例更敏感,需要更多视觉数据 |
| MoE专家数 | 存在最优区间,过多专家在小规模下反而退化 |
| 模型规模 | early-fusion的优势随规模增大逐渐缩小但不反转 |
| Scaling law外推 | 小规模实验可较准确预测大规模训练结果 |
关键发现¶
- 最核心结论:late-fusion架构没有先天优势——early-fusion在可比设置下表现相当甚至更好
- Scaling law可以从小模型准确外推到大模型——降低了NMM研究的试错成本
- MoE是NMM的关键组件——通过模态特定路由有效缓解模态干扰
- 28张图表+13张表格的极其详尽分析,为NMM架构选择提供了全面的实证基础
亮点与洞察¶
- ICCV Oral,457模型规模的系统研究前所未有,为NMM领域建立了科学基础
- "预训练视觉编码器并非必要"的发现是paradigm-level的贡献——与EVEv2和Web-SSL的发现形成闭环
- Scaling law使NMM研究从"试错"走向"预测"——用小模型实验预测大模型行为,大幅降低成本
- Apple出品(Joshua Susskind),体现了产业界对NMM方向的重视
局限与展望¶
- 虽有457个模型,但最大规模仍受计算资源限制——超大规模(100B+)的外推可靠性未验证
- 尚未在text-to-image/video generation任务上验证scaling law
- 数据质量的影响未充分探讨——高质量标注可能改变早期/晚期融合的相对优势
- 未提供开源模型或训练代码,可复现性受限
相关工作与启发¶
- vs EVEv2:EVEv2专注于encoder-free VLM的最优训练策略(Divide-and-Conquer);本文提供更系统的架构对比和scaling law——高度互补
- vs Chinchilla/Kaplan scaling laws:将LLM的scaling law方法论扩展到多模态,填补了NMM的关键空白
- vs Mono-InternVL:Mono-InternVL是encoder-free VLM的工程实践;本文是系统性的科学研究
- 启发:如果early-fusion NMM足够好,那么整个VLM社区的默认范式(CLIP+LLM)可能需要重新审视
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 457模型的大规模实证研究前所未有,early-fusion不输late-fusion的发现是paradigm-level贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 28图13表,覆盖架构/规模/数据/MoE的全方位分析
- 写作质量: ⭐⭐⭐⭐⭐ Oral水准的科学叙事,结论清晰有力
- 价值: ⭐⭐⭐⭐⭐ 对VLM社区架构选择有深远指导意义,Scaling law为NMM研究建立了科学基础