Scaling Laws for Native Multimodal Models¶

会议: ICCV 2025 (Oral)
arXiv: 2504.07951
代码: 无
领域: 多模态VLM / Scaling Laws
关键词: native multimodal, early fusion, late fusion, scaling laws, MoE

一句话总结¶

通过训练457个不同架构、规模和训练配比的模型，系统研究Native Multimodal Models（NMM）的scaling law，发现early-fusion架构（不依赖预训练视觉编码器）在小参数规模时优于late-fusion，训练更高效，部署更简单，引入MoE可进一步显著提升性能。

研究背景与动机¶

领域现状：当前主流VLM（如LLaVA、InternVL）采用late-fusion架构——先独立预训练视觉编码器（如CLIP-ViT）和LLM，再通过connector连接进行多模态训练。这种方式的样本效率高，但它是否在架构上inherently更优一直是开放问题。

现有痛点：(1) late-fusion架构的视觉编码器带来固定分辨率/宽高比约束，且多组件协调增加工程复杂度；(2) Native Multimodal Models（NMM）从零开始在所有模态上训练，但缺乏系统性的架构对比和scaling law研究；(3) 社区默认late-fusion更优，但缺乏充分实证。

核心矛盾：在计算预算固定的前提下，NMM应该选择early-fusion还是late-fusion架构？不同规模和数据量下的scaling行为如何？

切入角度：大规模实证研究——训练457个模型覆盖不同架构×规模×数据配比×MoE配置，通过拟合scaling law给出定量结论。

方法详解¶

整体框架¶

这是一项系统性实证研究。作者覆盖了以下维度：

架构：(a) Early-fusion：无视觉编码器，原始图像patch直接输入统一Transformer；(b) Late-fusion：使用预训练视觉编码器（如CLIP-ViT）+ connector + LLM；(c) 视觉Tokenizer：先将图像离散化为token序列再输入
模型规模：从小到大的多种参数量配置
训练数据：不同的图文数据混合比例
MoE配置：不同专家数和激活比例

通过标准power law拟合各配置下的validation loss关于模型参数和训练token数的关系。

关键设计¶

Early-fusion vs Late-fusion的系统对比
- 核心发现：在相同参数量和训练数据下，early-fusion不比late-fusion差——这直接挑战了"CLIP+LLM是最优范式"的社区共识
- 进一步发现：在较小参数规模时，early-fusion实际上更优——因为它不需要为视觉编码器分配额外参数和计算
- Early-fusion的优势：(a) 训练更高效——不需先独立预训练视觉组件；(b) 部署更简单——只有一个统一模型；(c) 更灵活——不受视觉编码器分辨率/宽高比限制
MoE for NMM
- 将Mixture of Experts引入NMM，允许模型为不同模态学习特定的权重路径
- 设计动机：模态间的干扰是NMM的核心挑战——视觉和文本的训练信号可能相互冲突，MoE提供了高效的隐式解耦
- MoE在early-fusion架构上的提升尤为显著——进一步证实了模态解耦的重要性
视觉Tokenizer的劣势
- 离散化视觉token方案表现最差——信息在量化过程中不可恢复地损失
- 这为"连续vs离散视觉表示"的争论提供了scaling角度的实证

损失函数 / 训练策略¶

标准的next-token prediction用于文本，不同架构变体有不同的视觉损失配置。Scaling law使用标准power law形式：\(L(N,D) = aN^{-\alpha} + bD^{-\beta} + c\)，其中\(N\)为参数量，\(D\)为训练token数。

实验关键数据¶

主实验¶

发现	具体数据
总训练模型数	457个，覆盖多种架构×规模×数据配比×MoE配置
Early-fusion vs Late-fusion	小规模：early-fusion优于late-fusion；大规模：两者持平
Early-fusion效率	达到相同validation loss所需的训练FLOPs更少
MoE提升	在各架构变体上一致带来显著性能提升
视觉Tokenizer	所有规模下均劣于连续表示方案

消融实验¶

因素	关键观察
数据混合比例	early-fusion对视觉数据比例更敏感，需要更多视觉数据
MoE专家数	存在最优区间，过多专家在小规模下反而退化
模型规模	early-fusion的优势随规模增大逐渐缩小但不反转
Scaling law外推	小规模实验可较准确预测大规模训练结果

关键发现¶

最核心结论：late-fusion架构没有先天优势——early-fusion在可比设置下表现相当甚至更好
Scaling law可以从小模型准确外推到大模型——降低了NMM研究的试错成本
MoE是NMM的关键组件——通过模态特定路由有效缓解模态干扰
28张图表+13张表格的极其详尽分析，为NMM架构选择提供了全面的实证基础

亮点与洞察¶

ICCV Oral，457模型规模的系统研究前所未有，为NMM领域建立了科学基础
"预训练视觉编码器并非必要"的发现是paradigm-level的贡献——与EVEv2和Web-SSL的发现形成闭环
Scaling law使NMM研究从"试错"走向"预测"——用小模型实验预测大模型行为，大幅降低成本
Apple出品（Joshua Susskind），体现了产业界对NMM方向的重视

局限与展望¶

虽有457个模型，但最大规模仍受计算资源限制——超大规模（100B+）的外推可靠性未验证
尚未在text-to-image/video generation任务上验证scaling law
数据质量的影响未充分探讨——高质量标注可能改变早期/晚期融合的相对优势
未提供开源模型或训练代码，可复现性受限

评分¶

新颖性: ⭐⭐⭐⭐⭐ 457模型的大规模实证研究前所未有，early-fusion不输late-fusion的发现是paradigm-level贡献
实验充分度: ⭐⭐⭐⭐⭐ 28图13表，覆盖架构/规模/数据/MoE的全方位分析
写作质量: ⭐⭐⭐⭐⭐ Oral水准的科学叙事，结论清晰有力
价值: ⭐⭐⭐⭐⭐ 对VLM社区架构选择有深远指导意义，Scaling law为NMM研究建立了科学基础