MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data and Training Recipes¶
会议: CVPR 2026
论文: CVF Open Access
代码: 有(MiniCPM-V Code and Model,官方开源)
领域: 多模态VLM / MLLM效率
关键词: 高效MLLM、3D-Resampler、文档OCR统一学习、混合强化学习、长视频理解
一句话总结¶
MiniCPM-V 4.5 用「统一 3D-Resampler 压缩视觉 token + 动态损坏统一文档/OCR 学习 + 短长双模式混合 RL」三招把一个 8B MLLM 做到既高效又强,在 OpenCompass 上以 77.0 分超过 GPT-4o-latest 和 Qwen2.5-VL 72B,且 VideoMME 推理只用约 10% 的时间。
研究背景与动机¶
领域现状:多模态大模型(MLLM)正快速进步,但训练与推理的成本(GPU 显存、算力、数据工程)随能力增长而急剧上升,效率已成为「把强模型做得人人可用、可规模化」的核心瓶颈。作者把效率问题拆成三块:模型架构、训练数据、训练方法。
现有痛点:(1)架构层——高分辨率图像编码会产生大量视觉 token,视频更夸张:一段 6 秒、2fps、448×448 的低清视频,Qwen2.5-VL 要 1,536 个 token、InternVL3 要 3,072 个 token,长序列直接把训练/推理成本拉爆。(2)数据层——现代 MLLM 越来越依赖文档(论文、教材 PDF)里的高质量多学科知识,但主流做法是先用脆弱的外部解析器把 PDF 转成图文交错序列,复杂排版下经常出错(如把图注放到对应图片之前、让图片"不可见"),要么学错知识、要么得花大量人力修 bug。(3)训练层——RL 能提升复杂推理,但代价是输出极度啰嗦,连"这是什么明显物体"这种简单任务都要写一大段思考,训练和推理都低效。
核心矛盾:能力提升与效率之间存在系统性 trade-off——更高分辨率/更多帧、更多文档知识、更强推理,都意味着更多 token、更重的数据流水线、更长的输出。
本文目标:在 8B 规模上同时拿下三件事——视觉 token 高度压缩、文档知识/OCR 不依赖解析器、推理可控不冗长。
切入角度:作者不追求"把单个组件做复杂",而是用尽量简单、可统一的设计去吃掉冗余(视频的时空冗余、文档解析的中间环节、长短推理的重复训练)。
核心 idea:用一套统一架构(3D-Resampler 同时编码图像与视频)+ 一个统一学习目标(从损坏文档图像预测原文)+ 一种混合 RL(短长模式联合优化),把效率瓶颈逐个打掉。
方法详解¶
整体框架¶
MiniCPM-V 4.5 是一个 8B MLLM,推理侧由三个模块串成:轻量视觉编码器(像素→视觉特征)→ 统一 3D-Resampler(把图像/视频压成紧凑 token,吃掉时空冗余)→ LLM 解码器(理解图/视频/文本并生成文本,可在"短推理"和"长推理"两种风格间切换)。其中 3D-Resampler 对图像最高 16× 压缩、对视频在此基础上再 6× 压缩。
训练侧是一条"烹饪配方":预训练(三阶段渐进解冻,约 620B token,内嵌统一文档/OCR 学习)→ SFT(90B token,并在此阶段把 2D-Resampler 轻量升级成 3D-Resampler)→ 混合 RL 后训练(658k prompt,短长模式联合优化)。三个核心设计分别落在架构、数据、训练三条线上。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:高分辨率图像 / 高帧率长视频"] --> B["视觉编码器"]
B --> C["统一 3D-Resampler<br/>时空联合压缩"]
C --> D["LLM 解码器"]
E["预训练:统一文档/OCR 学习<br/>动态视觉损坏"] --> F["SFT:2D→3D Resampler 升级"]
F --> G["混合 RL 后训练<br/>短/长推理联合优化"]
G --> D
D -->|短推理模式| H["简洁回答"]
D -->|长推理模式| I["逐步思考"]
关键设计¶
1. 统一 3D-Resampler:用一套权重把图像和视频都压成紧凑 token
视觉 token 太多是 MLLM 的首要效率瓶颈,视频尤甚。作者把图像用的 2D-Resampler 扩展成 3D-Resampler:图像侧沿用 LLaVA-UHD 的切片策略,对每个 slice 用带 2D 空间位置编码的可学习 query 通过 cross-attention 产生定长序列(如 448×448 图只用 64 token);视频侧先沿时间维把帧分成若干"包"(package),同一个包内相邻帧视觉信息高度冗余,于是对每个包的帧特征用 cross-attention 重采样成定长序列,query 同时带 2D 空间位置编码和时间位置编码,最后把所有包的 token 拼起来。相比 2D-Resampler 额外拿到约 6× 的时间压缩,一段 6 秒、2fps、448×448 的视频只需 128 个 token,比代表性 MLLM 低 12×–24×。因为 resampler 对输入形状不敏感,图像和视频可以共享同一套架构与权重,所以从 2D 升到 3D 只需在 SFT 阶段用少量高质量视频数据轻量过一遍。作者还发现这种"简单架构"反而略胜专门设计的视频压缩方法 QuicksViewer,体现了简单设计的可扩展优势。
2. 统一文档/OCR 学习:用动态视觉损坏把"认字"和"理解文档知识"合成一个目标
为了甩开脆弱的外部 PDF 解析器,作者提出一个洞察:文档知识获取与文字识别的最大区别,仅在于文字在图像里是否可见。于是把两者统一成单一目标——从损坏的文档图像预测原始文本。对每个文档,取一部分文字区域当 ground truth,再随机施加不同强度的损坏:① 低损坏(增强 OCR)——文字仍可辨认,模型靠文字识别就能预测;② 中损坏(融合推理)——单字高度模糊不可靠,模型必须把噪声视觉线索、文档上下文和内部知识融合起来重建原文;③ 高损坏/完全遮挡(上下文推理与文档知识学习)——没有字符级线索,模型只能从多模态上下文和内部知识去推断,直接培养文档级理解。这样既消掉了为修解析失败而做的繁重数据工程,又避免了"过度增强 OCR 让文字不可辨→逼模型硬猜→幻觉"的老问题(以前只能用很小很保守的增强)。更妙的是知识学习与 OCR 目标能在同一个训练 batch 里自由混合,最大化数据利用率,产出一个通用的文档理解模型。
3. 混合 RL 后训练:短/长两种推理模式联合优化,可控又省训练量
RL 提升推理但导致输出冗长。作者让模型同时具备短推理模式(快答)和长推理模式(显式 step-by-step 思考),模式由 prompt 控制,两种行为先在 SFT 阶段初始化,再用混合 RL 联合优化——rollout 时在两种模式间随机切换,用 GRPO 优化并去掉 KL 和熵损失以稳定训练。奖励是四项加权合成:准确率 \(R_{acc}\)、格式 \(R_{format}\)、重复惩罚 \(R_{rep}\) 和偏好奖励 \(R_{rm}\),
其中 \(\tilde{R}_{rm} = (R_{rm}-\bar{R}_{rm})/\sigma(R_{rm})\) 是同一 prompt 下采样响应做标准化后的偏好分。奖励质量上还做了三重控制:人工巡检标签准确率、对短答案用规则验证(98% 奖励准确率)/对复杂自然语言用 RLPR 的概率式奖励、再叠一个奖励模型提供密集偏好信号。混合策略带来跨模式泛化(长推理的分析深度反哺短推理、短推理的直接性精炼长推理),只用纯长推理策略 70.5% 的训练 token 就达到更好性能。此外还集成 RLAIF-V(并扩展到视频)来压低幻觉。
损失函数 / 训练策略¶
预训练用 Warmup-Stable-Decay 学习率调度,稳定段固定 \(5\times10^{-5}\)、衰减到 \(1\times10^{-5}\);SFT 用 cosine 从 \(1\times10^{-5}\) 衰减到 \(1\times10^{-6}\);Long-CoT 与 3D-Resampler 阶段从 SFT checkpoint 续训,warmup 到 \(5\times10^{-6}\) 再衰减到 \(1\times10^{-6}\);RL 用 GRPO(无熵损失、无 KL 惩罚)。预训练分三阶段渐进解冻:warm-up 只训 resampler(其余冻结)→ 解冻视觉编码器用富文本/图文数据增强感知 → 全参端到端训最高质量数据。
实验关键数据¶
指标说明:OpenCompass 平均分是 8 个常用基准的综合分(其中 MMStar、MMVet、HallusionBench、MathVista、MMMU 用长推理模式评测);VideoMME 衡量视频理解,w/o sub 表示评测时不给字幕;推理效率以完成整套评测的墙钟时间(Time)和 GPU 显存(Mem)衡量,均在 8×A100 上测得。
主实验¶
单图理解与综合能力(节选 Table 1):
| 模型 | 规模 | OpenCompass↑ | OCRBench↑ | MMHal-Score↑ |
|---|---|---|---|---|
| GPT-4o-latest | — | 75.4 | 86.7 | 4.2 |
| Qwen2.5-VL | 72B | 76.1 | 89.5 | 4.2 |
| GLM-4.1V | 9B | 76.6 | 84.2 | 4.6 |
| Qwen3-VL Thinking | 8B | 77.5 | 85.8 | 4.7 |
| MiniCPM-V 4.5 | 8B | 77.0 | 87.4 | 5.0 |
推理效率(Table 3,8×A100):
| 任务 | 模型 | 规模 | 分数↑ | 时间↓ | 显存↓ |
|---|---|---|---|---|---|
| OpenCompass | GLM-4.1V-thinking | 10.3B | 76.6 | 17.5h | — |
| OpenCompass | MiMo-VL-7B-RL | 8.3B | 76.4 | 11.0h | — |
| OpenCompass | MiniCPM-V 4.5 | 8.7B | 77.0 | 7.5h | — |
| Video-MME | Qwen2.5-VL-7B | 8.3B | 71.6 | 3.00h | 60G |
| Video-MME | GLM-4.1V-thinking | 10.3B | 73.6 | 2.63h | 32G |
| Video-MME | MiniCPM-V 4.5 | 8.7B | 73.5 | 0.26h | 28G |
在 OpenCompass 上比 GLM-4.1V 更强且只用 42.9% 的时间;Video-MME 上以 73.5 的接近分数把推理时间从 2.63h 砍到 0.26h(近 10×),显存也最低。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| SFT 基线 | OpenCompass 73.6 | 未做 RL |
| 仅长推理 RL | 77.0(4.4B RL token) | 性能强但训练量大 |
| 混合 RL(关长推理评测) | 74.9 | 关掉长推理仍超 SFT 基线 |
| 混合 RL(开长推理评测) | 77.1(3.1B RL token) | 性能最佳且省 ~30% 训练 token |
| 外部解析器(文档学习) | MMMU 49.0 / AI2D 74.9 / OCRBench 576 | 旧范式 |
| 统一学习范式 | MMMU 51.4 / AI2D 76.5 / OCRBench 617 | 知识与 OCR 双涨 |
| 2D-Resampler | VideoMME 65.5(64 token/帧) | token 多 |
| QuicksViewer | VideoMME 66.9(21.3 token/帧) | 专用视频压缩 |
| 3D-Resampler | VideoMME 67.3(21.3 token/帧) | 同预算下最高 |
关键发现¶
- 混合 RL 是"既要又要"的关键:它拿到最佳长推理性能,且即便评测时关掉长推理也超过 SFT 基线,说明两种模式共享底层感知/认知技能、能互相增益;同时只花纯长推理约 70%(消融里 3.1B vs 4.4B RL token)的训练量。
- 概率式奖励补规则验证的短板:VR+PR(规则+RLPR 概率奖励)在训练步数放大后持续、显著超过仅规则方案,且响应长度/熵更稳定——规则只能覆盖少量简单数据,复杂自然语言答案靠概率奖励才有有效信号。
- 3D-Resampler 用 1/3 的 token 反超专用方法:同 token 预算下略胜 QuicksViewer,印证"简单架构更可扩展"。
- 统一文档学习双向受益:直接从文档图像学习,知识密集评测与文字识别同时涨点,绕开了脆弱解析器引入的噪声。
亮点与洞察¶
- "认字 = 看不清的极端"这个统一视角很巧:把 OCR 和文档知识理解归结为"文字可见度"的连续谱,再用一个"从损坏图像预测原文"的目标覆盖整个谱,既省掉解析器又顺手治了过度增强 OCR 的幻觉,是数据侧最漂亮的一招。
- resampler 对输入形状不敏感→图像视频共享权重:让 2D→3D 升级几乎"免费"(SFT 阶段少量视频数据即可),这种"统一架构带来低升级成本"的思路可迁移到任何需要扩展模态/维度的编码器。
- 短长双模式可控推理:把"该快答还是该深思"交给 prompt 控制并联合优化,直接对冲了 RL 模型"什么都长篇大论"的效率病。
局限与展望¶
- 依赖大规模高质量数据与算力:620B 预训练 + 90B SFT + 658k RL prompt 的配方,复现门槛仍高;论文把大量数据构造细节放在附录,正文难以独立复现。⚠️ 缓存为正文,附录细节未含。
- 3D-Resampler 的包大小/帧率靠训练时随机增强获得鲁棒性,最优超参在不同设备/场景如何选择,论文给的是"可在推理时调"的灵活性,缺乏系统的选择准则。
- 幻觉仍是软肋:尽管 RLAIF-V 把幻觉指标做到同档最优(MMHal-Score 5.0、ObjHalBench 最低),但视频幻觉作者也承认尤其严重,属于持续挑战。
- 可改进方向:把动态视觉损坏的"损坏强度"做成可学习/自适应课程,而非固定三档;探索 3D-Resampler 之上更激进的跨包冗余建模。
相关工作与启发¶
- vs Qwen2.5-VL / InternVL3(高 token 编码): 它们对短视频要上千 token,本文用 3D-Resampler 把同样视频压到 128 token,核心区别是显式利用时间冗余做联合时空压缩,本文在效率上压倒性领先、精度持平或更好。
- vs QuicksViewer(专用视频压缩): 它专门为视频设计复杂压缩,本文用一个图像/视频共享的简单 resampler,同 token 预算下反超(67.3 vs 66.9),印证简单架构的可扩展性。
- vs 依赖外部解析器的文档 MLLM: 它们靠 PDF 解析器转图文序列、复杂排版易错,本文直接从文档图像端到端学习,绕开中间环节、知识与 OCR 双涨。
- vs 纯长推理 RL 模型(GLM-4.1V、MiMo-VL-RL): 它们倾向输出冗长,本文混合短长模式联合优化,在更高/相当性能下推理时间只用 42.9%–68.2%。
评分¶
- 新颖性: ⭐⭐⭐⭐ 三个改进各自不算颠覆,但"动态视觉损坏统一文档/OCR"这个视角和"图像视频共享 resampler"的组合很有巧思。
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 STEM/文档/幻觉/多图/视频/综合六大类基准,且每个核心设计都有对应消融与效率对照。
- 写作质量: ⭐⭐⭐⭐ 结构清晰、动机—方法—消融对得上,但大量构造细节压在附录,正文略显"配方提纲"。
- 价值: ⭐⭐⭐⭐⭐ 8B 开源模型超 GPT-4o-latest 与 72B 模型且推理快约 10×,对"高效可部署 MLLM"是很实用的落地参考。