MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data and Training Recipes¶

会议: CVPR 2026
论文: CVF Open Access
代码: 有（MiniCPM-V Code and Model，官方开源）
领域: 多模态VLM / MLLM效率
关键词: 高效MLLM、3D-Resampler、文档OCR统一学习、混合强化学习、长视频理解

一句话总结¶

MiniCPM-V 4.5 用「统一 3D-Resampler 压缩视觉 token + 动态损坏统一文档/OCR 学习 + 短长双模式混合 RL」三招把一个 8B MLLM 做到既高效又强，在 OpenCompass 上以 77.0 分超过 GPT-4o-latest 和 Qwen2.5-VL 72B，且 VideoMME 推理只用约 10% 的时间。

研究背景与动机¶

领域现状：多模态大模型（MLLM）正快速进步，但训练与推理的成本（GPU 显存、算力、数据工程）随能力增长而急剧上升，效率已成为「把强模型做得人人可用、可规模化」的核心瓶颈。作者把效率问题拆成三块：模型架构、训练数据、训练方法。

现有痛点：（1）架构层——高分辨率图像编码会产生大量视觉 token，视频更夸张：一段 6 秒、2fps、448×448 的低清视频，Qwen2.5-VL 要 1,536 个 token、InternVL3 要 3,072 个 token，长序列直接把训练/推理成本拉爆。（2）数据层——现代 MLLM 越来越依赖文档（论文、教材 PDF）里的高质量多学科知识，但主流做法是先用脆弱的外部解析器把 PDF 转成图文交错序列，复杂排版下经常出错（如把图注放到对应图片之前、让图片"不可见"），要么学错知识、要么得花大量人力修 bug。（3）训练层——RL 能提升复杂推理，但代价是输出极度啰嗦，连"这是什么明显物体"这种简单任务都要写一大段思考，训练和推理都低效。

核心矛盾：能力提升与效率之间存在系统性 trade-off——更高分辨率/更多帧、更多文档知识、更强推理，都意味着更多 token、更重的数据流水线、更长的输出。

本文目标：在 8B 规模上同时拿下三件事——视觉 token 高度压缩、文档知识/OCR 不依赖解析器、推理可控不冗长。

切入角度：作者不追求"把单个组件做复杂"，而是用尽量简单、可统一的设计去吃掉冗余（视频的时空冗余、文档解析的中间环节、长短推理的重复训练）。

核心 idea：用一套统一架构（3D-Resampler 同时编码图像与视频）+ 一个统一学习目标（从损坏文档图像预测原文）+ 一种混合 RL（短长模式联合优化），把效率瓶颈逐个打掉。

方法详解¶

整体框架¶

MiniCPM-V 4.5 是一个 8B MLLM，推理侧由三个模块串成：轻量视觉编码器（像素→视觉特征）→ 统一 3D-Resampler（把图像/视频压成紧凑 token，吃掉时空冗余）→ LLM 解码器（理解图/视频/文本并生成文本，可在"短推理"和"长推理"两种风格间切换）。其中 3D-Resampler 对图像最高 16× 压缩、对视频在此基础上再 6× 压缩。

训练侧是一条"烹饪配方"：预训练（三阶段渐进解冻，约 620B token，内嵌统一文档/OCR 学习）→ SFT（90B token，并在此阶段把 2D-Resampler 轻量升级成 3D-Resampler）→ 混合 RL 后训练（658k prompt，短长模式联合优化）。三个核心设计分别落在架构、数据、训练三条线上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：高分辨率图像 / 高帧率长视频"] --> B["视觉编码器"]
    B --> C["统一 3D-Resampler<br/>时空联合压缩"]
    C --> D["LLM 解码器"]
    E["预训练：统一文档/OCR 学习<br/>动态视觉损坏"] --> F["SFT：2D→3D Resampler 升级"]
    F --> G["混合 RL 后训练<br/>短/长推理联合优化"]
    G --> D
    D -->|短推理模式| H["简洁回答"]
    D -->|长推理模式| I["逐步思考"]

关键设计¶

1. 统一 3D-Resampler：用一套权重把图像和视频都压成紧凑 token

视觉 token 太多是 MLLM 的首要效率瓶颈，视频尤甚。作者把图像用的 2D-Resampler 扩展成 3D-Resampler：图像侧沿用 LLaVA-UHD 的切片策略，对每个 slice 用带 2D 空间位置编码的可学习 query 通过 cross-attention 产生定长序列（如 448×448 图只用 64 token）；视频侧先沿时间维把帧分成若干"包"（package），同一个包内相邻帧视觉信息高度冗余，于是对每个包的帧特征用 cross-attention 重采样成定长序列，query 同时带 2D 空间位置编码和时间位置编码，最后把所有包的 token 拼起来。相比 2D-Resampler 额外拿到约 6× 的时间压缩，一段 6 秒、2fps、448×448 的视频只需 128 个 token，比代表性 MLLM 低 12×–24×。因为 resampler 对输入形状不敏感，图像和视频可以共享同一套架构与权重，所以从 2D 升到 3D 只需在 SFT 阶段用少量高质量视频数据轻量过一遍。作者还发现这种"简单架构"反而略胜专门设计的视频压缩方法 QuicksViewer，体现了简单设计的可扩展优势。

2. 统一文档/OCR 学习：用动态视觉损坏把"认字"和"理解文档知识"合成一个目标

为了甩开脆弱的外部 PDF 解析器，作者提出一个洞察：文档知识获取与文字识别的最大区别，仅在于文字在图像里是否可见。于是把两者统一成单一目标——从损坏的文档图像预测原始文本。对每个文档，取一部分文字区域当 ground truth，再随机施加不同强度的损坏：① 低损坏（增强 OCR）——文字仍可辨认，模型靠文字识别就能预测；② 中损坏（融合推理）——单字高度模糊不可靠，模型必须把噪声视觉线索、文档上下文和内部知识融合起来重建原文；③ 高损坏/完全遮挡（上下文推理与文档知识学习）——没有字符级线索，模型只能从多模态上下文和内部知识去推断，直接培养文档级理解。这样既消掉了为修解析失败而做的繁重数据工程，又避免了"过度增强 OCR 让文字不可辨→逼模型硬猜→幻觉"的老问题（以前只能用很小很保守的增强）。更妙的是知识学习与 OCR 目标能在同一个训练 batch 里自由混合，最大化数据利用率，产出一个通用的文档理解模型。

3. 混合 RL 后训练：短/长两种推理模式联合优化，可控又省训练量

RL 提升推理但导致输出冗长。作者让模型同时具备短推理模式（快答）和长推理模式（显式 step-by-step 思考），模式由 prompt 控制，两种行为先在 SFT 阶段初始化，再用混合 RL 联合优化——rollout 时在两种模式间随机切换，用 GRPO 优化并去掉 KL 和熵损失以稳定训练。奖励是四项加权合成：准确率 \(R_{acc}\)、格式 \(R_{format}\)、重复惩罚 \(R_{rep}\) 和偏好奖励 \(R_{rm}\)，

\[R = R_{acc} + R_{format} + R_{rep} + \tfrac{1}{2}\tilde{R}_{rm},\]

其中 \(\tilde{R}_{rm} = (R_{rm}-\bar{R}_{rm})/\sigma(R_{rm})\) 是同一 prompt 下采样响应做标准化后的偏好分。奖励质量上还做了三重控制：人工巡检标签准确率、对短答案用规则验证（98% 奖励准确率）/对复杂自然语言用 RLPR 的概率式奖励、再叠一个奖励模型提供密集偏好信号。混合策略带来跨模式泛化（长推理的分析深度反哺短推理、短推理的直接性精炼长推理），只用纯长推理策略 70.5% 的训练 token 就达到更好性能。此外还集成 RLAIF-V（并扩展到视频）来压低幻觉。

损失函数 / 训练策略¶

预训练用 Warmup-Stable-Decay 学习率调度，稳定段固定 \(5\times10^{-5}\)、衰减到 \(1\times10^{-5}\)；SFT 用 cosine 从 \(1\times10^{-5}\) 衰减到 \(1\times10^{-6}\)；Long-CoT 与 3D-Resampler 阶段从 SFT checkpoint 续训，warmup 到 \(5\times10^{-6}\) 再衰减到 \(1\times10^{-6}\)；RL 用 GRPO（无熵损失、无 KL 惩罚）。预训练分三阶段渐进解冻：warm-up 只训 resampler（其余冻结）→ 解冻视觉编码器用富文本/图文数据增强感知 → 全参端到端训最高质量数据。

实验关键数据¶

指标说明：OpenCompass 平均分是 8 个常用基准的综合分（其中 MMStar、MMVet、HallusionBench、MathVista、MMMU 用长推理模式评测）；VideoMME 衡量视频理解，w/o sub 表示评测时不给字幕；推理效率以完成整套评测的墙钟时间（Time）和 GPU 显存（Mem）衡量，均在 8×A100 上测得。

主实验¶

单图理解与综合能力（节选 Table 1）：

模型	规模	OpenCompass↑	OCRBench↑	MMHal-Score↑
GPT-4o-latest	—	75.4	86.7	4.2
Qwen2.5-VL	72B	76.1	89.5	4.2
GLM-4.1V	9B	76.6	84.2	4.6
Qwen3-VL Thinking	8B	77.5	85.8	4.7
MiniCPM-V 4.5	8B	77.0	87.4	5.0

推理效率（Table 3，8×A100）：

任务	模型	规模	分数↑	时间↓	显存↓
OpenCompass	GLM-4.1V-thinking	10.3B	76.6	17.5h	—
OpenCompass	MiMo-VL-7B-RL	8.3B	76.4	11.0h	—
OpenCompass	MiniCPM-V 4.5	8.7B	77.0	7.5h	—
Video-MME	Qwen2.5-VL-7B	8.3B	71.6	3.00h	60G
Video-MME	GLM-4.1V-thinking	10.3B	73.6	2.63h	32G
Video-MME	MiniCPM-V 4.5	8.7B	73.5	0.26h	28G

在 OpenCompass 上比 GLM-4.1V 更强且只用 42.9% 的时间；Video-MME 上以 73.5 的接近分数把推理时间从 2.63h 砍到 0.26h（近 10×），显存也最低。

消融实验¶

配置	关键指标	说明
SFT 基线	OpenCompass 73.6	未做 RL
仅长推理 RL	77.0（4.4B RL token）	性能强但训练量大
混合 RL（关长推理评测）	74.9	关掉长推理仍超 SFT 基线
混合 RL（开长推理评测）	77.1（3.1B RL token）	性能最佳且省 ~30% 训练 token
外部解析器（文档学习）	MMMU 49.0 / AI2D 74.9 / OCRBench 576	旧范式
统一学习范式	MMMU 51.4 / AI2D 76.5 / OCRBench 617	知识与 OCR 双涨
2D-Resampler	VideoMME 65.5（64 token/帧）	token 多
QuicksViewer	VideoMME 66.9（21.3 token/帧）	专用视频压缩
3D-Resampler	VideoMME 67.3（21.3 token/帧）	同预算下最高

关键发现¶

混合 RL 是"既要又要"的关键：它拿到最佳长推理性能，且即便评测时关掉长推理也超过 SFT 基线，说明两种模式共享底层感知/认知技能、能互相增益；同时只花纯长推理约 70%（消融里 3.1B vs 4.4B RL token）的训练量。
概率式奖励补规则验证的短板：VR+PR（规则+RLPR 概率奖励）在训练步数放大后持续、显著超过仅规则方案，且响应长度/熵更稳定——规则只能覆盖少量简单数据，复杂自然语言答案靠概率奖励才有有效信号。
3D-Resampler 用 1/3 的 token 反超专用方法：同 token 预算下略胜 QuicksViewer，印证"简单架构更可扩展"。
统一文档学习双向受益：直接从文档图像学习，知识密集评测与文字识别同时涨点，绕开了脆弱解析器引入的噪声。

亮点与洞察¶

"认字 = 看不清的极端"这个统一视角很巧：把 OCR 和文档知识理解归结为"文字可见度"的连续谱，再用一个"从损坏图像预测原文"的目标覆盖整个谱，既省掉解析器又顺手治了过度增强 OCR 的幻觉，是数据侧最漂亮的一招。
resampler 对输入形状不敏感→图像视频共享权重：让 2D→3D 升级几乎"免费"（SFT 阶段少量视频数据即可），这种"统一架构带来低升级成本"的思路可迁移到任何需要扩展模态/维度的编码器。
短长双模式可控推理：把"该快答还是该深思"交给 prompt 控制并联合优化，直接对冲了 RL 模型"什么都长篇大论"的效率病。

局限与展望¶

依赖大规模高质量数据与算力：620B 预训练 + 90B SFT + 658k RL prompt 的配方，复现门槛仍高；论文把大量数据构造细节放在附录，正文难以独立复现。⚠️ 缓存为正文，附录细节未含。
3D-Resampler 的包大小/帧率靠训练时随机增强获得鲁棒性，最优超参在不同设备/场景如何选择，论文给的是"可在推理时调"的灵活性，缺乏系统的选择准则。
幻觉仍是软肋：尽管 RLAIF-V 把幻觉指标做到同档最优（MMHal-Score 5.0、ObjHalBench 最低），但视频幻觉作者也承认尤其严重，属于持续挑战。
可改进方向：把动态视觉损坏的"损坏强度"做成可学习/自适应课程，而非固定三档；探索 3D-Resampler 之上更激进的跨包冗余建模。

评分¶

新颖性: ⭐⭐⭐⭐ 三个改进各自不算颠覆，但"动态视觉损坏统一文档/OCR"这个视角和"图像视频共享 resampler"的组合很有巧思。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 STEM/文档/幻觉/多图/视频/综合六大类基准，且每个核心设计都有对应消融与效率对照。
写作质量: ⭐⭐⭐⭐ 结构清晰、动机—方法—消融对得上，但大量构造细节压在附录，正文略显"配方提纲"。
价值: ⭐⭐⭐⭐⭐ 8B 开源模型超 GPT-4o-latest 与 72B 模型且推理快约 10×，对"高效可部署 MLLM"是很实用的落地参考。