MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale¶
| 会议 | arXiv | 代码 | 领域 | 关键词 |
|---|---|---|---|---|
| ACL 2025 | 2412.05237 | 项目主页 | multimodal_vlm | 多模态推理, 指令微调, CoT, 数据重写, 大规模训练数据 |
一句话总结¶
提出一种可扩展、低成本的方法,仅使用开源模型构建含 1200 万条富含中间推理过程 (CoT) 的多模态指令微调数据集 MAmmoTH-VL-Instruct,训练的 MAmmoTH-VL-8B 在推理基准上达到 SOTA(MathVerse +8.1%, MMMU-Pro +7%, MuirBench +13.3%)。
研究背景与动机¶
- 现有问题: 现有多模态指令微调数据集主要来自学术 VQA 数据集(如 VQA, AI2D, ChartQA),这些数据集目标简单,仅提供短语级答案而无中间推理过程,限制了模型的推理能力。
- 核心差距: Chain-of-Thought (CoT) 推理在纯文本 LLM 中效果显著,但构建大规模多模态 CoT 数据集面临两大障碍:(1) 确保指令的多样性和复杂性, (2) 生成带详细理由的连贯响应。人工标注成本过高,依赖 GPT-4 等闭源模型又涉及高成本和版权问题。
- 研究动机: 用开源模型实现低成本、可扩展的多模态 CoT 数据集构建,降低开源社区的门槛。
方法详解¶
整体框架¶
三步数据构建流水线: 1. 数据收集与分类: 从 153 个公开数据集收集,按10大类(General, OCR, Chart, Caption, Domain-specific, Code&Math, Language, Detection, Multi-Image, Video)组织 2. 指令数据重写: 使用开源模型将短答案扩展为含 CoT 推理的详细响应 3. 自过滤: 用同一 MLLM 作为裁判 (Model-as-Judge) 过滤幻觉内容
关键设计¶
-
数据源三级分组:
- Group A (58 个): 高质量,直接保留原始数据
- Group B (60 个): 有潜力但回答简略,进行重写增强
- Group C (35 个): 过于模糊/简短,直接丢弃
-
任务感知重写策略: 为每个数据类别设计定制化 prompt。Caption 类数据用纯文本模型 (Llama-3-70B) 生成任务导向 QA 对;其他类型用多模态模型 (InternVL2-Llama3-76B) 确保视觉-文本对齐。
-
数据混合比例: 70% 重写数据 + 30% 原始数据,t-SNE 分析表明重写数据既保留原始分布的核心特征,又拓展了覆盖范围。
训练配置¶
三阶段训练(基于 LLaVA-OneVision 架构): - Stage-1: 语言-图像对齐预训练(558K, 仅训练 Projector) - Stage-2: 单图视觉指令微调(10M, 全参数训练) - Stage-3: One Vision 多图/视频微调(2M, 全参数训练)
LLM 骨干: Qwen2.5-7B-Instruct, 视觉编码器: SigLIP-so400m-patch14-384
实验¶
主实验:多学科知识与数学推理¶
| 模型 | MMStar | MMMU (val) | MMMU-Pro | MathVerse | MathVista |
|---|---|---|---|---|---|
| GPT-4o | 64.7 | 69.1 | 49.7 | 50.2 | 63.8 |
| Qwen2-VL-7B | 60.7 | 52.1 | 26.9 | 28.2 | 58.2 |
| LLaVA-OV-7B | 61.7 | 48.8 | 18.7 | 26.2 | 63.2 |
| Llava-CoT-11B | 57.6 | 48.9 | 18.5 | 24.2 | 54.8 |
| MAmmoTH-VL-8B | 63.0 | 50.8 | 25.3 | 34.2 | 67.6 |
| Δ vs 最佳开源 (~10B) | +1.3 | +1.9 | +7.1 | +8.1 | +4.4 |
文档/图表理解¶
| 模型 | AI2D | ChartQA | DocVQA | RealWorldQA |
|---|---|---|---|---|
| LLaVA-OV-7B | 81.4 | 80.0 | 87.5 | 66.3 |
| InternVL-2-8B | 83.8 | 83.3 | 91.6 | 64.4 |
| MAmmoTH-VL-8B | 84.0 | 86.2 | 93.7 | 69.9 |
| Δ vs 最佳开源 (~10B) | +2.4 | +2.1 | +1.6 | +0.6 |
关键消融发现¶
- 自过滤至关重要: OCR 和图表数据的幻觉过滤率最高,移除过滤步骤会导致模型性能显著下降。
- 重写数据质量提升: 重写后数据在信息含量和相关性评分上均高于原始数据 (5 分制)。
- 数据规模效应显著: 从 2M 到 10M 训练数据,性能持续提升,说明大规模 CoT 数据的可扩展性。
- 非推理任务也受益: 非推理基准上也有最高 4% 的提升,表明 CoT 训练的泛化效益。
亮点¶
- 仅用开源模型构建 12M 大规模多模态 CoT 数据集,打破了对 GPT-4 等闭源模型的依赖
- 三步流水线(收集-重写-过滤)简洁可扩展,方法论可复用于其他领域
- 8B 规模模型在推理密集型任务上大幅超越同规模甚至更大规模模型(MathVerse +8.1%)
- Model-as-Judge 自过滤方法与人类评估一致性达 Kappa 0.64(良好水平)
局限性¶
- 自过滤使用同一生成模型作为裁判,可能对自身生成的特定错误模式存在盲点
- 重写过程中 OCR/图表类数据幻觉率较高,说明开源 MLLM 在细粒度视觉理解上仍有不足
- 训练成本虽低于使用 GPT-4,但 10M 规模训练仍需大量计算资源
- 数据收集依赖已有公开数据集,新领域/新任务的覆盖可能不足
相关工作¶
- 多模态指令微调: LLaVA (Liu et al. 2024b) 开创视觉指令微调范式;LLaVA-OneVision (Li et al. 2024b) 扩展到多图/视频
- 推理增强: Chain-of-Thought (Wei et al. 2022) 逐步推理;Llava-CoT (Xu et al. 2024a) 在单一模型中引入 CoT 但依赖 GPT-4 数据
- 数据质量与过滤: Cambrian (Tong et al. 2024) 多源数据融合训练;InternVL2 (Chen et al. 2023b) 大规模预训练;本工作强调开源模型自过滤的可行性
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 7 |
| 技术深度 | 7 |
| 实验充分性 | 9 |
| 写作质量 | 8 |
| 综合 | 7.5 |