MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale¶

会议	arXiv	代码	领域	关键词
ACL 2025	2412.05237	项目主页	multimodal_vlm	多模态推理, 指令微调, CoT, 数据重写, 大规模训练数据

一句话总结¶

提出一种可扩展、低成本的方法，仅使用开源模型构建含 1200 万条富含中间推理过程 (CoT) 的多模态指令微调数据集 MAmmoTH-VL-Instruct，训练的 MAmmoTH-VL-8B 在推理基准上达到 SOTA（MathVerse +8.1%, MMMU-Pro +7%, MuirBench +13.3%）。

研究背景与动机¶

现有问题: 现有多模态指令微调数据集主要来自学术 VQA 数据集（如 VQA, AI2D, ChartQA），这些数据集目标简单，仅提供短语级答案而无中间推理过程，限制了模型的推理能力。
核心差距: Chain-of-Thought (CoT) 推理在纯文本 LLM 中效果显著，但构建大规模多模态 CoT 数据集面临两大障碍：(1) 确保指令的多样性和复杂性, (2) 生成带详细理由的连贯响应。人工标注成本过高，依赖 GPT-4 等闭源模型又涉及高成本和版权问题。
研究动机: 用开源模型实现低成本、可扩展的多模态 CoT 数据集构建，降低开源社区的门槛。

方法详解¶

整体框架¶

三步数据构建流水线： 1. 数据收集与分类: 从 153 个公开数据集收集，按10大类（General, OCR, Chart, Caption, Domain-specific, Code&Math, Language, Detection, Multi-Image, Video）组织 2. 指令数据重写: 使用开源模型将短答案扩展为含 CoT 推理的详细响应 3. 自过滤: 用同一 MLLM 作为裁判 (Model-as-Judge) 过滤幻觉内容

关键设计¶

数据源三级分组:
- Group A (58 个): 高质量，直接保留原始数据
- Group B (60 个): 有潜力但回答简略，进行重写增强
- Group C (35 个): 过于模糊/简短，直接丢弃
任务感知重写策略: 为每个数据类别设计定制化 prompt。Caption 类数据用纯文本模型 (Llama-3-70B) 生成任务导向 QA 对；其他类型用多模态模型 (InternVL2-Llama3-76B) 确保视觉-文本对齐。
数据混合比例: 70% 重写数据 + 30% 原始数据，t-SNE 分析表明重写数据既保留原始分布的核心特征，又拓展了覆盖范围。

训练配置¶

三阶段训练（基于 LLaVA-OneVision 架构）： - Stage-1: 语言-图像对齐预训练（558K, 仅训练 Projector） - Stage-2: 单图视觉指令微调（10M, 全参数训练） - Stage-3: One Vision 多图/视频微调（2M, 全参数训练）

LLM 骨干: Qwen2.5-7B-Instruct, 视觉编码器: SigLIP-so400m-patch14-384

实验¶

主实验：多学科知识与数学推理¶

模型	MMStar	MMMU (val)	MMMU-Pro	MathVerse	MathVista
GPT-4o	64.7	69.1	49.7	50.2	63.8
Qwen2-VL-7B	60.7	52.1	26.9	28.2	58.2
LLaVA-OV-7B	61.7	48.8	18.7	26.2	63.2
Llava-CoT-11B	57.6	48.9	18.5	24.2	54.8
MAmmoTH-VL-8B	63.0	50.8	25.3	34.2	67.6
Δ vs 最佳开源 (~10B)	+1.3	+1.9	+7.1	+8.1	+4.4

文档/图表理解¶

模型	AI2D	ChartQA	DocVQA	RealWorldQA
LLaVA-OV-7B	81.4	80.0	87.5	66.3
InternVL-2-8B	83.8	83.3	91.6	64.4
MAmmoTH-VL-8B	84.0	86.2	93.7	69.9
Δ vs 最佳开源 (~10B)	+2.4	+2.1	+1.6	+0.6

关键消融发现¶

自过滤至关重要: OCR 和图表数据的幻觉过滤率最高，移除过滤步骤会导致模型性能显著下降。
重写数据质量提升: 重写后数据在信息含量和相关性评分上均高于原始数据 (5 分制)。
数据规模效应显著: 从 2M 到 10M 训练数据，性能持续提升，说明大规模 CoT 数据的可扩展性。
非推理任务也受益: 非推理基准上也有最高 4% 的提升，表明 CoT 训练的泛化效益。

亮点¶

仅用开源模型构建 12M 大规模多模态 CoT 数据集，打破了对 GPT-4 等闭源模型的依赖
三步流水线（收集-重写-过滤）简洁可扩展，方法论可复用于其他领域
8B 规模模型在推理密集型任务上大幅超越同规模甚至更大规模模型（MathVerse +8.1%）
Model-as-Judge 自过滤方法与人类评估一致性达 Kappa 0.64（良好水平）

局限性¶

自过滤使用同一生成模型作为裁判，可能对自身生成的特定错误模式存在盲点
重写过程中 OCR/图表类数据幻觉率较高，说明开源 MLLM 在细粒度视觉理解上仍有不足
训练成本虽低于使用 GPT-4，但 10M 规模训练仍需大量计算资源
数据收集依赖已有公开数据集，新领域/新任务的覆盖可能不足

评分¶

维度	分数 (1-10)
创新性	7
技术深度	7
实验充分性	9
写作质量	8
综合	7.5