2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining¶
会议: ICCV 2025
arXiv: 2501.00958
代码: https://github.com/DAMO-NLP-SG/multimodal_textbook
领域: 音频语音
关键词: 视觉-语言预训练, 交错图文数据集, 教学视频, 多模态教材, 上下文学习
一句话总结¶
从YouTube教学视频中提取关键帧和文本(ASR+OCR),构建高质量交错图文格式的"多模态教材"数据集,用于VLM预训练,在知识密集型和推理任务上大幅领先网页爬取的交错数据集。
研究背景与动机¶
现有的交错图文数据集(如MMC4、OBELICS)均通过网页爬取获得,存在三个核心问题:(1)图文关联松散——网页图片可能与上下文无关(如广告、logo);(2)图片序列缺乏逻辑连贯性——网页内多张图片之间没有明确的推理关系;(3)知识密度低——新闻、娱乐等内容占据大量比例,缺乏基础学科知识。
与此同时,互联网上存在海量高质量教学视频(如数学几何课程),这些视频中讲师的逐帧演示配合详细口头讲解,天然形成了图文紧密对齐、逻辑连贯的"教材"结构。然而,这些资源在VLM训练中尚未被充分利用。微软Phi系列模型也证明了高质量教材级数据对LLM训练的关键性。
方法详解¶
整体框架¶
整个方法可概括为两个阶段:教学视频的系统化收集和视频到教材的多级提取与过滤流水线。最终产出一个包含650万关键帧和7.5亿文本token的交错图文数据集,覆盖数学、物理、化学等6个基础学科。
关键设计¶
-
LLM驱动的知识分类体系与视频收集:
- 利用GPT-4o构建四层知识分类体系:学科→课程→子课程→知识点,涵盖6个学科、55门课程、3915个知识点
- 以每个知识点为关键词从YouTube检索相关视频,取top-50并去重
- 用LLM审查视频元数据(标题、描述、评论)过滤不相关/违规内容,最终收集159,565个视频
- 设计动机:标准化分类体系确保覆盖面广、避免遗漏重要学科
-
多级知识提取与过滤流水线(视频→教材):
- 视频级:用FFmpeg提取音频→whisper-large-v3转录ASR→Qwen2-72B改写优化ASR流畅度;LLM从相关性、知识密度、转录质量三个维度过滤低质视频,保留75K视频
- 片段级:用ASR时间戳将长视频分为10-20秒片段;用VideoLlama2生成片段描述,通过与ASR的文本相似度过滤无信息量的片段(如仅有讲师正面照的场景)
- 关键帧级:用SSIM算法对比连续帧检测显著变化,提取关键帧去除冗余;用InternVL2-40B对关键帧做OCR提取文本/公式/符号,并过滤低信息量关键帧和重复OCR
- 设计动机:多级(粗到细)过滤逐步消除噪声——视频级过滤不相关内容,片段级过滤无视觉知识的场景,关键帧级去除冗余帧和低质OCR
-
交错格式教材的组织:
- 将关键帧、OCR文本和精化ASR文本按时间顺序交错排列
- 即便某片段的视觉内容被过滤,其ASR文本仍可保留——不浪费有价值的口述知识
- 最终格式:\(\{\text{frame}_1^{k_1}, \text{frame}_1^{k_2}, \text{ocr}_1, \text{asr}_1, \text{asr}_2, \text{asr}_3, \text{frame}_4^{k_1}, \text{ocr}_4, \text{asr}_4, \ldots\}\)
训练策略¶
对LLaVA-1.5-7B做持续预训练(在558K配对数据对齐后),对Idefics2-8B分别做从头训练和持续预训练。为公平比较,从MMC4和OBELICS中采样等量样本(610K),使用相同训练参数。
实验关键数据¶
主实验¶
| 数据集/基准 | 设置 | MMC4 | OBELICS | Textbook-6.5M | 提升 |
|---|---|---|---|---|---|
| ScienceQA-IMG | 0-shot | - | - | 26.3 | - |
| ScienceQA-IMG | 4-shot | 11.6 | 16.4 | 37.3 | +20.9 vs MMC4 |
| MathVista | 0-shot | 20.4 | 21.6 | 24.3 | +2.7 |
| MathVista | 1-shot | 30.0 | 28.5 | 43.4 | +14.9 vs OBELICS |
| OKVQA | 4-shot | 28.7 | 37.5 | 39.9 | +2.4 vs OBELICS |
| TextVQA | 4-shot | 20.9 | 32.2 | 33.5 | +1.3 vs OBELICS |
| 7基准平均 | 0-4shot | 10.9-21.9 | 10.7-26.2 | 15.5-30.8 | +3.2~+8.3 |
在Idefics2上持续预训练后,MathVista从27.6提升至29.7,MathVision从14.3提升至16.2。
消融实验¶
| 配置 | 1-shot平均准确率 | 说明 |
|---|---|---|
| 完整方法(SSIM+ASR精化+OCR) | 31.1 | 最佳 |
| 去除ASR精化 | 26.2 (↓4.9) | 原始ASR口语化PPL高达16.86,损害语言能力 |
| 去除OCR | 28.8 (↓2.3) | OCR提供公式/符号等额外知识 |
| SSIM→像素级关键帧提取 | 22.1 (↓9.0) | 提取过多帧(18M),大量冗余 |
| SSIM→CLIP语义级提取 | 24.6 (↓6.5) | 提取过少帧(1.7M),丢失关键帧 |
关键发现¶
- "作弊测试"验证上下文感知能力:将测试样本本身放入few-shot示例中,在MathVista上Textbook达94.1%(MMC4仅72.6%),证明预训练在Textbook上的VLM能有效关注交错上下文中的信息
- 打乱图片顺序实验表明:MMC4打乱后几乎无影响,OBELICS有中等下降,而Textbook性能大幅下降——证实视频源数据的图片序列具有强逻辑依赖,这对学习复杂知识和推理至关重要
- 指令微调后(LLaVA-665K),Textbook在MathVista上额外提升5.5%,是OBELICS(+2.4%)的两倍多
亮点与洞察¶
- 数据来源的范式转变:从网页爬取转向教学视频挖掘,利用视频天然的时序一致性和讲解-演示对齐性
- In-sample Image SIM指标显示教材内图片相关性(0.686)是OBELICS(0.345)的两倍,且随图片数量增加保持稳定
- 每样本平均10.7张图片和1297个token,远超MMC4(5.7张/417 token)
局限与展望¶
- 数据集主要覆盖基础学科教育类视频,对通用领域VQA的zero-shot提升有限(需few-shot才显优势)
- ASR精化依赖大型LLM(Qwen2-72B),处理75K视频的计算成本较高
- 仅覆盖英语教学视频,多语言扩展尚未探索
- 未与大规模(十亿级)网页数据混合训练,最优数据配比有待研究
相关工作与启发¶
- Phi系列模型验证了"教材级"数据的重要性,本文将此思想从纯文本扩展到多模态
- 与OmniCorpus等多源数据集的差异核心在于视频的时序连贯性——未来可探索将会议演讲、实验录像等更多视频类型纳入
- "作弊测试"方法可作为通用的交错上下文感知评估工具
评分¶
- 新颖性: ⭐⭐⭐⭐ 从教学视频构建交错教材数据集的思路新颖,填补了视频源预训练数据的空白
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多基准、多消融、作弊测试和打乱实验设计巧妙
- 写作质量: ⭐⭐⭐⭐ 结构清晰,pipeline描述详细
- 价值: ⭐⭐⭐⭐ 数据集开源,pipeline可复用,对知识密集型VLM预训练有实际价值