2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining¶

会议: ICCV 2025
arXiv: 2501.00958
代码: https://github.com/DAMO-NLP-SG/multimodal_textbook
领域: 音频语音
关键词: 视觉-语言预训练, 交错图文数据集, 教学视频, 多模态教材, 上下文学习

一句话总结¶

从YouTube教学视频中提取关键帧和文本（ASR+OCR），构建高质量交错图文格式的"多模态教材"数据集，用于VLM预训练，在知识密集型和推理任务上大幅领先网页爬取的交错数据集。

研究背景与动机¶

现有的交错图文数据集（如MMC4、OBELICS）均通过网页爬取获得，存在三个核心问题：（1）图文关联松散——网页图片可能与上下文无关（如广告、logo）；（2）图片序列缺乏逻辑连贯性——网页内多张图片之间没有明确的推理关系；（3）知识密度低——新闻、娱乐等内容占据大量比例，缺乏基础学科知识。

与此同时，互联网上存在海量高质量教学视频（如数学几何课程），这些视频中讲师的逐帧演示配合详细口头讲解，天然形成了图文紧密对齐、逻辑连贯的"教材"结构。然而，这些资源在VLM训练中尚未被充分利用。微软Phi系列模型也证明了高质量教材级数据对LLM训练的关键性。

方法详解¶

整体框架¶

整个方法可概括为两个阶段：教学视频的系统化收集和视频到教材的多级提取与过滤流水线。最终产出一个包含650万关键帧和7.5亿文本token的交错图文数据集，覆盖数学、物理、化学等6个基础学科。

关键设计¶

LLM驱动的知识分类体系与视频收集:
- 利用GPT-4o构建四层知识分类体系：学科→课程→子课程→知识点，涵盖6个学科、55门课程、3915个知识点
- 以每个知识点为关键词从YouTube检索相关视频，取top-50并去重
- 用LLM审查视频元数据（标题、描述、评论）过滤不相关/违规内容，最终收集159,565个视频
- 设计动机：标准化分类体系确保覆盖面广、避免遗漏重要学科
多级知识提取与过滤流水线（视频→教材）:
- 视频级：用FFmpeg提取音频→whisper-large-v3转录ASR→Qwen2-72B改写优化ASR流畅度；LLM从相关性、知识密度、转录质量三个维度过滤低质视频，保留75K视频
- 片段级：用ASR时间戳将长视频分为10-20秒片段；用VideoLlama2生成片段描述，通过与ASR的文本相似度过滤无信息量的片段（如仅有讲师正面照的场景）
- 关键帧级：用SSIM算法对比连续帧检测显著变化，提取关键帧去除冗余；用InternVL2-40B对关键帧做OCR提取文本/公式/符号，并过滤低信息量关键帧和重复OCR
- 设计动机：多级（粗到细）过滤逐步消除噪声——视频级过滤不相关内容，片段级过滤无视觉知识的场景，关键帧级去除冗余帧和低质OCR
交错格式教材的组织:
- 将关键帧、OCR文本和精化ASR文本按时间顺序交错排列
- 即便某片段的视觉内容被过滤，其ASR文本仍可保留——不浪费有价值的口述知识
- 最终格式：\(\{\text{frame}_1^{k_1}, \text{frame}_1^{k_2}, \text{ocr}_1, \text{asr}_1, \text{asr}_2, \text{asr}_3, \text{frame}_4^{k_1}, \text{ocr}_4, \text{asr}_4, \ldots\}\)

训练策略¶

对LLaVA-1.5-7B做持续预训练（在558K配对数据对齐后），对Idefics2-8B分别做从头训练和持续预训练。为公平比较，从MMC4和OBELICS中采样等量样本（610K），使用相同训练参数。

实验关键数据¶

主实验¶

数据集/基准	设置	MMC4	OBELICS	Textbook-6.5M	提升
ScienceQA-IMG	0-shot	-	-	26.3	-
ScienceQA-IMG	4-shot	11.6	16.4	37.3	+20.9 vs MMC4
MathVista	0-shot	20.4	21.6	24.3	+2.7
MathVista	1-shot	30.0	28.5	43.4	+14.9 vs OBELICS
OKVQA	4-shot	28.7	37.5	39.9	+2.4 vs OBELICS
TextVQA	4-shot	20.9	32.2	33.5	+1.3 vs OBELICS
7基准平均	0-4shot	10.9-21.9	10.7-26.2	15.5-30.8	+3.2~+8.3

在Idefics2上持续预训练后，MathVista从27.6提升至29.7，MathVision从14.3提升至16.2。

消融实验¶

配置	1-shot平均准确率	说明
完整方法（SSIM+ASR精化+OCR）	31.1	最佳
去除ASR精化	26.2 (↓4.9)	原始ASR口语化PPL高达16.86，损害语言能力
去除OCR	28.8 (↓2.3)	OCR提供公式/符号等额外知识
SSIM→像素级关键帧提取	22.1 (↓9.0)	提取过多帧（18M），大量冗余
SSIM→CLIP语义级提取	24.6 (↓6.5)	提取过少帧（1.7M），丢失关键帧

关键发现¶

"作弊测试"验证上下文感知能力：将测试样本本身放入few-shot示例中，在MathVista上Textbook达94.1%（MMC4仅72.6%），证明预训练在Textbook上的VLM能有效关注交错上下文中的信息
打乱图片顺序实验表明：MMC4打乱后几乎无影响，OBELICS有中等下降，而Textbook性能大幅下降——证实视频源数据的图片序列具有强逻辑依赖，这对学习复杂知识和推理至关重要
指令微调后（LLaVA-665K），Textbook在MathVista上额外提升5.5%，是OBELICS（+2.4%）的两倍多

亮点与洞察¶

数据来源的范式转变：从网页爬取转向教学视频挖掘，利用视频天然的时序一致性和讲解-演示对齐性
In-sample Image SIM指标显示教材内图片相关性（0.686）是OBELICS（0.345）的两倍，且随图片数量增加保持稳定
每样本平均10.7张图片和1297个token，远超MMC4（5.7张/417 token）

局限与展望¶

数据集主要覆盖基础学科教育类视频，对通用领域VQA的zero-shot提升有限（需few-shot才显优势）
ASR精化依赖大型LLM（Qwen2-72B），处理75K视频的计算成本较高
仅覆盖英语教学视频，多语言扩展尚未探索
未与大规模（十亿级）网页数据混合训练，最优数据配比有待研究

评分¶

新颖性: ⭐⭐⭐⭐ 从教学视频构建交错教材数据集的思路新颖，填补了视频源预训练数据的空白
实验充分度: ⭐⭐⭐⭐⭐ 多模型、多基准、多消融、作弊测试和打乱实验设计巧妙
写作质量: ⭐⭐⭐⭐ 结构清晰，pipeline描述详细
价值: ⭐⭐⭐⭐ 数据集开源，pipeline可复用，对知识密集型VLM预训练有实际价值