2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining¶
会议: ICCV 2025
arXiv: 2501.00958
代码: GitHub (已开源)
作者: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing (浙江大学 & 阿里达摩院)
领域: 音频语音
关键词: 多模态教科书, 交错图文语料, 教学视频, VLM预训练, 上下文学习
一句话总结¶
从YouTube收集2.5年(22,000课时)的教学视频,通过LLM驱动的多级抽取与过滤管线构建高质量交错图文"多模态教科书"语料(6.5M关键帧 + 0.75B文本token),显著提升VLM在知识密集型和推理任务上的预训练效果,尤其在ScienceQA和MathVista上带来大幅提升。
背景与动机¶
交错图文语料的价值:相比图文对数据,交错图文(image-text interleaved)语料能让VLM以更接近人类的方式理解世界,同时解锁in-context learning和多图比较等高级能力。
现有数据集的三大痛点: 1. 图文关系松散:网页爬取的交错数据集(如MMC4、OBELICS)中图像与文本关联弱,还包含logo、广告等无关图像 2. 图像序列缺乏逻辑连贯性:大多数网页图像少且图像间逻辑关系模糊,难以学习复杂视觉推理 3. 知识密度低:爬取的网页不可避免包含新闻、娱乐、广告等低知识密度内容
未被充分利用的教学视频资源:互联网上有大量教学视频(如YouTube上的几何课程),人们常用来学习基础知识和专业技能,但这些宝贵资源在VLM训练中几乎未被利用。教学视频天然具有帧帧演示+讲师详细口述解释的特点,是理想的训练数据来源。
Textbook数据的重要性:微软Phi系列模型已证明高质量教科书级数据对LLM训练至关重要。
核心问题¶
如何从海量互联网教学视频中系统性地提取高质量、教科书级别的交错图文数据集,以增强VLM预训练中的知识获取和推理能力?
方法详解¶
整体框架¶
构建一个Video-to-Textbook管线,包含两大阶段: 1. 教学视频收集:LLM生成知识分类体系 → 基于分类体系检索视频 → 元数据过滤 2. 视频到教科书转换:多级(视频级→片段级→关键帧级)的粗到细知识抽取与过滤
关键设计¶
1. LLM驱动的知识分类体系(Knowledge Taxonomy)¶
- 四层层次结构:学科 → 课程 → 子课程 → 知识点
- 使用GPT-4o构建,覆盖小学到中学多个教育阶段
- 最终产出:6个学科(数学、物理、化学、地球科学、工程、计算机科学)→ 55门课程 → 3,915个知识点
- 每个知识点作为关键词通过YouTube Search API检索相关视频,每个知识点保留Top-50
2. 视频收集与元数据过滤¶
- 基于知识点检索到的视频先去重(视频ID)
- LLM审查元数据:使用LLM审查每个视频的标题、描述和评论,排除无关、色情或违法内容
- 最终收集159,565个视频
3. 多级Video-to-Textbook管线¶
视频级 - ASR提取与重写: - 使用FFmpeg提取音频,Whisper-large-v3进行语音转文字(ASR) - ASR原始文本口语化、PPL高(16.8 vs 标准语料11.2),使用Qwen2-72B-Instruct重写降低PPL至13.9,提高流畅性和连贯性
视频级 - 低质量视频过滤: - 规则过滤:非英语、<10秒、几乎无ASR的视频 - LLM(DeepSeek-V2 + Llama3-70B-Instruct)从三个维度评估ASR: - 相关性:ASR是否与目标知识点对齐 - 知识密度:是否含大量"um"、"then we get this"等废话 - 转录质量:是否有重复或错误 - 两个LLM都判定不合格才过滤 → 保留75,000个高质量视频
片段级 - 长视频切短片段: - 利用ASR时间戳将长视频切分为10-20秒的短片段 - 先合并碎片化ASR段落为语义连贯的段落,再按时间戳切分
片段级 - 无视觉知识片段过滤: - 使用VideoLlama2为每个片段生成详细描述 - 计算片段描述与ASR的文本相似度(gte-Qwen2-7B-instruct),过滤无信息场景(过渡、纯讲师镜头等) - 被丢弃片段的ASR仍保留(可能含有价值信息)
关键帧级 - SSIM关键帧提取: - 使用SSIM算法逐帧比较连续帧的相似度 - 从第一帧开始,遇到显著变化的帧才保留为关键帧 → 提取6.5M关键帧 - 对比:像素级方法(OpenCV absdiff)提取过多(18M),语义级(CLIP-ViT-L)提取过少(1.7M),SSIM在教学视频场景下最优
关键帧级 - OCR提取: - 使用InternVL2-40B对每个关键帧进行OCR,提取屏幕文字、数学符号、公式等 - InternVL2同时对关键帧质量评分,过滤低信息量帧 - 连续关键帧中高度相似的OCR结果被去重
4. 交错格式组织¶
- 按时间顺序将关键帧、OCR文本、ASR文本交错排列:
{frame1_k1, frame1_k2, ocr1, asr1, asr2, asr3, frame4_k1, ocr4, asr4, ...} - 将多个片段拼接到VLM最大上下文长度,在每个视频结尾插入
End of Videotoken - 最终:610K交错样本,平均每个样本10.7张关键帧 + 1,297个文本token
损失函数 / 训练策略¶
- 标准的VLM预训练loss,不对图像token计算loss
- 续训LLaVA-1.5-7B:在其预训练模型(558K对齐数据后)上继续预训练
- Idefics2-8B两种设置:从头训练 / 在已用OBELICS预训练的base上继续训练
- 公平对比:从MMC4和OBELICS中采样等量(610K)样本,所有数据集使用相同训练参数
- 评估:RICES-based few-shot prompting(检索训练集中最相似的k个样本作为few-shot示例)
实验关键数据¶
LLaVA-1.5-7B 续训结果(Few-shot, 7个Benchmark平均)¶
| 设置 | 指标 | Textbook-6.5M | OBELICS | MMC4 | 提升(vs OBELICS) |
|---|---|---|---|---|---|
| 0-shot | 7B平均 | 26.3 | - | - | +3.2% |
| 1-shot | ScienceQA | 29.4 | 2.8 | 1.6 | 大幅领先 |
| 1-shot | MathVista | 43.4 | 28.5 | 30.0 | +14.9 |
| 4-shot | 7B平均 | - | - | - | +4.6% |
Idefics2-8B 结果¶
| 设置 | 指标 | Textbook | OBELICS | MMC4-cf |
|---|---|---|---|---|
| 续训 | MathVista | 29.7 | 27.6 | 27.8 |
| 续训 | MathVision | 16.2 | 14.3 | 14.0 |
| 从头训 | MathVista | 26.1 | 24.2 | 24.0 |
SFT后零样本结果(LLaVA-665K微调)¶
| 数据集 | 指标 | Textbook+SFT | 原始LLaVA-1.5 | OBELICS+SFT |
|---|---|---|---|---|
| MathVista | Acc | 28.7 | 23.2 | 25.6 |
| 通用VQA | Avg | 62.2 | 61.1 | 61.8 |
"作弊测试"(Cheat Test) - 验证上下文感知能力¶
| 数据集 | 指标 | Textbook | OBELICS | MMC4-cf |
|---|---|---|---|---|
| MathVista | 1-shot cheat | 94.1 | 67.7 | 72.6 |
| MathVision | 1-shot cheat | 98.4 | 66.5 | 69.3 |
| OKVQA | 2-shot cheat | 84.3 | 71.3 | 53.5 |
消融实验要点¶
- ASR重写至关重要:不重写ASR → 7个benchmark平均下降4.9%;原始ASR PPL=16.86,重写后=13.92
- OCR带来额外收益:去掉OCR → 平均下降2.3%,尤其影响TextVQA和MathVista
- 关键帧提取算法对比:
- 像素级(OpenCV absdiff):18M帧,性能下降9%(提取过多冗余帧)
- 语义级(CLIP-ViT-L):1.7M帧,性能下降6.5%(遗漏关键帧)
- SSIM:6.5M帧,最优(平衡数量与质量)
- 打乱图像顺序实验:打乱Textbook图像顺序后性能显著下降,而MMC4几乎不受影响 → 证明Textbook中图像序列的逻辑连贯性确实被模型学习利用
亮点¶
- 数据源创新:首次系统性地将YouTube教学视频转化为VLM预训练的交错图文语料,避开了传统网页爬取数据的三大缺陷
- 完整且精心设计的管线:从LLM生成知识分类体系到多级过滤,每一步都有充分的设计理据和消融验证
- "作弊测试"实验设计精妙:通过将测试样本放入few-shot上下文来检验模型是否真正"注意"到了交错上下文,揭示了传统数据集训练出的VLM实际上忽视了其上下文
- 数据集质量指标InSI-SIM:设计了in-sample image similarity指标量化评估交错数据集中图像关联程度,Textbook的0.686远超OBELICS的0.345
- 知识迁移到SFT阶段:预训练获得的知识可以迁移到下游SFT阶段,在MathVista上的提升是OBELICS的2倍
局限与展望¶
- 仍有噪声:尽管多级过滤,仍可能包含冗余关键帧和低质量文本
- 仅支持理解任务:训练时不计算图像token的loss,无法用于图像生成任务(可扩展到omni-modal模型)
- 学科覆盖有限:仅6个STEM学科,未覆盖人文、社科、医学等
- 英语为主:仅收集英语教学视频,多语言覆盖不足
- 依赖大量外部工具:管线依赖GPT-4o、Qwen2-72B、InternVL2-40B等多个大模型,复现成本高
与相关工作的对比¶
| 对比维度 | 本文Textbook | MMC4/OBELICS | OmniCorpus |
|---|---|---|---|
| 数据来源 | 教学视频 | 网页(Common Crawl) | 多源 |
| 平均图像数/样本 | 10.7 | 5.7/2.5 | 3.9 |
| 平均文本token/样本 | 1,297 | 417/816 | 574 |
| InSI-SIM | 0.686 | 0.319/0.345 | 0.321 |
| 知识密度 | 高(STEM教学) | 低(混杂新闻等) | 中 |
| 图像序列连贯性 | 强(时序视频帧) | 弱(网页随机图) | 弱 |
与Phi系列"Textbooks Are All You Need"思想一致,但扩展到多模态领域:不仅文本是教科书级别,图像也通过视频帧提供高质量、高连贯性的视觉知识。
启发与关联¶
- 视频作为预训练数据源:教学视频的时序结构天然提供了高质量的交错图文数据,这一思路可扩展到更多视频类型(科普、纪录片等)
- 数据质量>数据数量:610K高质量样本即可显著超越百万级低质量网页数据,再次印证了"Textbooks Are All You Need"的哲学
- 上下文感知能力的培养:Cheat Test揭示的问题值得关注——现有VLM可能并未真正利用few-shot上下文,而高质量交错数据可以改善这一问题
- 可扩展到其他领域:同样的管线可以应用于医学教学视频、法律讲座、编程教程等Special domain
评分¶
- 创新性: ★★★★☆ (4/5) — 数据源和管线设计都很新颖,但核心idea"用教学视频做预训练"相对直觉
- 技术深度: ★★★★☆ (4/5) — 管线设计细致,消融充分,但不涉及模型架构创新
- 实验充分度: ★★★★★ (5/5) — 多个VLM、多种设置、Cheat Test、打乱实验、消融实验,非常全面
- 写作质量: ★★★★☆ (4/5) — 结构清晰,图表丰富
- 影响力: ★★★★☆ (4/5) — 开源数据集+管线,对VLM预训练数据构建有实际指导意义