2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining¶

会议: ICCV 2025
arXiv: 2501.00958
代码: GitHub (已开源)
作者: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing (浙江大学 & 阿里达摩院)
领域: 音频语音
关键词: 多模态教科书, 交错图文语料, 教学视频, VLM预训练, 上下文学习

一句话总结¶

从YouTube收集2.5年(22,000课时)的教学视频，通过LLM驱动的多级抽取与过滤管线构建高质量交错图文"多模态教科书"语料(6.5M关键帧 + 0.75B文本token)，显著提升VLM在知识密集型和推理任务上的预训练效果，尤其在ScienceQA和MathVista上带来大幅提升。

背景与动机¶

交错图文语料的价值：相比图文对数据，交错图文(image-text interleaved)语料能让VLM以更接近人类的方式理解世界，同时解锁in-context learning和多图比较等高级能力。

现有数据集的三大痛点： 1. 图文关系松散：网页爬取的交错数据集(如MMC4、OBELICS)中图像与文本关联弱，还包含logo、广告等无关图像 2. 图像序列缺乏逻辑连贯性：大多数网页图像少且图像间逻辑关系模糊，难以学习复杂视觉推理 3. 知识密度低：爬取的网页不可避免包含新闻、娱乐、广告等低知识密度内容

未被充分利用的教学视频资源：互联网上有大量教学视频(如YouTube上的几何课程)，人们常用来学习基础知识和专业技能，但这些宝贵资源在VLM训练中几乎未被利用。教学视频天然具有帧帧演示+讲师详细口述解释的特点，是理想的训练数据来源。

Textbook数据的重要性：微软Phi系列模型已证明高质量教科书级数据对LLM训练至关重要。

核心问题¶

如何从海量互联网教学视频中系统性地提取高质量、教科书级别的交错图文数据集，以增强VLM预训练中的知识获取和推理能力？

方法详解¶

整体框架¶

构建一个Video-to-Textbook管线，包含两大阶段： 1. 教学视频收集：LLM生成知识分类体系 → 基于分类体系检索视频 → 元数据过滤 2. 视频到教科书转换：多级(视频级→片段级→关键帧级)的粗到细知识抽取与过滤

关键设计¶

1. LLM驱动的知识分类体系(Knowledge Taxonomy)¶

四层层次结构：学科 → 课程 → 子课程 → 知识点
使用GPT-4o构建，覆盖小学到中学多个教育阶段
最终产出：6个学科（数学、物理、化学、地球科学、工程、计算机科学）→ 55门课程 → 3,915个知识点
每个知识点作为关键词通过YouTube Search API检索相关视频，每个知识点保留Top-50

2. 视频收集与元数据过滤¶

基于知识点检索到的视频先去重(视频ID)
LLM审查元数据：使用LLM审查每个视频的标题、描述和评论，排除无关、色情或违法内容
最终收集159,565个视频

3. 多级Video-to-Textbook管线¶

视频级 - ASR提取与重写： - 使用FFmpeg提取音频，Whisper-large-v3进行语音转文字(ASR) - ASR原始文本口语化、PPL高(16.8 vs 标准语料11.2)，使用Qwen2-72B-Instruct重写降低PPL至13.9，提高流畅性和连贯性

视频级 - 低质量视频过滤： - 规则过滤：非英语、<10秒、几乎无ASR的视频 - LLM(DeepSeek-V2 + Llama3-70B-Instruct)从三个维度评估ASR： - 相关性：ASR是否与目标知识点对齐 - 知识密度：是否含大量"um"、"then we get this"等废话 - 转录质量：是否有重复或错误 - 两个LLM都判定不合格才过滤 → 保留75,000个高质量视频

片段级 - 长视频切短片段： - 利用ASR时间戳将长视频切分为10-20秒的短片段 - 先合并碎片化ASR段落为语义连贯的段落，再按时间戳切分

片段级 - 无视觉知识片段过滤： - 使用VideoLlama2为每个片段生成详细描述 - 计算片段描述与ASR的文本相似度(gte-Qwen2-7B-instruct)，过滤无信息场景(过渡、纯讲师镜头等) - 被丢弃片段的ASR仍保留(可能含有价值信息)

关键帧级 - SSIM关键帧提取： - 使用SSIM算法逐帧比较连续帧的相似度 - 从第一帧开始，遇到显著变化的帧才保留为关键帧 → 提取6.5M关键帧 - 对比：像素级方法(OpenCV absdiff)提取过多(18M)，语义级(CLIP-ViT-L)提取过少(1.7M)，SSIM在教学视频场景下最优

关键帧级 - OCR提取： - 使用InternVL2-40B对每个关键帧进行OCR，提取屏幕文字、数学符号、公式等 - InternVL2同时对关键帧质量评分，过滤低信息量帧 - 连续关键帧中高度相似的OCR结果被去重

4. 交错格式组织¶

按时间顺序将关键帧、OCR文本、ASR文本交错排列：{frame1_k1, frame1_k2, ocr1, asr1, asr2, asr3, frame4_k1, ocr4, asr4, ...}
将多个片段拼接到VLM最大上下文长度，在每个视频结尾插入End of Video token
最终：610K交错样本，平均每个样本10.7张关键帧 + 1,297个文本token

损失函数 / 训练策略¶

标准的VLM预训练loss，不对图像token计算loss
续训LLaVA-1.5-7B：在其预训练模型(558K对齐数据后)上继续预训练
Idefics2-8B两种设置：从头训练 / 在已用OBELICS预训练的base上继续训练
公平对比：从MMC4和OBELICS中采样等量(610K)样本，所有数据集使用相同训练参数
评估：RICES-based few-shot prompting(检索训练集中最相似的k个样本作为few-shot示例)

实验关键数据¶

LLaVA-1.5-7B 续训结果(Few-shot, 7个Benchmark平均)¶

设置	指标	Textbook-6.5M	OBELICS	MMC4	提升(vs OBELICS)
0-shot	7B平均	26.3	-	-	+3.2%
1-shot	ScienceQA	29.4	2.8	1.6	大幅领先
1-shot	MathVista	43.4	28.5	30.0	+14.9
4-shot	7B平均	-	-	-	+4.6%

Idefics2-8B 结果¶

设置	指标	Textbook	OBELICS	MMC4-cf
续训	MathVista	29.7	27.6	27.8
续训	MathVision	16.2	14.3	14.0
从头训	MathVista	26.1	24.2	24.0

SFT后零样本结果(LLaVA-665K微调)¶

数据集	指标	Textbook+SFT	原始LLaVA-1.5	OBELICS+SFT
MathVista	Acc	28.7	23.2	25.6
通用VQA	Avg	62.2	61.1	61.8

"作弊测试"(Cheat Test) - 验证上下文感知能力¶

数据集	指标	Textbook	OBELICS	MMC4-cf
MathVista	1-shot cheat	94.1	67.7	72.6
MathVision	1-shot cheat	98.4	66.5	69.3
OKVQA	2-shot cheat	84.3	71.3	53.5

消融实验要点¶

ASR重写至关重要：不重写ASR → 7个benchmark平均下降4.9%；原始ASR PPL=16.86，重写后=13.92
OCR带来额外收益：去掉OCR → 平均下降2.3%，尤其影响TextVQA和MathVista
关键帧提取算法对比：
- 像素级(OpenCV absdiff)：18M帧，性能下降9%（提取过多冗余帧）
- 语义级(CLIP-ViT-L)：1.7M帧，性能下降6.5%（遗漏关键帧）
- SSIM：6.5M帧，最优（平衡数量与质量）
打乱图像顺序实验：打乱Textbook图像顺序后性能显著下降，而MMC4几乎不受影响 → 证明Textbook中图像序列的逻辑连贯性确实被模型学习利用

亮点¶

数据源创新：首次系统性地将YouTube教学视频转化为VLM预训练的交错图文语料，避开了传统网页爬取数据的三大缺陷
完整且精心设计的管线：从LLM生成知识分类体系到多级过滤，每一步都有充分的设计理据和消融验证
"作弊测试"实验设计精妙：通过将测试样本放入few-shot上下文来检验模型是否真正"注意"到了交错上下文，揭示了传统数据集训练出的VLM实际上忽视了其上下文
数据集质量指标InSI-SIM：设计了in-sample image similarity指标量化评估交错数据集中图像关联程度，Textbook的0.686远超OBELICS的0.345
知识迁移到SFT阶段：预训练获得的知识可以迁移到下游SFT阶段，在MathVista上的提升是OBELICS的2倍

局限与展望¶

仍有噪声：尽管多级过滤，仍可能包含冗余关键帧和低质量文本
仅支持理解任务：训练时不计算图像token的loss，无法用于图像生成任务（可扩展到omni-modal模型）
学科覆盖有限：仅6个STEM学科，未覆盖人文、社科、医学等
英语为主：仅收集英语教学视频，多语言覆盖不足
依赖大量外部工具：管线依赖GPT-4o、Qwen2-72B、InternVL2-40B等多个大模型，复现成本高

与相关工作的对比¶

对比维度	本文Textbook	MMC4/OBELICS	OmniCorpus
数据来源	教学视频	网页(Common Crawl)	多源
平均图像数/样本	10.7	5.7/2.5	3.9
平均文本token/样本	1,297	417/816	574
InSI-SIM	0.686	0.319/0.345	0.321
知识密度	高(STEM教学)	低(混杂新闻等)	中
图像序列连贯性	强(时序视频帧)	弱(网页随机图)	弱

与Phi系列"Textbooks Are All You Need"思想一致，但扩展到多模态领域：不仅文本是教科书级别，图像也通过视频帧提供高质量、高连贯性的视觉知识。

启发与关联¶

视频作为预训练数据源：教学视频的时序结构天然提供了高质量的交错图文数据，这一思路可扩展到更多视频类型(科普、纪录片等)
数据质量>数据数量：610K高质量样本即可显著超越百万级低质量网页数据，再次印证了"Textbooks Are All You Need"的哲学
上下文感知能力的培养：Cheat Test揭示的问题值得关注——现有VLM可能并未真正利用few-shot上下文，而高质量交错数据可以改善这一问题
可扩展到其他领域：同样的管线可以应用于医学教学视频、法律讲座、编程教程等Special domain

评分¶

创新性: ★★★★☆ (4/5) — 数据源和管线设计都很新颖，但核心idea"用教学视频做预训练"相对直觉
技术深度: ★★★★☆ (4/5) — 管线设计细致，消融充分，但不涉及模型架构创新
实验充分度: ★★★★★ (5/5) — 多个VLM、多种设置、Cheat Test、打乱实验、消融实验，非常全面
写作质量: ★★★★☆ (4/5) — 结构清晰，图表丰富
影响力: ★★★★☆ (4/5) — 开源数据集+管线，对VLM预训练数据构建有实际指导意义