跳转至

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

会议: ICCV 2025
arXiv: 2501.00958
代码: GitHub (已开源)
作者: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing (浙江大学 & 阿里达摩院)
领域: 音频语音
关键词: 多模态教科书, 交错图文语料, 教学视频, VLM预训练, 上下文学习

一句话总结

从YouTube收集2.5年(22,000课时)的教学视频,通过LLM驱动的多级抽取与过滤管线构建高质量交错图文"多模态教科书"语料(6.5M关键帧 + 0.75B文本token),显著提升VLM在知识密集型和推理任务上的预训练效果,尤其在ScienceQA和MathVista上带来大幅提升。

背景与动机

交错图文语料的价值:相比图文对数据,交错图文(image-text interleaved)语料能让VLM以更接近人类的方式理解世界,同时解锁in-context learning和多图比较等高级能力。

现有数据集的三大痛点: 1. 图文关系松散:网页爬取的交错数据集(如MMC4、OBELICS)中图像与文本关联弱,还包含logo、广告等无关图像 2. 图像序列缺乏逻辑连贯性:大多数网页图像少且图像间逻辑关系模糊,难以学习复杂视觉推理 3. 知识密度低:爬取的网页不可避免包含新闻、娱乐、广告等低知识密度内容

未被充分利用的教学视频资源:互联网上有大量教学视频(如YouTube上的几何课程),人们常用来学习基础知识和专业技能,但这些宝贵资源在VLM训练中几乎未被利用。教学视频天然具有帧帧演示+讲师详细口述解释的特点,是理想的训练数据来源。

Textbook数据的重要性:微软Phi系列模型已证明高质量教科书级数据对LLM训练至关重要。

核心问题

如何从海量互联网教学视频中系统性地提取高质量、教科书级别的交错图文数据集,以增强VLM预训练中的知识获取和推理能力?

方法详解

整体框架

构建一个Video-to-Textbook管线,包含两大阶段: 1. 教学视频收集:LLM生成知识分类体系 → 基于分类体系检索视频 → 元数据过滤 2. 视频到教科书转换:多级(视频级→片段级→关键帧级)的粗到细知识抽取与过滤

关键设计

1. LLM驱动的知识分类体系(Knowledge Taxonomy)

  • 四层层次结构:学科 → 课程 → 子课程 → 知识点
  • 使用GPT-4o构建,覆盖小学到中学多个教育阶段
  • 最终产出:6个学科(数学、物理、化学、地球科学、工程、计算机科学)→ 55门课程3,915个知识点
  • 每个知识点作为关键词通过YouTube Search API检索相关视频,每个知识点保留Top-50

2. 视频收集与元数据过滤

  • 基于知识点检索到的视频先去重(视频ID)
  • LLM审查元数据:使用LLM审查每个视频的标题、描述和评论,排除无关、色情或违法内容
  • 最终收集159,565个视频

3. 多级Video-to-Textbook管线

视频级 - ASR提取与重写: - 使用FFmpeg提取音频,Whisper-large-v3进行语音转文字(ASR) - ASR原始文本口语化、PPL高(16.8 vs 标准语料11.2),使用Qwen2-72B-Instruct重写降低PPL至13.9,提高流畅性和连贯性

视频级 - 低质量视频过滤: - 规则过滤:非英语、<10秒、几乎无ASR的视频 - LLM(DeepSeek-V2 + Llama3-70B-Instruct)从三个维度评估ASR: - 相关性:ASR是否与目标知识点对齐 - 知识密度:是否含大量"um"、"then we get this"等废话 - 转录质量:是否有重复或错误 - 两个LLM都判定不合格才过滤 → 保留75,000个高质量视频

片段级 - 长视频切短片段: - 利用ASR时间戳将长视频切分为10-20秒的短片段 - 先合并碎片化ASR段落为语义连贯的段落,再按时间戳切分

片段级 - 无视觉知识片段过滤: - 使用VideoLlama2为每个片段生成详细描述 - 计算片段描述与ASR的文本相似度(gte-Qwen2-7B-instruct),过滤无信息场景(过渡、纯讲师镜头等) - 被丢弃片段的ASR仍保留(可能含有价值信息)

关键帧级 - SSIM关键帧提取: - 使用SSIM算法逐帧比较连续帧的相似度 - 从第一帧开始,遇到显著变化的帧才保留为关键帧 → 提取6.5M关键帧 - 对比:像素级方法(OpenCV absdiff)提取过多(18M),语义级(CLIP-ViT-L)提取过少(1.7M),SSIM在教学视频场景下最优

关键帧级 - OCR提取: - 使用InternVL2-40B对每个关键帧进行OCR,提取屏幕文字、数学符号、公式等 - InternVL2同时对关键帧质量评分,过滤低信息量帧 - 连续关键帧中高度相似的OCR结果被去重

4. 交错格式组织

  • 按时间顺序将关键帧、OCR文本、ASR文本交错排列:{frame1_k1, frame1_k2, ocr1, asr1, asr2, asr3, frame4_k1, ocr4, asr4, ...}
  • 将多个片段拼接到VLM最大上下文长度,在每个视频结尾插入End of Video token
  • 最终:610K交错样本,平均每个样本10.7张关键帧 + 1,297个文本token

损失函数 / 训练策略

  • 标准的VLM预训练loss,不对图像token计算loss
  • 续训LLaVA-1.5-7B:在其预训练模型(558K对齐数据后)上继续预训练
  • Idefics2-8B两种设置:从头训练 / 在已用OBELICS预训练的base上继续训练
  • 公平对比:从MMC4和OBELICS中采样等量(610K)样本,所有数据集使用相同训练参数
  • 评估:RICES-based few-shot prompting(检索训练集中最相似的k个样本作为few-shot示例)

实验关键数据

LLaVA-1.5-7B 续训结果(Few-shot, 7个Benchmark平均)

设置 指标 Textbook-6.5M OBELICS MMC4 提升(vs OBELICS)
0-shot 7B平均 26.3 - - +3.2%
1-shot ScienceQA 29.4 2.8 1.6 大幅领先
1-shot MathVista 43.4 28.5 30.0 +14.9
4-shot 7B平均 - - - +4.6%

Idefics2-8B 结果

设置 指标 Textbook OBELICS MMC4-cf
续训 MathVista 29.7 27.6 27.8
续训 MathVision 16.2 14.3 14.0
从头训 MathVista 26.1 24.2 24.0

SFT后零样本结果(LLaVA-665K微调)

数据集 指标 Textbook+SFT 原始LLaVA-1.5 OBELICS+SFT
MathVista Acc 28.7 23.2 25.6
通用VQA Avg 62.2 61.1 61.8

"作弊测试"(Cheat Test) - 验证上下文感知能力

数据集 指标 Textbook OBELICS MMC4-cf
MathVista 1-shot cheat 94.1 67.7 72.6
MathVision 1-shot cheat 98.4 66.5 69.3
OKVQA 2-shot cheat 84.3 71.3 53.5

消融实验要点

  1. ASR重写至关重要:不重写ASR → 7个benchmark平均下降4.9%;原始ASR PPL=16.86,重写后=13.92
  2. OCR带来额外收益:去掉OCR → 平均下降2.3%,尤其影响TextVQA和MathVista
  3. 关键帧提取算法对比
    • 像素级(OpenCV absdiff):18M帧,性能下降9%(提取过多冗余帧)
    • 语义级(CLIP-ViT-L):1.7M帧,性能下降6.5%(遗漏关键帧)
    • SSIM:6.5M帧,最优(平衡数量与质量)
  4. 打乱图像顺序实验:打乱Textbook图像顺序后性能显著下降,而MMC4几乎不受影响 → 证明Textbook中图像序列的逻辑连贯性确实被模型学习利用

亮点

  1. 数据源创新:首次系统性地将YouTube教学视频转化为VLM预训练的交错图文语料,避开了传统网页爬取数据的三大缺陷
  2. 完整且精心设计的管线:从LLM生成知识分类体系到多级过滤,每一步都有充分的设计理据和消融验证
  3. "作弊测试"实验设计精妙:通过将测试样本放入few-shot上下文来检验模型是否真正"注意"到了交错上下文,揭示了传统数据集训练出的VLM实际上忽视了其上下文
  4. 数据集质量指标InSI-SIM:设计了in-sample image similarity指标量化评估交错数据集中图像关联程度,Textbook的0.686远超OBELICS的0.345
  5. 知识迁移到SFT阶段:预训练获得的知识可以迁移到下游SFT阶段,在MathVista上的提升是OBELICS的2倍

局限与展望

  1. 仍有噪声:尽管多级过滤,仍可能包含冗余关键帧和低质量文本
  2. 仅支持理解任务:训练时不计算图像token的loss,无法用于图像生成任务(可扩展到omni-modal模型)
  3. 学科覆盖有限:仅6个STEM学科,未覆盖人文、社科、医学等
  4. 英语为主:仅收集英语教学视频,多语言覆盖不足
  5. 依赖大量外部工具:管线依赖GPT-4o、Qwen2-72B、InternVL2-40B等多个大模型,复现成本高

与相关工作的对比

对比维度 本文Textbook MMC4/OBELICS OmniCorpus
数据来源 教学视频 网页(Common Crawl) 多源
平均图像数/样本 10.7 5.7/2.5 3.9
平均文本token/样本 1,297 417/816 574
InSI-SIM 0.686 0.319/0.345 0.321
知识密度 高(STEM教学) 低(混杂新闻等)
图像序列连贯性 强(时序视频帧) 弱(网页随机图)

与Phi系列"Textbooks Are All You Need"思想一致,但扩展到多模态领域:不仅文本是教科书级别,图像也通过视频帧提供高质量、高连贯性的视觉知识。

启发与关联

  • 视频作为预训练数据源:教学视频的时序结构天然提供了高质量的交错图文数据,这一思路可扩展到更多视频类型(科普、纪录片等)
  • 数据质量>数据数量:610K高质量样本即可显著超越百万级低质量网页数据,再次印证了"Textbooks Are All You Need"的哲学
  • 上下文感知能力的培养:Cheat Test揭示的问题值得关注——现有VLM可能并未真正利用few-shot上下文,而高质量交错数据可以改善这一问题
  • 可扩展到其他领域:同样的管线可以应用于医学教学视频、法律讲座、编程教程等Special domain

评分

  • 创新性: ★★★★☆ (4/5) — 数据源和管线设计都很新颖,但核心idea"用教学视频做预训练"相对直觉
  • 技术深度: ★★★★☆ (4/5) — 管线设计细致,消融充分,但不涉及模型架构创新
  • 实验充分度: ★★★★★ (5/5) — 多个VLM、多种设置、Cheat Test、打乱实验、消融实验,非常全面
  • 写作质量: ★★★★☆ (4/5) — 结构清晰,图表丰富
  • 影响力: ★★★★☆ (4/5) — 开源数据集+管线,对VLM预训练数据构建有实际指导意义