跳转至

BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models

会议: CVPR 2026
arXiv: 2512.10932
代码: https://shawnking98.github.io/BabyVLM-v2/
领域: 音频语音
关键词: 发育认知, 婴儿视觉, 样本效率预训练, NIH Baby Toolbox, DevCV Toolbox

一句话总结

提出BabyVLM-V2框架,从婴儿第一视角的SAYCam纵向语料构建三种格式预训练数据(768K图像对+181K视频对+63K交错序列),设计基于NIH Baby Toolbox®的DevCV Toolbox(10个发育认知任务),从零训练的紧凑模型在部分数学任务上超越GPT-4o,首次系统探索人工发育智能(ADI)。

研究背景与动机

领域现状:视觉基础模型依赖scaling law在海量数据上预训练,但早期儿童能从极其有限的视觉输入(出生到3岁约4万小时清醒时间)中发展出强大的感知和推理能力。这构成了样本效率预训练的自然目标。

现有痛点:BabyVLM-V1(前作)存在四大不足——(1) 仅用SAYCam约1/3录像(67K图像对),覆盖极小比例;(2) 仅支持图像-文本对,不支持视频和多轮对话;(3) 4个评测任务是直觉设计而非基于标准化心理学测试;(4) 模型开放集性能接近零,需对logits后处理才能评估。

核心矛盾:如何在婴儿有限的感官体验约束下,训练出像早期儿童一样能力多样的基础模型?如何用发育心理学标准公正评估?

切入角度:(1) 最大化SAYCam语料利用率并构建多格式数据支持多样化下游任务;(2) 使用2025年2月NIH发布的Baby Toolbox®——目前最权威的儿童神经发育评估工具——作为benchmark设计基础。

核心idea:将发育心理学标准化评估方法工程化为AI评测的计算机视觉任务,建立DevCV Toolbox。

方法详解

整体框架

这篇论文想回答一个问题:如果只给模型婴儿那点有限的视觉经验,它能学到多少早期儿童的认知能力?为此作者把婴儿第一视角的 SAYCam 纵向录像(478 小时)尽量"原样"地转成预训练数据,从零训练一个紧凑的视觉-语言模型,再用一套基于发育心理学标准测试改造的 benchmark 来考它。整条流水线是:原始录像经最小化处理切成三种格式的预训练数据(图像对 / 视频对 / 交错序列)→ 三阶段预训练把视觉编码器、图文对齐、多格式联合训练逐级搭起来 → 用 113K 样本做指令微调让模型从输出 logits 变成会说人话 → 最后在 DevCV Toolbox 的 10 个认知任务上评测。其中评测样本本身也由 SAYCam 帧经一条任务适配流程重建而来,让评测和训练同处一个视觉域。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["SAYCam 婴儿第一视角录像(478 小时)"]
    A --> DATA
    A --> ADAPT

    subgraph DATA["多格式预训练数据"]
        direction TB
        D1["视频-语句对 181K<br/>按句子边界切分 + X-CLIP 过滤"]
        D2["图像-语句对 768K<br/>1FPS 采样 + CLIP 过滤"]
        D3["交错图文序列 63K<br/>滑动窗口串联最佳帧+语句"]
    end

    subgraph TRAIN["从零训练的紧凑模型"]
        direction TB
        T1["ViT-L-16 + MLP + LLaMA-1.1B<br/>全部从零训练"]
        T2["三阶段预训练<br/>视觉编码器 → 图文对齐 → 多格式联合"]
        T1 --> T2
    end

    DATA --> TRAIN
    TRAIN --> FT["指令微调(113K)<br/>logits 输出 → 自然语言应答"]

    subgraph ADAPT["任务适配流程"]
        direction TB
        P1["SAYCam 帧 → GPT-4o 标注 → Grounding-DINO 裁剪"]
        P2["MAB-CDI 词表过滤 → 构造干扰项 → 人工质检"]
        P1 --> P2
    end

    ADAPT --> BENCH["DevCV Toolbox<br/>10 个发育认知任务(语言/执行记忆/数学)"]

    FT --> EVAL["域内评测结果"]
    BENCH --> EVAL

关键设计

1. 多格式预训练数据:让有限的婴儿录像支撑起多样化下游能力

V1 的根本短板是只用了约 1/3 录像、只支持图像-文本对,于是下游任务也被卡死在单图理解上。V2 把 SAYCam 几乎榨干,并刻意做成三种互补格式。视频-语句对(181K)按语音转录的句子边界切分视频,Azure 语音识别提字幕,再用 X-CLIP 图文相似度 >0.1 过滤掉对不上的片段,最终保留 138 小时;图像-语句对(768K)从视频对里 1FPS 采样、CLIP 相似度 >0.2 保留,规模直接是 V1 的 67K 的 11 倍;交错图文序列(63K)则用大小 4–8 的滑动窗口,把连续片段各自的最佳帧+语句串起来,模拟婴儿"连续交互"的经验流。三种格式不是冗余,而是各自喂养不同能力——视频对撑起时序理解、图像对撑起静态感知、交错序列撑起多轮对话,恰好覆盖后面 benchmark 的不同任务类型。关键是整条链路只做"切分+过滤"这种最小化处理,不引入额外标注或合成,保住了数据的发育真实性。

2. DevCV Toolbox:把临床发育测评工程化成计算机视觉任务

V1 的 4 个评测任务是凭直觉拍的,没有心理学依据,说服力弱。V2 改用 2025 年 2 月 NIH 发布的 Baby Toolbox®——目前最权威的儿童神经发育评估工具——作为蓝本,搭出含 10 个任务的 DevCV Toolbox,分三个子域:语言(Looking While Listening 双图选择、Picture Vocabulary 四图词汇理解、Localization 物体定位)、执行功能与记忆(Left/Right 朝向辨别、Spatial Details 空间细节、Visual Delayed Response 遮挡后记忆、Memory 多轮延迟记忆)、数学(Who Has More 数量比较含合成与自然两版、Subitizing 快速计数、Object Counting 物体计数)。每个任务都不是直接搬原工具箱的卡通刺激物,而是从 SAYCam 帧里重新构建自然场景样本,这样评测和训练同处一个视觉域,避免分布漂移把成绩压低。借 NIH 工具箱的临床背书,benchmark 的可信度也跟着立起来了。

3. 任务适配流程:以 Picture Vocabulary 为例看一个临床测试怎么落成 CV 样本

把心理学测试变成 AI 能做的题,难点在于既要保留测试的考查意图,又要换成域内的真实图像。原始 NIH 测试是 iPad 上摆 4 张卡通图配语音提示、让儿童点选目标。DevCV 的适配链条则是:SAYCam 帧 1FPS 采样 → GPT-4o 加手工标注框出帧里的物体 → Grounding-DINO 把物体裁出来 → 用 MAB-CDI 婴儿词汇表过滤掉超纲词 → 再按语义和语音学分布去构造干扰项(让错选项既不太像也不太离谱)→ 最后人工质检。这套半自动流程让每道题既符合原测试的难度梯度,又用的是婴儿真实见过的画面,是前面"域内评测"原则的具体落地。

4. 从零训练的紧凑模型:把能力来源完全锁定在婴儿语料

模型是 ViT-L-16(300M)+ MLP 连接器 + LLaMA-1.1B 的标准视觉-语言架构,输入支持文本、单图、多图、视频、多轮对话,输出统一是自然语言。最关键的一条约束是全部组件都从零训练、不加载任何预训练权重——因为只要用了外部预训练,就无法判断模型表现到底来自婴儿经验还是别的海量语料,这条实验才不成立。这也是为什么一个仅 ~1.4B、只见过 478 小时录像的模型若能在某些任务上打平甚至超过 GPT-4o,结论才有分量。

损失函数 / 训练策略

三阶段 pipeline:Stage 1 预训练视觉编码器,Stage 2 做图像-文本对齐,Stage 3 在三种格式上联合训练;最后用 DevCV 任务做指令微调,把模型从输出 logits 拉成自然语言应答。

实验关键数据

主实验(DevCV Toolbox 域内评测)

模型 Overall Count PV(词汇) Memory WhoHasMore LeftRight
人类表现 93.0 99.1 91.8 87.3 63.6/95.5 94.5
Gemini-2.5-flash 72.7 71.1 91.2 84.8 42.4 34.9
GPT-4o ~70 ~65 ~90 ~80 ~40 ~34
BabyVLM-V2 竞争力 部分超越GPT-4o 竞争力 竞争力 竞争力 竞争力

消融实验

配置 关键影响 说明
仅图像-文本预训练(V1) 基线 开放集接近零
+视频-语句(181K) +视频理解任务改善 DelayedResponse任务受益
+交错序列(63K) +多轮对话任务改善 Memory任务受益
+指令微调(113K) 显著全面提升 从logits输出→自然语言
768K vs 67K图像对 V2 >> V1 数据量的直接影响

关键发现

  • 数学任务超越GPT-4o:从零训练的~1.4B模型在Who Has More和Counting上部分超越GPT-4o——婴儿经验数据蕴含足够的计数和数量理解
  • DevCV Toolbox的人类上界(93%)远高于所有AI模型,AI与儿童认知差距显著
  • Subitizing和Looking While Listening作为hold-out任务测试泛化性,证实多格式预训练的泛化收益
  • 三种预训练数据格式各有独立且互补的贡献
  • OOD测试集(Ego4D构建)性能下降验证了域内评测的必要性

亮点与洞察

  • 发育心理学标准化评估的AI工程化:首次将NIH Baby Toolbox®转化为AI评测benchmark,开创了发育计算视觉的研究范式。未来心理学家可以用DevCV Toolbox"阅读早期儿童的心智"
  • 挑战Scaling Law:仅478小时的婴儿经验就能训练出在数学任务上超越GPT-4o的模型,展示了样本效率预训练的巨大潜力
  • 数据格式多样性>数据量:V1(67K)到V2(768K+视频+交错)的跨越不仅来自量的增加,更关键的是格式多样性使能力多样化
  • 三方有益:让大学可参与FM研究+为认知科学提供实验工具+增进AI公众理解

局限与展望

  • SAYCam仅3名婴儿(6-32月龄),样本量极小且存在个体差异。BabyView等更大规模数据待纳入
  • 紧凑模型在复杂推理上仍远逊于大模型和人类——ADI差距巨大
  • DevCV Toolbox缺儿童实际表现数据(仅成人上界)——需心理学实验室合作收集真正的发育对比数据
  • 指令微调用DevCV任务本身,可能存在task leakage
  • 不包括非视觉的语言和运动发育评估

相关工作与启发

  • vs BabyVLM-V1: 数据扩大11倍+多格式;benchmark 4→10任务且基于NIH标准化测试;模型从logits→自然语言
  • vs Vong et al.(CLIP on SAYCam): 仅关注词-指称映射,本文关注通用感知
  • vs DevBench/KIVA: 面向更大年龄段,不匹配SAYCam的6-32月龄段
  • 启发:发育认知视角可为AI训练策略提供全新灵感——也许"像婴儿一样学习"是通往AGI的另一条道路

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 独特的发育认知视角+NIH Baby Toolbox®的首次AI适配
  • 实验充分度: ⭐⭐⭐⭐ DevCV设计严谨,缺乏真实儿童数据对比
  • 写作质量: ⭐⭐⭐⭐⭐ 跨学科背景介绍充分
  • 价值: ⭐⭐⭐⭐⭐ 对理解AI与人类认知的关系有深远影响