BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models¶

会议: CVPR 2026
arXiv: 2512.10932
代码: https://shawnking98.github.io/BabyVLM-v2/
领域: 音频语音
关键词: 发育认知, 婴儿视觉, 样本效率预训练, NIH Baby Toolbox, DevCV Toolbox

一句话总结¶

提出BabyVLM-V2框架，从婴儿第一视角的SAYCam纵向语料构建三种格式预训练数据（768K图像对+181K视频对+63K交错序列），设计基于NIH Baby Toolbox®的DevCV Toolbox（10个发育认知任务），从零训练的紧凑模型在部分数学任务上超越GPT-4o，首次系统探索人工发育智能(ADI)。

研究背景与动机¶

领域现状：视觉基础模型依赖scaling law在海量数据上预训练，但早期儿童能从极其有限的视觉输入（出生到3岁约4万小时清醒时间）中发展出强大的感知和推理能力。这构成了样本效率预训练的自然目标。

现有痛点：BabyVLM-V1（前作）存在四大不足——(1) 仅用SAYCam约1/3录像(67K图像对)，覆盖极小比例；(2) 仅支持图像-文本对，不支持视频和多轮对话；(3) 4个评测任务是直觉设计而非基于标准化心理学测试；(4) 模型开放集性能接近零，需对logits后处理才能评估。

核心矛盾：如何在婴儿有限的感官体验约束下，训练出像早期儿童一样能力多样的基础模型？如何用发育心理学标准公正评估？

切入角度：(1) 最大化SAYCam语料利用率并构建多格式数据支持多样化下游任务；(2) 使用2025年2月NIH发布的Baby Toolbox®——目前最权威的儿童神经发育评估工具——作为benchmark设计基础。

核心idea：将发育心理学标准化评估方法工程化为AI评测的计算机视觉任务，建立DevCV Toolbox。

方法详解¶

整体框架¶

这篇论文想回答一个问题：如果只给模型婴儿那点有限的视觉经验，它能学到多少早期儿童的认知能力？为此作者把婴儿第一视角的 SAYCam 纵向录像（478 小时）尽量"原样"地转成预训练数据，从零训练一个紧凑的视觉-语言模型，再用一套基于发育心理学标准测试改造的 benchmark 来考它。整条流水线是：原始录像经最小化处理切成三种格式的预训练数据（图像对 / 视频对 / 交错序列）→ 三阶段预训练把视觉编码器、图文对齐、多格式联合训练逐级搭起来 → 用 113K 样本做指令微调让模型从输出 logits 变成会说人话 → 最后在 DevCV Toolbox 的 10 个认知任务上评测。其中评测样本本身也由 SAYCam 帧经一条任务适配流程重建而来，让评测和训练同处一个视觉域。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["SAYCam 婴儿第一视角录像（478 小时）"]
    A --> DATA
    A --> ADAPT

    subgraph DATA["多格式预训练数据"]
        direction TB
        D1["视频-语句对 181K<br/>按句子边界切分 + X-CLIP 过滤"]
        D2["图像-语句对 768K<br/>1FPS 采样 + CLIP 过滤"]
        D3["交错图文序列 63K<br/>滑动窗口串联最佳帧+语句"]
    end

    subgraph TRAIN["从零训练的紧凑模型"]
        direction TB
        T1["ViT-L-16 + MLP + LLaMA-1.1B<br/>全部从零训练"]
        T2["三阶段预训练<br/>视觉编码器 → 图文对齐 → 多格式联合"]
        T1 --> T2
    end

    DATA --> TRAIN
    TRAIN --> FT["指令微调（113K）<br/>logits 输出 → 自然语言应答"]

    subgraph ADAPT["任务适配流程"]
        direction TB
        P1["SAYCam 帧 → GPT-4o 标注 → Grounding-DINO 裁剪"]
        P2["MAB-CDI 词表过滤 → 构造干扰项 → 人工质检"]
        P1 --> P2
    end

    ADAPT --> BENCH["DevCV Toolbox<br/>10 个发育认知任务（语言/执行记忆/数学）"]

    FT --> EVAL["域内评测结果"]
    BENCH --> EVAL

关键设计¶

1. 多格式预训练数据：让有限的婴儿录像支撑起多样化下游能力

V1 的根本短板是只用了约 1/3 录像、只支持图像-文本对，于是下游任务也被卡死在单图理解上。V2 把 SAYCam 几乎榨干，并刻意做成三种互补格式。视频-语句对（181K）按语音转录的句子边界切分视频，Azure 语音识别提字幕，再用 X-CLIP 图文相似度 >0.1 过滤掉对不上的片段，最终保留 138 小时；图像-语句对（768K）从视频对里 1FPS 采样、CLIP 相似度 >0.2 保留，规模直接是 V1 的 67K 的 11 倍；交错图文序列（63K）则用大小 4–8 的滑动窗口，把连续片段各自的最佳帧+语句串起来，模拟婴儿"连续交互"的经验流。三种格式不是冗余，而是各自喂养不同能力——视频对撑起时序理解、图像对撑起静态感知、交错序列撑起多轮对话，恰好覆盖后面 benchmark 的不同任务类型。关键是整条链路只做"切分+过滤"这种最小化处理，不引入额外标注或合成，保住了数据的发育真实性。

2. DevCV Toolbox：把临床发育测评工程化成计算机视觉任务

V1 的 4 个评测任务是凭直觉拍的，没有心理学依据，说服力弱。V2 改用 2025 年 2 月 NIH 发布的 Baby Toolbox®——目前最权威的儿童神经发育评估工具——作为蓝本，搭出含 10 个任务的 DevCV Toolbox，分三个子域：语言（Looking While Listening 双图选择、Picture Vocabulary 四图词汇理解、Localization 物体定位）、执行功能与记忆（Left/Right 朝向辨别、Spatial Details 空间细节、Visual Delayed Response 遮挡后记忆、Memory 多轮延迟记忆）、数学（Who Has More 数量比较含合成与自然两版、Subitizing 快速计数、Object Counting 物体计数）。每个任务都不是直接搬原工具箱的卡通刺激物，而是从 SAYCam 帧里重新构建自然场景样本，这样评测和训练同处一个视觉域，避免分布漂移把成绩压低。借 NIH 工具箱的临床背书，benchmark 的可信度也跟着立起来了。

3. 任务适配流程：以 Picture Vocabulary 为例看一个临床测试怎么落成 CV 样本

把心理学测试变成 AI 能做的题，难点在于既要保留测试的考查意图，又要换成域内的真实图像。原始 NIH 测试是 iPad 上摆 4 张卡通图配语音提示、让儿童点选目标。DevCV 的适配链条则是：SAYCam 帧 1FPS 采样 → GPT-4o 加手工标注框出帧里的物体 → Grounding-DINO 把物体裁出来 → 用 MAB-CDI 婴儿词汇表过滤掉超纲词 → 再按语义和语音学分布去构造干扰项（让错选项既不太像也不太离谱）→ 最后人工质检。这套半自动流程让每道题既符合原测试的难度梯度，又用的是婴儿真实见过的画面，是前面"域内评测"原则的具体落地。

4. 从零训练的紧凑模型：把能力来源完全锁定在婴儿语料

模型是 ViT-L-16（300M）+ MLP 连接器 + LLaMA-1.1B 的标准视觉-语言架构，输入支持文本、单图、多图、视频、多轮对话，输出统一是自然语言。最关键的一条约束是全部组件都从零训练、不加载任何预训练权重——因为只要用了外部预训练，就无法判断模型表现到底来自婴儿经验还是别的海量语料，这条实验才不成立。这也是为什么一个仅 ~1.4B、只见过 478 小时录像的模型若能在某些任务上打平甚至超过 GPT-4o，结论才有分量。

损失函数 / 训练策略¶

三阶段 pipeline：Stage 1 预训练视觉编码器，Stage 2 做图像-文本对齐，Stage 3 在三种格式上联合训练；最后用 DevCV 任务做指令微调，把模型从输出 logits 拉成自然语言应答。

实验关键数据¶

主实验（DevCV Toolbox 域内评测）¶

模型	Overall	Count	PV(词汇)	Memory	WhoHasMore	LeftRight
人类表现	93.0	99.1	91.8	87.3	63.6/95.5	94.5
Gemini-2.5-flash	72.7	71.1	91.2	84.8	42.4	34.9
GPT-4o	~70	~65	~90	~80	~40	~34
BabyVLM-V2	竞争力	部分超越GPT-4o	竞争力	竞争力	竞争力	竞争力

消融实验¶

配置	关键影响	说明
仅图像-文本预训练(V1)	基线	开放集接近零
+视频-语句(181K)	+视频理解任务改善	DelayedResponse任务受益
+交错序列(63K)	+多轮对话任务改善	Memory任务受益
+指令微调(113K)	显著全面提升	从logits输出→自然语言
768K vs 67K图像对	V2 >> V1	数据量的直接影响

关键发现¶

数学任务超越GPT-4o：从零训练的~1.4B模型在Who Has More和Counting上部分超越GPT-4o——婴儿经验数据蕴含足够的计数和数量理解
DevCV Toolbox的人类上界(93%)远高于所有AI模型，AI与儿童认知差距显著
Subitizing和Looking While Listening作为hold-out任务测试泛化性，证实多格式预训练的泛化收益
三种预训练数据格式各有独立且互补的贡献
OOD测试集(Ego4D构建)性能下降验证了域内评测的必要性

亮点与洞察¶

发育心理学标准化评估的AI工程化：首次将NIH Baby Toolbox®转化为AI评测benchmark，开创了发育计算视觉的研究范式。未来心理学家可以用DevCV Toolbox"阅读早期儿童的心智"
挑战Scaling Law：仅478小时的婴儿经验就能训练出在数学任务上超越GPT-4o的模型，展示了样本效率预训练的巨大潜力
数据格式多样性>数据量：V1(67K)到V2(768K+视频+交错)的跨越不仅来自量的增加，更关键的是格式多样性使能力多样化
三方有益：让大学可参与FM研究+为认知科学提供实验工具+增进AI公众理解

局限与展望¶

SAYCam仅3名婴儿(6-32月龄)，样本量极小且存在个体差异。BabyView等更大规模数据待纳入
紧凑模型在复杂推理上仍远逊于大模型和人类——ADI差距巨大
DevCV Toolbox缺儿童实际表现数据（仅成人上界）——需心理学实验室合作收集真正的发育对比数据
指令微调用DevCV任务本身，可能存在task leakage
不包括非视觉的语言和运动发育评估

评分¶

新颖性: ⭐⭐⭐⭐⭐ 独特的发育认知视角+NIH Baby Toolbox®的首次AI适配
实验充分度: ⭐⭐⭐⭐ DevCV设计严谨，缺乏真实儿童数据对比
写作质量: ⭐⭐⭐⭐⭐ 跨学科背景介绍充分
价值: ⭐⭐⭐⭐⭐ 对理解AI与人类认知的关系有深远影响