SpatialVID: A Large-Scale Video Dataset with Spatial Annotations¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://nju3dv.github.io/projects/SpatialVID/ （项目页）
领域: 3D视觉 / 视频理解
关键词: 视频数据集, 相机位姿, 深度标注, 世界模型, 可控视频生成

一句话总结¶

SpatialVID 从 2.1 万小时野外网络视频里，用「分层过滤 + 几何/语义标注 + 平衡采样」三段式 pipeline 蒸馏出 271 万段、共 7089 小时的动态片段，每段都带逐帧相机位姿、深度、动态掩码、结构化字幕和序列化运动指令，是目前规模最大、标注最全的"动态场景 + 显式几何"视频数据集。

研究背景与动机¶

领域现状：空间智能（spatial reconstruction + world exploration）正在快速发展——从 SfM/MVS 到 DUSt3R、VGGT 这类前馈式 3D 重建，再到 Sora、CogVideoX 这类把视频生成当"世界模拟器"的工作。它们的共同瓶颈不在模型，而在训练数据。

现有痛点：现有数据集裂成互不相容的两半。一半是大规模视频数据集（Panda70M、MiraData），语义丰富但完全没有 3D 真值，模型只能从像素里隐式猜空间关系；另一半是空间数据集（CO3D、RealEstate10K、TartanAir），几何精确但规模小、要么以物体为中心、要么是合成的、要么相机几乎不动（RealEstate10K 80% 是静态视角）。

核心矛盾：「语义多样但无几何」与「几何精确但无语义、且静态」之间存在结构性割裂。真正的世界模拟器需要的是动态真实场景 + 显式几何 + 丰富语义三者同时具备，而没有任何现成数据满足。

本文目标：造一个把原始像素直接连到物理世界的多模态数据集——既要规模（百万级片段）、又要动态真实场景、还要逐帧相机位姿/深度/运动指令/结构化字幕全套标注。

切入角度：野外视频天然就编码了空间、时间、语义线索，且取之不尽。与其昂贵地采集 3D 真值，不如以运动优先（motion-first）的方式从 YouTube 海量视频里筛选出相机运动丰富、视差充足的片段，再用一条自动标注流水线把几何与语义补齐。

核心 idea：用一条"过滤→标注→采样"的程序化 pipeline，把杂乱的野外视频蒸馏成带显式 3D 标注的训练语料，从而桥接动态视频与空间理解。

方法详解¶

整体框架¶

SpatialVID 本质是一条数据策展（curation）流水线，不是一个模型。输入是 3.3 万个、共 2.18 万小时的原始 YouTube 视频，输出是 271 万段带全套空间标注的片段（SpatialVID）以及一个 1111 小时的平衡高质量子集（SpatialVID-HQ）。整条线分三个阶段：

过滤（filtering）：先把长视频切成 3–15 秒短片（720P、H.265 统一编码），得到 700 万+ 候选片段，再用四个质量指标（美学、运动强度、文字干扰、亮度）层层筛掉低质内容，最终保留约 271 万段。
标注（annotation）：对保留片段补齐几何与语义——用增强版 MegaSaM 估相机位姿与深度、SAM2 抽动态掩码，把位姿序列拆成 WASD 式运动指令，再用 VLM+LLM 协同生成结构化字幕。这一步耗了约 6.9 万 GPU·小时（仅 MegaSaM）。
采样（sampling）：收紧质量阈值并按语义标签、轨迹统计做平衡采样，得到类别分布良好的 SpatialVID-HQ。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["2.18万小时<br/>YouTube 原始视频"] --> B["运动优先筛选<br/>+ 分层质量过滤<br/>(美学/运动/文字/亮度)"]
    B --> C["增强 MegaSaM 几何标注<br/>(位姿 + 深度 + SAM2 动态掩码)"]
    C --> D["运动指令分解<br/>(位姿→WASD 影视词表)"]
    C --> E["VLM+LLM 结构化字幕<br/>(位姿先验校正方向)"]
    D --> F["271万段 SpatialVID"]
    E --> F
    F -->|按运动/类别平衡采样| G["111万小时 SpatialVID-HQ"]

关键设计¶

1. 运动优先的人工初筛 + 分层质量过滤：把"无法重建"的静态/劣质片段挡在门外

数据集的成败首先取决于源数据，而通用视频集（Panda70M）跑作者的 pipeline 只有约 10% 片段达标——大量片段静态、闪烁、字幕里没有运动描述。作者因此做了两件事。其一是运动优先采集：用 walk、tour、drone 等运动相关关键词在 YouTube 上检索，人工剔除画面破损、含全景相机（"Panoramic camera"，会破坏 MegaSaM 假设）、有重度遮挡或台标字幕的视频，得到 3.3 万个相机轨迹平滑、视差丰富的视频。其二是四指标分层过滤：用 CLIP+MLP 美学预测器去掉难看片段、亮度过滤去掉过曝/欠曝、PaddleOCR 按文字面积比去掉字幕过多的片段、轻量 VMAF 指标保留运动充足的片段。切片用改过的 PySceneDetect（调低阈值 + 区间多帧比较，专门处理淡入淡出转场），统一转成 1280×720 的 H.265 MP4。这套"运动优先 + 多指标过滤"直接决定了下游相机位姿估计的可靠性——因为只有运动充分、画面干净的片段，MegaSaM 才能稳定重建。

2. 增强版 MegaSaM 几何标注：在野外动态视频上拿到可靠的位姿+深度+动态掩码

野外动态视频做几何标注的难点是运动物体、共线运动、单目深度不可靠会让重建崩掉。作者以 MegaSaM 为主估计器（在 in-the-wild 视频上鲁棒性最好），并做了三处加固。其一，把 MegaSaM 原始深度模块换成 UniDepth v2 + Depth Anything v2，显著提升深度精度与鲁棒性。其二，动态掩码：先用自适应阈值 + 轮廓检测得到候选区域，从中采样锚点作为 SAM2 的 prompt 抽出动态掩码，再据此算每帧的动态比例（dynamic ratio）。其三，用基于加速度的检测器识别突兀的非物理运动抖动，剔除不合理轨迹。为量化相机运动，作者还定义了三个指标：MoveDist（轨迹总长度）、RotAngle（累计旋转角）、TrajTurns（显著方向变化次数）——这三个量后续直接用于采样时做轨迹多样性平衡。这一步让每段视频都带上了显式 3D grounding，是 SpatialVID 区别于纯语义视频数据集的核心。

3. 运动指令分解：把连续相机位姿翻译成 WASD 式可控词表

为了让数据能直接监督导航/控制类模型（如 Hunyuan-GameCraft），作者把相机位姿序列分解成离散、可解释的运动指令。具体地，从相邻帧的相对平移与旋转里读出运动动态，先做时序平滑滤波抑制抖动噪声，再用基于幅度的阈值找出"可感知"的运动段——只有当位姿变化超过预设阈值时才生成指令，避免给微小抖动也打标签。最后把运动信号映射到一套受控的影视术语词表，如 dolly in（前向平移）、pan left（水平旋转）、truck right（横向平移），并对应到 W/A/S/D 这类直观控制符号。这种标准化分解保证了指令的清晰、一致和下游可用性，是把"被动视频"变成"可控信号"的关键一跳。

4. VLM+LLM 协同的结构化字幕：用相机位姿先验纠正 VLM 的空间幻觉

纯 VLM（如 Gemini）做视频字幕时空间推理很弱，经常把相机运动方向描述反（图 4 里 VLM 说"右"，实际是"左"）。作者设计了两阶段字幕框架：阶段一视觉解析，用 Gemini-2.0-Flash 分析采样帧，产出初始的场景描述与相机运动描述；阶段二语言精炼，用 Qwen3-30B-A3B 拿相机位姿作为先验去校正运动方向、保证空间一致性。精炼后的字幕整合了场景语义、相机运动和多级属性（场景类型、光照、天气、时间、人群密度等），形成包含 Scene Description / Camera Description / Category Tags / Shot Summary 的层级化文本表示。这一步让字幕既语义丰富又空间 grounded，整个语义标注共消耗约 130 亿 token 的 LLM 推理。

实验关键数据¶

作者不在单一任务上比 SOTA，而是把 SpatialVID-HQ 当训练数据，在三个下游任务上验证"换了这份数据，模型是不是更好"。

主实验：相机可控视频生成¶

基于 ReCamMaster 的相机注入机制 + Wan2.2 架构，在 RealEstate10K、Sekai-Real、SpatialVID-HQ 三种训练数据下各训一版，在三个 benchmark 上比相机可控性（误差越低越好）。

评测 benchmark	训练数据	TransErr↓	RotErr↓	CamMC↓	CLIP-T↑
RealEstate10K	RE10K	7.46	1.15	7.91	30.38
RealEstate10K	SpatialVID-HQ	7.42	0.99	7.72	30.54
Sekai	RE10K	8.17	1.51	8.78	34.97
Sekai	SpatialVID-HQ	6.04	1.43	6.70	35.19
SpatialVID	Sekai-Real	5.63	4.70	9.39	30.25
SpatialVID	SpatialVID-HQ	4.33	3.81	7.57	30.26

在三个 benchmark 上，用 SpatialVID-HQ 训练的模型相机可控性误差都最低，CLIP-T（文本-视频对齐）也最高，VBench 指标尤其是 Imaging Quality 稳定提升。

跨任务验证：新视角合成 & 几何预测¶

任务	设置	训练数据	关键指标	结果
新视角合成 (GS-LRM)	DL3DV 测试	RE10K → SpatialVID	PSNR↑	27.01 → 27.80
新视角合成 (GS-LRM)	SpatialVID 测试	RE10K → SpatialVID	PSNR↑	24.13 → 24.97
位姿估计 (CUT3R)	TUM-dynamics	微调前→后	ATE↓	0.049 → 0.040
位姿估计 (VGGT)	TUM-dynamics	微调前→后	ATE↓	0.015 → 0.013

GS-LRM 用 SpatialVID 子集（片段数对齐 RealEstate10K）训练后，在 DL3DV 和 SpatialVID 上 PSNR/SSIM/LPIPS 全面超过 RE10K，连以户外为主的 DL3DV 也更好。位姿估计上，CUT3R/VGGT 在 TUM-dynamics 动态场景上微调后都有提升。

关键发现¶

数据质量分布是核心卖点：图 5 显示 Panda70M 有 83.7% 片段因运动不足无法被 MegaSaM 重建（TrajTurns 不达标），而 SpatialVID-HQ 刻意提高了带弯曲/转向轨迹片段的比例，运动分布更均衡真实——这正是"动态"数据集的价值所在。
平衡采样有意义：SpatialVID（271万段）里 52.9% 是 0 转向片段，而精选的 SpatialVID-HQ 把 0 转向降到 30.7%、1 转向升到 53.5%，主动富集了运动更复杂的样本。
VGGT 已接近天花板：它本就在多份 3D 数据上训练且表现极强，微调 SpatialVID 后只有微小波动（Sintel 上 ATE 甚至轻微回退），说明该数据对已饱和的强模型增益有限，但对 CUT3R 这类还有空间的模型增益明显。

亮点与洞察¶

"运动优先"的策展哲学：从源头就按相机运动丰富度筛视频，而不是先收集再过滤，避免了通用视频集 90% 片段不可用的尴尬——数据集的质量上限在采集策略而非后处理。
用位姿先验治 VLM 的方向幻觉：让 LLM 拿相机位姿去纠正 VLM 写反的运动方向，是个低成本却切中要害的 trick，可迁移到任何需要"空间-语言对齐"的字幕生成场景。
把连续运动离散成 WASD 词表：位姿序列→影视术语→游戏控制符的映射，直接把视频数据变成了可控生成/世界模型的监督信号，是数据形态上的关键创新。
三指标量化相机运动（MoveDist/RotAngle/TrajTurns）既用于过滤也用于平衡采样，给"运动多样性"提供了可操作的定义。

局限与展望¶

继承 MegaSaM 的失败模式：作者承认在物体主导帧、变焦、严重径向畸变等极端场景下标注会退化，预测位姿在特定场景下还呈现非度量（non-metric）性质，动态掩码在复杂场景表现次优。
标注质量受限于现有估计器：整条几何标注的天花板被 MegaSaM 卡住，作者寄希望于 ViPE 等更强的视频位姿估计器未来替换升级。
⚠️ 下游增益依赖任务难度：从实验看，对 RealEstate10K 这类已成熟的任务提升有限，对动态场景任务（TUM-dynamics）提升更明显；不同 benchmark 难度差异大，跨任务横向比"提升幅度"需谨慎。
可改进方向：把动态掩码从"运动概率阈值"升级为更鲁棒的分割、引入度量深度标注、补齐音频等更多模态。

评分¶

新颖性: ⭐⭐⭐⭐ 不是新模型而是新数据集，但"动态真实场景 + 全套显式几何/语义标注 + 百万级规模"的组合此前确实没有，运动优先策展和位姿纠偏字幕是实打实的方法贡献。
实验充分度: ⭐⭐⭐⭐⭐ 在可控视频生成、新视角合成、位姿估计三类任务上都做了"换数据"对照，并有详尽的质量分布分析。
写作质量: ⭐⭐⭐⭐ pipeline 三阶段叙述清晰，图表充分；部分关键细节（过滤阈值、采样策略）推到补充材料略影响自洽。
价值: ⭐⭐⭐⭐⭐ 直击空间智能/世界模型训练数据稀缺的真痛点，是视频与 3D 视觉社区可长期复用的基础资产。