SceneScribe-1M: A Large-Scale Video Dataset with Comprehensive Geometric and Semantic Annotations¶
会议: CVPR 2026
arXiv: 2604.07990
代码: https://wangyunnan.github.io/SceneScribe-1M
领域: 3D视觉 / 视频理解
关键词: 视频数据集, 几何标注, 语义标注, 世界基础模型, 深度估计
一句话总结¶
提出SceneScribe-1M——一个包含100万个野外视频、超4000小时的大规模多模态视频数据集,提供详细文本描述、精确相机参数、连续深度图和一致性3D点轨迹等全面标注,为3D几何感知和视频生成任务提供统一资源。
研究背景与动机¶
- 领域现状:3D几何感知和视频合成的融合是构建世界基础模型(WFM)的核心需求。现有数据集要么专注于3D理解(如RE10K、CO3Dv2),要么专注于视频生成(如Panda-70M、Koala-36M),缺乏同时支持两个方向的统一资源。
- 现有痛点:(A) 3D感知数据集:合成数据有域差异,真实数据标注受限于计算开销和SfM/SLAM的局限性,动态场景标注规模小;(B) 视频生成数据集:提供丰富语义标注但缺乏几何标注;(C) 并发工作如Sekai(~400小时)和SpatialVID(缺少3D点轨迹)在规模或标注完整性上不足。
- 核心矛盾:WFM需要同时具备3D几何理解和视频生成能力,但两类任务所需数据的规模和标注类型存在巨大鸿沟。
- 本文目标 构建一个足够大、标注足够全面的视频数据集,同时支持深度估计、场景重建、动态点追踪等3D任务和文本/位姿到视频的生成任务。
- 切入角度:利用强大的专有模型(Qwen2.5-VL-72B做语义,MegaSaM做几何,TAPIP3D做点轨迹),在1000+GPU上大规模并行标注。
- 核心 idea:以精心设计的筛选+多模型标注流水线,在100万个开放域视频上同时获取结构化文本描述、相机位姿、连续深度图、动态掩码和3D点轨迹。
方法详解¶
整体框架¶
数据管线分三步:(1) 收集——从HD-VILA-100M、Panda-70M、Koala-36M和Pexels汇集大规模视频源;(2) 预处理——质量筛选(分辨率>1080p, FPS≥10, 时长5s-1min)+ 内容审查(用Qwen2.5-VL-72B评估6个维度)+ TransNetV2时间分割;(3) 标注——三个专用模型分别标注文本描述、几何信息和3D点轨迹。最终输出包含完整标注的100万视频片段,以及用多视图重投影筛选的静态子集SceneScribe-MVS。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["视频源汇集<br/>HD-VILA-100M / Panda-70M<br/>Koala-36M / Pexels"]
subgraph FILTER["多维度质量筛选与内容审查"]
direction TB
B["硬参数筛选<br/>分辨率>1080p / FPS≥10 / 5s–1min"]
C["TransNetV2 镜头分割<br/>切成单镜头片段"]
D["Qwen2.5-VL-72B 内容审查<br/>运动/水印/畸变/强光等6维"]
B --> C --> D
end
subgraph ANNOT["三模型联合标注"]
direction TB
E["Qwen2.5-VL-72B:语义<br/>结构化场景描述"]
F["MegaSaM:几何<br/>相机位姿+时序一致深度"]
G["TAPIP3D:动态<br/>借深度位姿投影出3D点轨迹"]
F --> G
end
A --> FILTER
FILTER --> ANNOT
ANNOT --> H["SceneScribe-1M<br/>100万片段全标注"]
H -->|多视图重投影解耦相机/物体运动| I["SceneScribe-MVS 子集<br/>保留相机运动、剔除动态物体"]
关键设计¶
1. 多维度质量筛选与内容审查:硬参数挡不住"看着清楚但内容没用"的视频
分辨率、帧率、时长这些硬指标只能保证视频"技术合格",却拦不住静止画面、满屏水印或被强光糊掉的片段——这些视频清晰度达标,但对学习3D几何毫无价值。本文先用硬参数过一遍(分辨率 >1080p、FPS ≥10、时长 5s–1min),再请Qwen2.5-VL-72B当自动评审:围绕运动强度、水印、镜头畸变、强光干扰等6个维度设计问答模板,让MLLM逐条判断,命中任一负面条件就剔除。对于跨多个镜头的非连续视频,先用TransNetV2检测镜头边界切成单镜头片段,再让切出来的片段重新过一遍筛选。用MLLM做内容审查的好处是覆盖面广又不需要人海战术,能在百万量级上把"画质合格但内容无效"的视频成规模地筛掉。
2. 三模型联合标注:单一模型给不全 WFM 需要的全套标注
世界基础模型既要懂3D几何又要会生成视频,可没有哪个现成模型能一次吐出文本、位姿、深度、动态掩码和3D轨迹这一整套标注,于是本文按职责把三个专用模型串成流水线。Qwen2.5-VL-72B负责语义,生成结构化的场景描述(场景设置、主体、动作);MegaSaM负责几何,先联合估计光流和不确定性得到运动概率图,再用改进的 DROID-SLAM 叠加单目深度先验做相机追踪,最后优化出时序一致的高分辨率深度图;TAPIP3D负责动态,借 MegaSaM 算好的深度和位姿把2D特征投影进3D世界空间,生成对长时遮挡更鲁棒的3D点轨迹。分工的依据是各自的长板:MegaSaM 在动态场景、视差有限的野外视频上比 DROID-SLAM 和 VGGT 更稳,而它本身不支持动态点追踪,正好交给 TAPIP3D 补上。整条流水线跑在1000+ 块 H20 GPU 上并行推理,总计约消耗150k GPU时。
3. SceneScribe-MVS 子集:把相机运动和物体运动拆开,才能既要静态场景又不丢相机多样性
多视图3D重建偏爱静态场景,但如果简单按"整体运动幅度"来筛,会把相机在动、物体没动的优质片段也一起误杀——而这类片段恰恰是多视图任务最想要的。本文用多视图重投影(Algorithm 1)把两种运动解耦开:对每帧计算几何与光度一致性误差 \(e_{2d}, e_{3d}, e_{rgb}\),据此生成运动掩码 \(M_{motion}\),再定义两个物体运动评分——\(s_1\) 聚合运动掩码、\(s_2\) 取点轨迹的平均运动距离,最后用阈值 \(\tau_4, \tau_5\) 只保留物体静止的场景。因为筛选依据是"物体在不在动"而非"画面整体动得多大",相机运动被完整保留下来:统计显示 MVS 子集的相机运动分布与完整集几乎重合,但动态物体显著减少。
损失函数 / 训练策略¶
本文是数据集工作,不涉及新模型训练。下游验证实验中使用各任务原始模型的默认训练配置。
实验关键数据¶
主实验¶
单目深度估计(MoGe模型,8个基准集平均):
| 设置 | Rel ↓ | δ₁ ↑ |
|---|---|---|
| MoGe (w/o SceneScribe) - Scale-inv | 6.17 | 93.8 |
| MoGe (w SceneScribe) - Scale-inv | 6.14 | 94.0 |
| MoGe (w/o SceneScribe) - Affine-inv | 4.72 | 95.8 |
| MoGe (w SceneScribe) - Affine-inv | 4.68 | 95.9 |
场景重建 - VGGT(CO3Dv2 + ETH3D):
| 方法 | Pose AUC30 ↑ | Pose AUC15 ↑ |
|---|---|---|
| VGGT (w/o SceneScribe) | 89.5 | 83.4 |
| VGGT (w SceneScribe) | 89.9 | 83.8 |
4D重建 - MonST3R(Sintel):
| 方法 | ATE ↓ | RPE trans ↓ | RPE rot ↓ |
|---|---|---|---|
| MonST3R (w/o SceneScribe) | 0.108 | 0.042 | 0.732 |
| MonST3R (w SceneScribe) | 0.099 | 0.038 | 0.685 |
视频生成 - AC3D(RealEstate10K):
| 方法 | TransErr ↓ | RotErr ↓ | FID ↓ | FVD ↓ | CLIP ↑ |
|---|---|---|---|---|---|
| AC3D (w/o SceneScribe) | 0.374 | 0.039 | 1.27 | 38.20 | 28.62 |
| AC3D (w SceneScribe) | 0.318 | 0.026 | 1.19 | 35.15 | 29.98 |
消融实验¶
2D/3D点追踪:
| 任务 | 方法 | 关键指标 | 改善 |
|---|---|---|---|
| 2D (CoTracker3) | w/ SceneScribe | TAP-Vid δ_avg^vis 平均 77.4 | +0.8 |
| 3D (SpatialTrackerV2) | w/ SceneScribe | TAPVid-3D AJ 平均 23.5 | +0.25 |
关键发现¶
- SceneScribe-1M在所有下游任务(深度估计、场景重建、4D重建、点追踪、视频生成)上都带来一致的性能提升,验证了数据集标注质量
- 视频生成任务收益最大(TransErr从0.374降至0.318,降幅15%),说明精确相机参数对可控视频生成尤为关键
- MonST3R的ATE改善显著(0.108→0.099),说明大规模真实动态场景数据有效弥补了合成训练数据的域差异
- MoGe的提升幅度较小——因为原始训练集TartanAir本身标注精确,但SceneScribe的真实数据仍然有补充价值
- 运动解耦采样成功:SceneScribe-MVS的相机运动分布与完整集几乎一致,但动态物体显著减少
亮点与洞察¶
- 标注完整性是核心差异化:同时提供文本描述、相机位姿、深度图、动态掩码、3D点轨迹——这在同类数据集中独一无二,使得一个数据集可以服务于3D感知+视频生成两大方向
- 工业级标注流水线:1000+ GPU并行标注150k GPU时,展示了大规模AI数据工程的成熟方法论。修改MegaSaM官方代码库实现多机并行推理的工程贡献值得注意
- 运动解耦思想:通过深度重投影一致性区分相机运动和物体运动的方法优雅实用,可应用于任何需要从混合运动中分离静态/动态的场景
- 4000+小时的规模比并发工作Sekai(600+小时)大约7倍,且包含后者缺少的3D点轨迹
局限与展望¶
- 标注质量受限于所用模型的能力——MegaSaM在特征点稀疏时仍有退化,TAPIP3D对长时遮挡处理有限
- 深度标注为相对尺度,缺少metrc depth——限制了需要绝对深度的应用
- 视频来源以网络视频为主,工业场景(如自动驾驶、机器人)的覆盖有限
- 未提供实例级/全景分割标注,限制了物体级理解任务
- 可改进方向:引入metric depth估计模型(如UniDepth)提供绝对深度;增加语义分割标注;扩展到特定领域(自动驾驶、具身AI)的视频采集
相关工作与启发¶
- vs SpatialVID:SpatialVID有200万视频但缺少3D点轨迹;SceneScribe-1M以100万视频提供更完整标注(深度+位姿+3D轨迹+描述)
- vs Sekai:Sekai侧重结构化描述+深度+位姿,规模约400小时;SceneScribe-1M规模约大7倍且额外提供3D点轨迹
- vs PointOdyssey:PointOdyssey是合成数据集(159场景),提供GT深度和轨迹但存在域差异;SceneScribe-1M用真实视频虽然标注非GT但规模和多样性远超
- 本数据集可作为多个方向的通用预训练资源,对世界基础模型的发展有催化作用
评分¶
- 新颖性: ⭐⭐⭐ 数据集工作的创新主要在标注完整性和规模,方法论创新较少
- 实验充分度: ⭐⭐⭐⭐ 覆盖6个下游任务的全面验证,但每个任务仅用一个模型验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,表格对比充分,统计分析详实
- 价值: ⭐⭐⭐⭐⭐ 填补了大规模几何+语义联合标注视频数据集的空白,对WFM研究有重要推动作用