How Much 3D Do Video Foundation Models Encode?¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://vidfm-3d-probe.github.io/ (项目页)
领域: 自监督 / 表示分析（探针研究）
关键词: 视频基础模型, 3D 感知, 探针, 视频扩散模型, 几何重建

一句话总结¶

作者提出第一个模型无关的探针框架，用「冻结视频基础模型特征 + 浅层前馈头预测 3D 点云/深度/相机位姿」来量化各类视频模型内部隐含了多少 3D 理解，结论是：只在 2D 视频上训练的前沿视频生成模型（如 WAN2.1-14B）涌现出强 3D 感知，在跨域场景上甚至超过专门用 3D 数据训练的专家模型 Fast3R。

研究背景与动机¶

领域现状：从 2D 视觉恢复 3D 结构是计算机视觉的老问题，但高质量 3D 数据始终稀缺，限制了 3D 基础模型的 scaling。相比之下视频海量易得，且视频本身就是 3D 世界的 2D 投影，于是「用视频先验做 3D」成了热门路线——要么给视频模型加 3D 控制条件，要么让它额外吐 3D 缓存。

现有痛点：这些工作几乎都要在 3D 数据上微调视频模型，再加各种任务特定工程（显式 3D 记忆、后处理优化、对生成结果再跑前馈模型）才能压住 3D 不一致伪影。这些 confound 把「视频数据本身到底带来了多少 3D 能力」和「微调+工程补出来的能力」搅在了一起，谁也说不清基座视频模型原生就编码了多少 3D。

核心矛盾：要回答「视频预训练能否原生诱导出强 3D 感知」，必须把微调和工程的贡献剥离掉，做一次直接、模型无关、可量化的评测。而已有探针工作（Probe3D、Feat2GS）只探图像模型，且主要测深度/法向或跨视图一致性这类 2.5D 代理指标，并不直接探全局 3D 属性，也没覆盖视频模型这一大家族。

本文目标：在统一探针下测量多种视频基础模型（VidFM）的 3D 感知，并沿四条轴回答——① 程度（Extent）：视频模型 vs 图像模型 vs 专家 3D 模型差多少？② 因素（Factor）：时序推理、3D 微调、模型规模各有什么影响？③ 定位（Localization）：3D 信息集中在哪一层、扩散模型的哪个时间步？④ 启示（Implication）：在 3D 数据/算力受限时，VidFM 特征实用吗？

核心 idea：如果一个视频模型真懂 3D，那么仅用一个浅层、前馈、不优化基座的读出头就应当能从它的冻结特征里解出准确的 3D 属性；读出误差越低，说明原生 3D 感知越强。把「探针重建误差」当作 3D 感知的统一标尺，就能在不同模型家族间做公平横评。

方法详解¶

整体框架¶

方法是一个两阶段的「冻结特征 → 浅探针 → 3D 误差」流水线：先把待测视频模型当作冻结的特征提取器，在视频片段上跑一遍取出逐帧时空特征；再在这些特征之上训练一个轻量前馈探针，让它预测每帧的稠密 3D 点图、深度图和相机位姿；只训练探针，绝不动基座。基座在同样的探针容量、同样的训练集、同样的监督下，谁能让探针达到更低重建误差，就说明谁原生编码了更强的 3D。GT 则用 VGGT 跑全帧生成（比数据集自带标注更准）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入视频片段"] --> B["冻结特征提取<br/>扩散模型用 DIFT 式<br/>单步去噪读中层激活"]
    B --> C["采样 4 帧<br/>1 参考帧 + 3 帧(间隔≥5)"]
    C --> D["浅 VGGT 式探针<br/>4 层交替注意力"]
    D --> E["点云头 / 深度头 / 相机头"]
    E -->|"对比 VGGT 生成的 GT"| F["重建误差<br/>= 3D 感知标尺"]
    F --> G["四轴分析<br/>程度/因素/定位/启示"]

关键设计¶

1. 冻结特征提取 + 扩散模型的 DIFT 式读取：把任意视频模型变成统一可探的特征源

不同视频模型架构差异巨大（自监督编码器、隐扩散生成器），要做模型无关横评，第一步是把它们都规约成「逐帧时空特征图 \(F_t \in \mathbb{R}^{C\times H_f\times W_f}\)」。对自监督/确定性模型（V-JEPA、DINOv2、Fast3R）直接前向取末层空间特征即可。难点在扩散视频生成器——它没有现成的「特征」，作者借鉴 DIFT：选一个去噪时间步 \(\tau\)，对输入加噪，做一步去噪，然后读出指定网络层的隐藏激活当作特征；文本用空 embedding，图生视频模型则以首帧为条件。层号和 \(\tau\) 作为超参全程固定。对于上下文窗口受限的模型，把长视频切成短 chunk、每个 chunk 都拼上首帧作为共同参考，并维护帧到特征的索引 \(\pi(t)\)，探针时据此 gather 对应特征。这一步的价值在于：它让生成式扩散模型也能被纳入同一把尺子，且「冻结 + 浅读出」保证了测到的是基座原生信息而非读出头补出来的。

2. 浅 VGGT 式前馈探针：用最小读出容量逼出「原生」3D，而非训练一个新 3D 模型

探针刻意做得很浅：对每段视频取 \(S{=}4\) 帧（首帧为参考，另 3 帧按最小时间间隔 5 采样），取出逐帧 token，叠 4 个交替注意力块——每块含一个帧内注意力（混合单帧内 token）和一个全局注意力（跨帧混合 token），结构上镜像 VGGT 但浅得多。后接三个读出头：两个 DPT 头出稠密点图 \(\hat{X}_{t_i}\in\mathbb{R}^{H\times W\times 3}\)（在首帧坐标系下）和深度图 \(\hat{D}_{t_i}\)，一个相机头预测各帧相对首帧的位姿。设计哲学是：探针容量被故意压到很低，逼得「全局一致的 3D」必须由基座特征供给而非探针自行推断——所以读出误差才能干净地反映基座的原生 3D 感知。训练目标是 VGGT 式多任务损失 \(L = \lambda_{p}L_{pmap} + \lambda_{d}L_{depth} + \lambda_{c}L_{cam}\)（默认权重全为 1）：点图/深度用置信度加权的 \(\ell_2\)（GT 场景先归一化去除尺度歧义），相机位姿用 Huber 损失。

3. 上下参考对照组：给「视频特征强」这个结论钉死可信区间

裸视频本身就能解出一部分 3D，单看 VidFM 之间的排名可能虚高。作者设两个对照把结论框住。下界（逐帧图像对照）：对视频每帧独立抽 DINOv2 特征喂同一探针——因为特征是逐帧孤立提取的，任何「公共坐标系下的全局 3D」都只能由探针自己凑，而非基座供给；为让任务良定义，追加一个标记首帧的参考 token，其余超参与 VidFM 设定完全一致。上界（原生 3D 对照）：探 Fast3R 特征——它本就被直接训练来从多视图预测 3D 点图，在同样探针架构与监督下提供强参考。妙处还在于 CO3D 在 Fast3R 训练集内、DL3DV 不在，于是这组对照顺带还能观察专家模型的泛化行为。有了下界（图像孤立）和上界（3D 专家），VidFM 的数值就有了可解释的标尺。

损失函数 / 训练策略¶

多任务损失 \(L = \lambda_{pmap}L_{pmap} + \lambda_{depth}L_{depth} + \lambda_{cam}L_{cam}\)，三项权重默认均为 1。点图与深度用置信度加权 \(\ell_2\)，GT 场景先归一化消除全局尺度；相机位姿用 Huber 损失。整个训练只更新探针参数，基座视频模型始终冻结。

实验关键数据¶

主实验：3D 感知横评（CO3Dv2 / DL3DV）¶

CO3Dv2 是物体中心的转台视频（筛后 11k 段），DL3DV 是大而杂乱的场景（更难）。GT 用 VGGT 全帧生成。点图误差已乘 10 便于阅读。

探测特征	CO3D 点误差↓	CO3D 深度↓	CO3D AUC@30↑	DL3DV 点误差↓	DL3DV 深度↓	DL3DV AUC@30↑
DINOv2（逐帧图像，下界）	0.559	0.209	0.508	2.814	0.534	0.245
V-JEPA（自监督视频）	0.439	0.214	0.619	1.576	0.613	0.558
CogVideoX	0.485	0.231	0.569	1.748	0.608	0.486
Aether（CogVideoX+3D 微调）	0.501	0.249	0.571	1.566	0.574	0.527
Open-Sora2.0	0.391	0.196	0.643	1.306	0.445	0.607
WAN2.1-14B	0.284	0.151	0.736	1.051	0.323	0.660
Fast3R（3D 专家，上界）	0.262	0.145	0.769	1.379	0.514	0.637

关键看点：在 Fast3R 训练分布内的 CO3D 上，WAN2.1-14B 各项仅次于 Fast3R（点 0.284 vs 0.262）；而在 Fast3R 没见过的 DL3DV 上，WAN2.1-14B 全面超过 Fast3R（点 1.051 vs 1.379，深度 0.323 vs 0.514，AUC@30 0.660 vs 0.637）——只用 2D 视频训练的生成器，跨域 3D 反而比 3D 专家更稳。

消融：模型规模 / 定位 / VidFM 特征替换 DINO¶

实验	配置	关键指标	说明
规模（消融集点误差）	WAN 1.3B → 14B	0.0468 → 0.0360（−23%）	放大显著变好
规模（消融集点误差）	CogVideoX 2B → 5B	0.0576 → 0.0590（+2%）	反而略变差
定位	中层 + 早但非首步时间步	点误差最低	跨所有扩散模型一致

VidFM 特征替换 DINO（VGGT 实战，限 3D 数据场景）：

方法	CO3D 点误差↓	CO3D 深度↓	DL3DV 点误差↓	DL3DV 深度↓
原始 VGGT（DINO 特征）	0.476	0.205	2.751	0.518
VidFM-VGGT（冻结 WAN2.1-14B 特征）	0.289	0.145	1.034	0.319

关键发现¶

程度：前沿视频生成器（WAN2.1-14B、Open-Sora2.0）3D 感知强到能逼近甚至跨域超越 3D 专家 Fast3R，尽管它们从未见过任何 3D 数据。
因素①时序推理是关键：逐帧 DINOv2 在 CO3D 上深度尚可（0.209），但全局 3D（点 0.559、AUC@30 0.508）显著差于所有视频模型——视频模型多了「沿时间轴交换信息」这一条，差距在更难的 DL3DV 上进一步拉大；说明深度这类 2.5D 代理指标无法真正反映全局 3D 感知。
因素②3D 微调是双刃剑：Aether（CogVideoX 加 3D 目标微调）在大场景 DL3DV 上提升明显，但在物体中心 CO3D 上反而略逊基座，作者归因于其训练数据多为游戏/仿真合成大场景——微调能提分但可能损害跨域泛化。
因素③规模影响混合：参数量不保证更强 3D；WAN 放大伴随更多高质量高分辨率数据所以变好，CogVideoX 单纯放大架构反而略退，提示数据才是关键变量。
定位：扩散模型里 3D 信息最集中在中层 + 早但非首个时间步，跨模型惊人一致——末层被逐帧 RGB 合成任务占用而压制高层 3D 特征，太早层高层特征尚未成形；时间步上噪声太多/太少都会让去噪任务退化，中等偏早能在「保留全局 3D 线索」与「少受大噪声干扰」间取得平衡。
启示：在 3D 数据受限时，用冻结 WAN 特征替换 DINO 训 VGGT（VidFM-VGGT）全面大幅超过原始 VGGT，说明视频模型特征更适合小数据下的前馈 3D 重建。

亮点与洞察¶

把「3D 感知」操作化为一把可量化的统一标尺：固定探针容量+训练集，用重建误差直接横评不同家族模型，绕开了「不同模型不可比」的老大难；这套协议本身就可复用到任何新视频/图像基座。
DIFT 式特征读取 + 上下界对照的组合很扎实：前者解决了扩散模型「没有现成特征」的问题，后者（逐帧图像下界 + 3D 专家上界）把结论钉在可解释区间内，避免「视频模型看起来强」的虚高解读。
「跨域才见真章」的实验设计：故意挑一个 Fast3R 没训过的 DL3DV，让视频生成器超过 3D 专家——这个对比比同分布内的微弱领先更有说服力，直指「2D 视频先验的泛化优势」。
可迁移的工程结论：中层 + 早期时间步是扩散视频模型抽 3D 特征的甜点位，且跨模型一致——任何想从视频扩散模型蹭 3D 先验的下游工作都能直接套用这个选层/选步经验。

局限与展望¶

只能用公开 checkpoint，无法做受控实验：算力/数据约束下作者无法在精确受控的变量下从头训视频生成器，因此不能严格把 3D 感知差异归因到「数据 vs 训练策略 vs 规模」中的某一项；尤其没有「仅训练数据规模不同」的开源多版本模型，数据规模的独立影响无法隔离。
未在大规模数据上验证 VidFM-VGGT 的天花板：Implication 部分只在 CO3D/DL3DV 这种小数据下验证，受资源限制没法用 VidFM 特征从头训大规模 3D 重建模型——而这恰是「视频先验能否撑起可 scale 的 3D 基础模型」这一核心命题最该回答的部分。
GT 依赖 VGGT 自动生成：所有点图/深度/位姿 GT 都来自 VGGT 全帧推理，等于把 VGGT 当真值，可能对与 VGGT 同源的特征（如同样偏几何的模型）有系统性偏好，结论的绝对数值需谨慎看待。
探针仍是有监督的读出：虽然刻意做浅，但「shallow 到什么程度才算只测原生信息」缺乏理论界定，探针容量本身就是一个隐含旋钮。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个模型无关、面向视频模型的直接 3D 探针框架，问题切口（剥离微调看原生 3D）和「视频生成器跨域胜过 3D 专家」的结论都很新。
实验充分度: ⭐⭐⭐⭐ 两数据集、四轴、上下界对照齐全，规模/定位消融到位；但只用公开 checkpoint、无法隔离数据规模变量，大规模验证缺位。
写作质量: ⭐⭐⭐⭐⭐ 四轴结构清晰，结论与表格/定性图对得上，protocol 和对照组动机交代得很透。
价值: ⭐⭐⭐⭐⭐ 给「用视频做可 scale 的 3D」提供了量化证据与现成评测协议，选层/选步与「VidFM 特征替 DINO」结论可直接被下游 3D 工作复用。