Towards Data-Efficient Video Pre-training with Frozen Image Foundation Models¶

会议: CVPR 2026
arXiv: 2605.19137
代码: https://github.com/tue-mps/towards-video-image-frozen (有)
领域: 视频理解 / 自监督表示学习
关键词: 视频基础模型、冻结图像编码器、循环时序模块、数据高效预训练、DINOv3

一句话总结¶

本文提出"冻结一个预训练图像基础模型（DINOv3）当空间编码器、只在其上从零训练一个轻量循环时序模块"的解耦范式，实验证明在 5 个视频理解任务上它能匹配甚至超过在 840 万视频片段上端到端预训练的 RVM，从而论证大规模视频预训练对空间表征并非必需。

研究背景与动机¶

领域现状：当前最强的视频基础模型（VideoMAE、V-JEPA、4DS、RVM 等）几乎都走"端到端、在百万到十亿级视频片段上从头联合学习时空表征"的路线。其中 RVM 比较特别——它已经把模型在结构上拆成"逐帧 ViT 空间编码器 + GRU 门控的循环时序核"，但训练时仍把两部分在 ~840 万视频片段上联合端到端预训练。

现有痛点：这种端到端视频预训练在数据采集、存储和算力上代价极其高昂。与此同时，图像基础模型（DINOv2/DINOv3、SigLIP2 等）已经在数十亿张图像上训练出极强的空间表征，且作为冻结特征提取器就能迁移到分类、分割、深度估计等任务。

核心矛盾：既然强空间表征"现成可用"，那大规模视频预训练里到底有多少算力是花在重新学空间、有多少是真正花在学时序？如果空间能力可以白嫖图像模型，视频预训练就只需要补"时序推理"这一块，数据和算力需求可能断崖式下降。

本文目标：在真正投入昂贵的视频预训练算力之前，先验证可行性，拆成两个研究问题——(1) 用图像预训练的空间编码器，是否能和视频预训练的编码器竞争？(2) 时序模块到底需不需要大规模视频预训练？

切入角度：作者借力 RVM 这种"空间-时序天然解耦"的循环架构——把 RVM 的空间编码器换成冻结的 DINOv3，时序模块从零训练，在多任务上做对照实验。这样能干净地把"空间表征质量"和"时序模块训练"两个变量分开测。

核心 idea：冻结图像基础模型当空间编码器，只在上面从零训练一个轻量循环时序头（流式逐帧处理），用"图像预训练 + 少量时序训练"替代"端到端视频预训练"。

方法详解¶

整体框架¶

整篇工作要回答的是"视频理解能不能把空间和时序学习彻底解耦"。框架把一段视频 \(V=\{I_1,\ldots,I_T\}\) 拆成三段流水线处理：冻结图像编码器逐帧抽空间特征 → 循环时序模块沿帧维度因果地累积时序状态 → 注意力读出头产生任务预测。关键约束是：编码器全程冻结、不回传梯度；时序模块和读出头从零训练；而且读出头采用流式协议——每帧只能看当前帧时序模块的输出 \(\mathbf{h}_t\)，逼着所有时序上下文必须沉淀在循环状态 \(\mathbf{s}_t\) 里，从而成为对"时序表征质量"最严格的考验。

为了把"空间表征质量"和"时序模块训练"两个变量分别拷问，框架沿两条轴做对照：换不同预训练范式的冻结编码器（图像 vs 视频），以及换不同的时序架构 / 用 RVM 预训练权重初始化时序模块。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频帧序列<br/>I₁…I_T"] --> B["冻结图像编码器<br/>DINOv3 ViT（不回传梯度）"]
    B --> C["多深度特征提取<br/>取 1/4·2/4·3/4·4/4 四层<br/>逐层 MLP 残差后求均值"]
    C --> D["循环时序模块<br/>从零训练·因果累积状态 sₜ"]
    D -->|"四选一：RVMRNN / Mamba<br/>MambaMix / GMMix"| E["注意力读出头<br/>流式·每帧只看 hₜ"]
    E --> F["逐帧 / 视频级任务预测"]

关键设计¶

1. 解耦的"冻结图像编码器 + 从零时序模块"范式：把空间能力从视频预训练里剥离

针对"端到端视频预训练既学空间又学时序、算力浪费在重学空间"这个痛点，本文把空间和时序彻底解耦。每帧 \(I_t\) 独立过一个完全冻结的预训练图像编码器 \(\mathcal{E}\)（主用 DINOv3，但框架是编码器无关的），得到逐帧特征；时序模块 \(\mathcal{S}\) 维护跨帧隐状态 \(\mathbf{h}_t,\mathbf{s}_t=\mathcal{S}(\mathbf{X}_t,\mathbf{s}_{t-1})\)，状态初始化为零、因果处理（永不访问未来帧）。由于参数和算力绝大部分都压在视觉编码器上、时序模块很轻，这套设计天然支持"一个共享冻结编码器 + 多个按任务定制的小时序头"的高效服务范式：空间编码器完全不需要视频数据，只有轻量时序模块需要见视频序列，数据和算力需求大幅下降。

2. 多深度特征提取：把冻结编码器各层散落的空间信息重新聚合

这一步针对"冻结编码器没法像微调那样把任务相关信息收敛到最后一层"的问题。端到端微调时编码器会学着把有用信息固化进末层；而冻结编码器的有用空间信息是沿深度分布的——浅层抓低级结构、深层抓高级语义。于是从四个等距 ViT 深度（相对深度 \(1/4, 1/2, 3/4, 1\)）各取 patch token \(\mathbf{F}_{t,j}\)，每层用一个可训练的逐层 MLP 加残差适配，再跨深度求均值：

\[\hat{\mathbf{F}}_{t,j}=\mathbf{F}_{t,j}+\mathrm{MLP}_j(\mathrm{BN}(\mathbf{F}_{t,j})),\qquad \mathbf{X}_t=\frac{1}{4}\sum_{j=1}^{4}\hat{\mathbf{F}}_{t,j}\]

末层的 CLS 和 register token 再拼到 \(\mathbf{X}_t\) 上一起喂给时序模块。这样拿到比"只用末层特征"更丰富的多尺度空间信息，实验里对所有时序架构、所有任务都稳定涨点（Waymo 上 RVMRNN 变体从 89.8 涨到 94.9 mIoU）。

3. 四种可互换的循环时序架构：用统一接口分离"时序设计 vs 空间质量"的影响

作者要验证"性能由谁主导"，于是给出四个共享同一循环接口（Eq. 11）、可在框架里随意替换的时序模块，复杂度递增： - RVMRNN：直接搬 RVM 的门控核，最复杂——GRU 风格的更新/重置门 + 跨注意力 transformer + 自注意力融在一个模块里，状态 \(\mathbf{s}_t\) 每个空间 token 存一个向量。 - Mamba：最简单，对每个空间 token 沿时间独立跑选择性 SSM（pre-norm 残差 \(\mathbf{x}^{k+1}=\mathbf{x}^k+\mathrm{Mamba}(\mathrm{LN}(\mathbf{x}^k))\)），patch 之间无空间交互。 - MambaMix：在 Mamba 前插一个 SpatialBlock（帧内对 \(N\) 个 patch 做自注意力 + MLP），让 patch 在帧内先互通信息，再做时序 Mamba。 - GMMix (GatedMambaMix)：在 MambaMix 基础上加一个学习门控 \(\mathbf{g}^k=\sigma(\mathrm{Gate}([\mathbf{z}^k;\tilde{\mathbf{z}}^k]))\)，在"做时序前/后"的表征间插值 \(\mathbf{x}^{k+1}=(1-\mathbf{g}^k)\odot\mathbf{z}^k+\mathbf{g}^k\odot\tilde{\mathbf{z}}^k\)，显式控制吸收多少时序信息——这是最贴近 RVMRNN（GRU 门控）的 Mamba 版类比。

实验结论很关键：四种架构配 DINOv3 都大幅超过冻结 RVM，且没有单一架构在所有任务上全面碾压。这说明主导因素是空间编码器质量，而非具体时序设计，反过来支撑了解耦范式——一个共享冻结编码器可以挂不同的轻量时序头按任务特化。

4. 时序模块的视频预训练迁移：不自己预训练，借 RVM 权重侧面验证第二个问题

第二个研究问题"时序模块需不需要视频预训练"，作者没有真去做昂贵的预训练，而是巧妙借用 RVM 已经在视频上预训练好的时序核权重，对比"从零训练 vs 用 RVM 预训练权重初始化"两种策略。结果显示：即便把 RVM 的时序核迁到一个不同的编码器（DINOv3）上，预训练初始化仍稳定带来增益（+1.3 SSv2、+4.9 PT 等）。这说明时序模块学到的动态部分是编码器无关的，从而论证"冻结图像编码器 + 视频预训练的时序模块"这条解耦路线既可行又高效——空间编码器完全不碰视频数据，只有轻量时序模块需要见视频。

损失函数 / 训练策略¶

本文不引入新的预训练目标。编码器始终冻结，时序模块和读出头在每个下游数据集上从零监督训练；评测沿用 RVM/4DS 的协议。默认用流式协议（读出头每帧只看当前帧 token，\(\hat{y}_t=\mathcal{R}_{\mathrm{stream}}(\mathbf{h}_t)\)）作为对时序表征的严格考验；与视频基础模型对比时额外用 offline 协议（读出头同时注意所有帧）以公平比较。视频级任务（SSv2）取最后一帧预测 \(\hat{y}_T\)（累积了全部时序上下文）；逐帧任务每步独立预测。

实验关键数据¶

任务覆盖：动作识别（Something-Something v2，top-1 Acc）、目标跟踪（Waymo Open，mIoU）、点跟踪（Perception Test，AJ；Kubric 合成训练 → 真实视频评测）、深度估计（ScanNet，AbsRel↓）、相机位姿估计（NuScenes，RPEtr↓）。归一化平均（Norm. Avg）：每个分数除以该列最优后取均值。

主实验¶

四种时序模块配冻结 DINOv3-L（流式协议，RVM 为冻结基线）：

模型	参数(M)	SSv2 Acc↑	Waymo mIoU↑	PT AJ↑	ScanNet AbsRel↓	NuScenes RPEtr↓(mm)	Norm.Avg↑
RVM-L (冻结基线)	375	46.9	72.7	61.3	0.1293	36.00	77.7
DINOv3-L + RVMRNN	375	67.1	85.7	63.7	0.0900	29.37	96.8
DINOv3-L + Mamba	347	63.3	84.8	65.4	0.0963	28.48	95.3
DINOv3-L + MambaMix	397	66.4	85.0	66.7	0.0870	28.13	98.8
DINOv3-L + GMMix	405	66.9	85.0	69.4	0.0885	28.09	99.4

所有 DINOv3 变体大幅超过冻结 RVM：SSv2 上超 20 分以上，Waymo 上至少超 12 分，ScanNet 误差几乎砍半。

与视频基础模型对比（全部编码器冻结，仅训练读出头；本文额外从零训练轻量时序模块，无任何视频预训练）：

模型	预训练	SSv2↑	Waymo↑	PT↑	Norm.Avg↑
VideoMAE-L	视频	62.7	74.9	70.5	88.9
V-JEPA-L	视频	66.0	73.3	67.1	88.5
RVM-L	视频	66.7	73.2	68.1	89.3
DINOv3-L + GMMix	图像	66.4	94.9	73.3	99.1
RVM-B	视频	61.4	71.1	68.1	85.9
DINOv3-B + GMMix	图像	60.7	93.9	75.1	96.7

L 和 B 两个规模下，本文模型的归一化平均都明显超过所有视频预训练基线（L: 99.1 vs RVM 89.3；B: 96.7 vs 85.9）。

消融实验¶

配置	关键指标	说明
多深度特征 vs 仅末层	SSv2 +1.2~3.0、Waymo +5.1 mIoU(89.8→94.9)、PT 全 +1.0 AJ	多深度对所有架构/任务稳定涨点
时序模块从零 vs RVM 预训练初始化（DINOv3 上）	+1.3 SSv2 / +1.1 Waymo / +4.9 PT / −0.003 ScanNet / −4.81mm NuScenes	跨编码器迁移仍有正向收益
时序模块从零 vs 预训练初始化（RVM 自身编码器上）	+9.5 SSv2 / +5.1 Waymo / +5.6 PT / −0.032 ScanNet / −20.85mm NuScenes	同编码器下预训练收益更大
仅冻结图像编码器、无时序模块（DINOv3-L_dist）	Waymo 78.8 但 SSv2 仅 55.9、PT 仅 38.6	证明时序建模仍必需
编码器范式对比（GMMix 固定）	DINOv3/DINOv2 SSv2 超 RVM 编码器 4.2/2.9 分；监督 ViT-21K 也具竞争力	图像甚至纯监督编码器空间特征即竞争力

关键发现¶

空间编码器质量是主导因素：换四种差异很大的时序架构都能超过冻结 RVM，且无单一架构全面最优，说明涨点主要来自冻结 DINOv3 的强空间特征而非某个时序设计。
数据高效性显著：DINOv3 + GMMix 仅用 SSv2 训练集 25% 数据（56.5）就超过冻结 RVM 用 100% 数据（46.9），强空间先验让时序模块在少量任务数据上就能学好。
时序动态部分编码器无关：RVM 的时序核迁到 DINOv3 仍有正向迁移，支撑"共享冻结编码器 + 每任务小时序头（先视频预训练再微调）"的服务范式。
纯空间不够：无时序模块的冻结图像编码器在 Waymo 上还行，但在 SSv2、点跟踪这类时序密集任务上明显掉，确认时序建模不可省。

亮点与洞察¶

借力 RVM 的解耦结构做对照实验：作者没钱做端到端视频预训练，就巧用 RVM"空间-时序天然可拆"的特性，把它的编码器/时序核拆开再和自己的组件重组，干净地隔离出"空间表征"和"时序训练"两个变量——这是全文最聪明的实验设计。
多深度均值聚合是低成本高收益的 trick：冻结编码器无法把信息收敛到末层，于是把 1/4、1/2、3/4、1 四层逐层 MLP 适配后求均值，几乎零额外推理代价就稳定涨点，可直接迁移到任何"用冻结 ViT 当特征提取器"的下游任务。
GMMix 把 GRU 门控思想移植到 Mamba：用一个 sigmoid 门在"做时序前/后"表征间插值，等价于给 Mamba 加了 RVMRNN 的门控归纳偏置，是 SSM 时代复刻经典 RNN 设计的一个干净范例。
"诚实的 work-in-progress"定位：论文明确承认还没做时序模块的视频预训练，只给"投资前的可行性证据"，这种坦诚反而让结论更可信。

局限性 / 可改进方向¶

作者承认的核心局限：本文没有真正做时序模块的视频预训练，只是用 RVM 现成权重侧面验证，"解耦预训练真能赢"的完整证据留待未来工作。
规模只到 Base / Large，未探更大模型；编码器和时序架构家族、预训练目标的覆盖也有限。
评测管线是作者自己复现的（[25,4] 无公开实现），可能与原始设置有偏差，跨论文数字对比需留 caveat。
自己发现的局限：Waymo 上本文 94.9 vs 视频基线 ~73 的巨大领先，部分可能源于复现协议差异而非纯粹方法优势，单看这一列结论需谨慎；流式 vs offline 两套协议混用，跨表数字不宜直接比大小。
点跟踪是合成（Kubric）训练→真实评测的迁移设置，结论的泛化性受合成-真实 gap 影响。

评分¶

新颖性: ⭐⭐⭐⭐ 范式提法清晰（解耦空间-时序预训练）且对照实验设计巧妙，但单个组件（冻结编码器、Mamba、多深度特征）都不算全新。
实验充分度: ⭐⭐⭐⭐ 5 任务 × 多编码器 × 4 时序架构 × 数据效率/迁移消融很全面，扣分在最关键的"时序模块视频预训练"尚未真正做。
写作质量: ⭐⭐⭐⭐⭐ 结构清晰、定位诚实（明确标注 work-in-progress），公式与实验对照到位。
价值: ⭐⭐⭐⭐ 若结论成立，对视频基础模型的训练成本是颠覆性的；作为可行性研究已给出有力证据，工程上的"共享编码器 + 小时序头"范式也很实用。