Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining¶

会议: CVPR 2026
arXiv: 2603.22953
代码: 无
领域: 视频理解
关键词: 视频语言预训练, 掩码视觉建模, 时空聚类, 高效预训练, 视频文本对齐

一句话总结¶

提出 ClusterSTM，通过帧内语义聚类和逐簇时空掩码策略，在高掩码率下保留语义完整的视觉 token，同时引入视频-文本相关性重建目标，以极低的计算代价实现视频语言模型的高效预训练，在检索、VQA、字幕等任务上达到高效模型的新 SOTA。

研究背景与动机¶

领域现状：大规模视频语言预训练（Video-Language Pretraining, VLP）已成为多模态任务的主流范式，通过在海量视频-文本对上联合训练编码器，模型可以在视频检索、视频问答、视频字幕等下游任务上获得强大的泛化能力。然而，这类方法的计算开销极为庞大——视频数据的时空维度远高于图像，使得预训练的 GPU 时间和内存开销成为关键瓶颈。

现有痛点：近年来，掩码视觉建模（Masked Visual Modeling）被引入以缓解计算压力。其核心思路是在训练时随机遮蔽大部分视觉 token，仅保留少量 token 送入编码器。然而，这种随机掩码策略存在两个根本性缺陷： 1. 视觉信息严重丢失：当掩码率提升到 75%~90% 时，随机保留的 token 往往无法覆盖视频的关键语义区域，导致模型只能学到碎片化的视觉表示。 2. 时间信息泄露：视频相邻帧之间存在强烈的视觉相关性（大量像素几乎不变），简单的帧内随机掩码无法避免模型通过相邻帧的冗余信息"作弊"，从而削弱了对真正时序动态的学习。

核心矛盾：高效率要求高掩码率（少输入），但高掩码率又会导致语义完整性丢失和时间信息泄露，两者之间存在根本性的 trade-off。

本文目标：设计一种结构化的掩码策略，在高掩码率下同时保证：(1) 保留的 token 能覆盖视频的全局语义；(2) 保留的 token 具有强时间动态性，避免信息泄露。

切入角度：作者观察到，视频帧内的视觉 token 可以按语义相似性自然聚类为若干独立组，如果在每个语义簇中只保留"时间密度"最高的 token（即在其他帧里反复出现、时序上最稳定复现的那个），就能同时满足语义覆盖和抑制时间信息泄露的需求。

核心 idea：用帧内聚类将 token 分组，在每组中保留时序上最稳定复现（时间密度最高）的 token，并用视频-文本相关性重建取代简单的像素级重建，从而实现语义完整且高效的视频语言预训练。

方法详解¶

整体框架¶

ClusterSTM 想解决的是高效视频语言预训练里那个绕不开的矛盾：要省算力就得高掩码率（只送少量 token 进编码器），但 token 一掉到 10%~15%，随机保留的那批往往既盖不全语义、又全是相邻帧抄来抄去的冗余信息。整个框架是一套师生（teacher-student）结构：用一个训练好的视觉-语言基础模型（本文用 SigLIP）当教师，由它输出每帧的视觉 token 和文本特征，并据此做两件事——(1) 跑一套结构化的两步掩码：先在每帧内部把 token 按语义聚成若干簇，再在每个簇里只留时序上最稳定复现的那个 token，生成时空掩码 \(\hat{M}\)；(2) 生成"视频-文本相关性矩阵"作为重建目标。学生模型（ViT 视频编码器 + BERT 文本编码器，沿用 UMT 设置）则在掩码指导下只把可见 token 送进视频编码器，再经时空解码器重建出完整 token 序列，并把重建出的被掩蔽 token 与文本特征相乘得到重建相关性矩阵。训练时用教师给的相关性矩阵监督学生的重建（masked relevance modeling），再叠加视频-文本对比、匹配和掩码语言建模等常规目标。这样保留的少量 token 既横跨画面所有语义区域、又是时序上一致复现的部分，从根上同时堵住了"语义盖不全"和"时间信息泄露"两个漏洞。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频 V + 配对文本 S"] --> T["教师模型 SigLIP<br/>生成视频 token 与文本特征"]
    T --> C["帧内语义聚类<br/>DPC 分成 Nc=N(1−r) 个语义簇"]
    C --> D["时间密度簇内选择<br/>每簇留时序最稳定复现 token → 时空掩码 M"]
    T --> R["视频-文本相关性生成（目标）<br/>邻域池化增强 token × 文本特征"]
    A --> S["学生模型<br/>patch embed → 按掩码取可见 token → ViT 编码 + 解码重建"]
    D -->|时空掩码 M 指导可见 token| S
    S --> E["重建被掩蔽 token × 文本特征<br/>得重建相关性矩阵"]
    R -->|监督目标| L["相关性重建损失 L_MRM + VTC + VTM + MLM"]
    E --> L

关键设计¶

1. 帧内语义聚类：先分组，保证每个语义区域都有 token 活下来

随机掩码最致命的地方在于它对语义是盲的——一不小心可能把整个前景物体对应的 token 全部掩掉，模型就只能从背景纹理里学一堆碎片化表示；而像 UMT 那样只保留"高语义前景 token"又会丢掉背景，可文本描述往往前景背景都涉及（"小孩在沙滩上放风筝"），背景对对齐同样重要。ClusterSTM 的第一步是在每帧内部对教师输出的视觉 token 跑一遍密度峰值聚类（Density Peaks Clustering, DPC），把每帧的 \(N\) 个 token 分成 \(N_c = N\times(1-r)\) 个语义簇（\(r\) 为掩码率），每个簇大致对应画面里一块语义独立的区域；聚类在特征空间做，不依赖像素位置。关键是后续掩码改成逐簇只保留一个 token——于是不管掩码率推到多高，画面里每块语义区域都恰好留下一个代表、不会被整体抹掉，"全局语义覆盖"是结构上被保证的，而不是靠运气。

2. 基于时间密度的簇内 token 选择：每个簇只留时序上最稳定复现的那个，把"作弊路径"堵死

光保证语义覆盖还不够——视频相邻帧高度相似，随机掩码下模型可以直接拿邻帧对应位置的可见 token 把被掩内容"抄"出来，根本不用学时序动态（即时间信息泄露）。Tube masking 的老办法是对所有帧用同一张掩码、固定保留相同空间位置的 token，但它假设帧间几乎不动，遇到复杂运动就失效。ClusterSTM 换了个自适应判据：给每个 token 定义"时间密度"——把它和其他所有帧里全部 token 的特征相似度（余弦距离的负指数 \(\exp(-d/d_c)\)）累加起来，相似的越多、密度越高，说明这个 token 在整段视频里反复稳定出现；每个簇里就保留时间密度最高的那个。请注意方向：留下的是"时序上最相关、跨帧稳定复现"的 token，而不是变化最剧烈的——正因为这种 token 在每帧里都会被一致地保留（哪怕空间位置随帧漂移，它仍维持最高密度而持续被留下），相当于一张语义自适应的"软 tube 掩码"。被掩掉的反而是那些只在单帧出现、不复现的瞬时内容，邻帧里也没有它们可抄，泄露路径自然被堵死，模型只能真正学时空动态才能把它们重建出来。

3. 视频-文本相关性重建目标：让掩码重建直接服务于多模态对齐

传统掩码视觉建模重建的是被掩 token 的视觉特征甚至像素（低层信号），对检索、VQA 这类需要高层跨模态对齐的任务帮助有限，而且只盯视觉模态、没让文本参与监督。ClusterSTM 把重建目标换成更高层、且天生带多模态属性的"视频-文本相关性"。具体地，目标相关性矩阵由教师（SigLIP）生成：对每个目标 token，先用滑动窗口把它和邻域 token 一起送进教师的池化模块聚成一个信息更丰富的增强 token，再与文本特征相乘得到该位置的相关性分数（直接拿单个 token 和全局文本特征交互会得到低质量矩阵，所以要先做邻域增强）。学生这边则把解码器重建出的被掩蔽 token 与文本特征相乘，得到重建的相关性矩阵，并用 L2 距离去拟合教师给的目标（masked relevance modeling）。这条目标把掩码预训练和下游跨模态语义直接挂钩，所以在检索和 VQA 上收益最明显，对偏低层的字幕任务帮助相对小（消融里也是这个规律）。

损失函数 / 训练策略¶

ClusterSTM 的整体训练目标是 \(\mathcal{L} = \mathcal{L}_{MRM} + \mathcal{L}_{VTC} + \mathcal{L}_{VTM} + \mathcal{L}_{MLM}\)，四项分别是：(1) 掩码相关性建模损失 \(\mathcal{L}_{MRM}\)，即上面用教师相关性矩阵监督学生重建的 L2 损失，是本文新增的重建目标（取代了传统的像素 / 视觉特征重建）；(2) 视频-文本对比损失 \(\mathcal{L}_{VTC}\) 和 (3) 视频-文本匹配损失 \(\mathcal{L}_{VTM}\)，做跨模态特征对齐；(4) 掩码语言建模损失 \(\mathcal{L}_{MLM}\)，监督文本侧重建。整体延续 UMT / STM 等主流视频语言预训练范式，聚类与 token 选择作为预处理在每个 batch 由教师模型动态执行。

实验关键数据¶

主实验¶

任务/数据集	指标	ClusterSTM	之前高效SOTA	提升
MSRVTT 检索	R@1	SOTA	-	明显优于同类高效方法
DiDeMo 检索	R@1	SOTA	-	在同等计算预算下领先
MSRVTT QA	Top-1 Acc	SOTA	-	超越同等参数量模型
MSVD 字幕	CIDEr	SOTA	-	新排名第一

消融实验¶

配置	关键指标	说明
Full ClusterSTM	最佳	完整模型
w/o 帧内聚类（改为随机掩码）	下降明显	证明聚类保证语义覆盖的重要性
w/o 时间密度选择（改为随机簇内选择）	下降	证明保留时序稳定复现 token、抑制时间信息泄露的作用
w/o 视频-文本相关性重建	下降	证明高层语义对齐目标的必要性
不同掩码率 (75%/85%/90%)	85%最佳	过高掩码率仍会损失信息

关键发现¶

帧内聚类是最关键的模块，移除后在检索任务上掉点最多，说明语义完整性是高掩码率预训练的核心挑战
时间密度选择相比随机选择约带来 1-2% 的一致性提升，在运动丰富的视频上提升尤为显著
视频-文本相关性重建主要在检索和 VQA 任务上有帮助，对字幕任务的提升较小
在使用仅 15% token 的条件下（85%掩码率），ClusterSTM 能达到甚至超过全 token 训练在检索任务上的性能

亮点与洞察¶

语义感知的结构化掩码：将随机掩码升级为语义感知的结构化操作，巧妙地解决了高掩码率下的信息丢失问题。这种"先分组再采样"的策略可以迁移到图像 MAE、点云预训练等其他领域
时间密度作为 token 重要性度量：用 token 在跨帧上的特征相似度累积（时间密度）来衡量它是否时序稳定复现，据此筛 token 是一个简单但结果良好的设计，无需额外学习即可实现有效的 token 筛选
多模态重建目标的引入：在视觉掩码重建中加入文本语义约束，使得预训练更直接地服务于下游多模态任务

局限与展望¶

帧内聚类引入了额外的计算开销（DPC 密度峰值聚类），虽然相对于 Transformer 本身较小，但在超大规模预训练中可能仍需优化
本文的方法假设语义区域可以通过简单的 embedding 聚类有效分离，对于高度遮挡或语义混杂的场景，聚类质量可能下降
时间密度指标依赖帧间 token 的显式对应关系，对于剧烈运动或场景切换的视频可能不够鲁棒
未来可探索自适应的簇数和掩码率选择机制，根据视频内容动态调整

评分¶

新颖性: ⭐⭐⭐⭐ 聚类+时间密度的组合是合理且有效的创新点，但每个单独组件的思路并不完全新颖
实验充分度: ⭐⭐⭐⭐ 覆盖了检索、VQA、字幕三大任务，有消融实验
写作质量: ⭐⭐⭐⭐ 动机推导清晰，问题定义明确
价值: ⭐⭐⭐⭐ 对高效视频语言预训练有实用价值，但影响范围相对限定在VLP领域