MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning¶

会议: ICCV 2025
arXiv: 2506.08694
代码: github.com/SMSD75/MoSiC
领域: 自监督学习 / 视频表示学习
关键词: 稠密自监督学习, 最优传输, 运动轨迹, 时空一致性, 视频分割

一句话总结¶

MoSiC 利用离线点跟踪器提取长程运动轨迹，通过基于最优传输（Sinkhorn-Knopp）的聚类机制在时间维度上传播聚类分配，从而在视频数据上学习空间-时间一致的稠密表征，仅用视频训练即可将 DINOv2 在多个图像/视频基准上提升 1%–6%。

研究背景与动机¶

稠密自监督学习在像素/patch 级表征学习上取得了很大进展，但将其扩展到视频仍很困难。核心挑战在于：

静态增强失效：图像域中的颜色变换等隐式保持像素对应关系，但视频中的物体运动、相机位移和形变会破坏这种对应；

遮挡问题：先前方法（如 TimeTuning）通过掩码传播在帧间建立对应关系，但当物体被暂时遮挡时会产生传播误差；

漂移累积：长程跟踪中误差逐帧积累，导致特征表征退化。

MoSiC 的核心洞察来自格式塔心理学原则——"一起运动的点属于同一组"，将这一原则推到更细粒度的 patch 级别。

方法详解¶

整体框架¶

MoSiC 采用教师-学生框架，具体流程为： 1. 对视频片段 \(X \in \mathbb{R}^{h \times w \times c \times T}\) 分帧 patchify； 2. 学生网络处理随机遮掩后的 patch，教师网络处理原始 patch； 3. 使用离线点跟踪器（CoTracker-v3）提取长程运动轨迹； 4. 在首帧上通过 Sinkhorn-Knopp 最优传输算法进行聚类； 5. 沿运动轨迹传播聚类分配到后续帧； 6. 通过交叉熵损失对齐学生/教师的聚类分配。

关键设计¶

运动轨迹提取（Motion Trajectories）：从首帧采样 \(N\) 个点构成均匀网格，利用冻结的 CoTracker-v3 跟踪这些点在整个视频片段中的位置 \(\text{Traj}_{t,i} \in \mathbb{R}^{T \times N \times 2}\)。CoTracker 的关键优势在于它具有长程跟踪能力并且对物体遮挡后的再出现（object permanence）具有鲁棒性。
基于最优传输的聚类（OT-based Clustering）：给定聚类原型 \(P \in \mathbb{R}^{K \times d}\)，计算 patch 特征与原型之间的传输代价（负余弦相似度），然后通过 Sinkhorn-Knopp 算法求解熵正则化最优传输问题：

\[M^* = \arg\min_{M \in \mathcal{M}} \langle M, C \rangle - \epsilon \frac{1}{\lambda} H(M)\]

其中 \(H(M)\) 是熵正则化项，\(\epsilon\) 控制分配的平滑度，同时施加均匀边际约束以防止坍缩。这一过程分别在学生网络和教师网络上进行。

聚类传播（Cluster Propagation）：在首帧 \(t_0\) 上通过 OT 得到聚类分配后，利用运动轨迹将教师网络的聚类分配传播到后续帧：\(\mathcal{Q}_t^{\text{teach},i} = \mathcal{Q}_{t_0}^{\text{teach},i}\)。这意味着沿同一轨迹运动的点保持相同的聚类身份——即使它们的外观因视角变化而改变。教师端使用双线性插值在连续坐标上采样特征，学生端使用最近邻插值。

损失函数 / 训练策略¶

训练损失为交叉熵形式，在学生首帧的聚类得分 \(S_{t_0}^{\text{stu},k,i}\)（softmax 后）与教师传播后的 one-hot 聚类分配之间计算：

\[\mathcal{L}_{\text{clust}}(i) = -\sum_{t=1}^{T} \sum_{k=1}^{K} v_{t,i} \cdot \delta(\mathcal{Q}_t^{\text{teach},i} = k) \cdot \log(S_{t_0}^{\text{stu},k,i})\]

关键细节： - \(v_{t,i}\) 是可见性标志，仅对可见轨迹点计算损失，增强对遮挡的鲁棒性； - 仅使用简单增强（裁剪+遮掩），不需要颜色抖动、灰度等复杂增强； - 初始化自 DINOv2 预训练权重，在 YouTube-VOS 上训练。

实验关键数据¶

主实验¶

基准	数据集	指标	MoSiC-S14	DINOv2-S14	提升
In-context Scene Understanding	Pascal VOC (1/128)	mIoU	62.5	56.0	+6.5
In-context Scene Understanding	Pascal VOC (1/1)	mIoU	78.2	77.0	+1.2
In-context Scene Understanding	ADE20K (1/1)	mIoU	40.7	38.8	+1.9
无监督视频语义分割	DAVIS (F-Clustering)	mIoU	58.9	57.4	+1.5
无监督视频语义分割	YTVOS (F-Clustering)	mIoU	60.6	56.3	+4.3
冻结聚类	Pascal VOC (K=500)	mIoU	60.2	58.6	+1.6
线性分割	Pascal VOC	mIoU	79.7	78.9	+0.8
线性分割	ADE20K	mIoU	39.6	37.9	+1.7
语义分割	Pascal VOC	mIoU	51.2	37.5	+13.7

MoSiC-B14（85M 参数）进一步提升：Pascal VOC in-context (1/128) 达 65.5，(1/1) 达 80.5。

消融实验¶

配置	Pascal VOC (mIoU)	ADE20K (mIoU)	说明
无遮掩	51.1	18.2	基线
10% 遮掩率	51.5	18.6	最佳
40% 遮掩率	49.9	18.5	过高遮掩有害
无 EMA 教师	50.5	18.2	EMA 教师有帮助
有 EMA 教师	51.5	18.6	默认设置
8×8 网格	49.2	17.5	稀疏网格不足
16×16 网格	51.5	18.6	默认设置

关键发现¶

MoSiC 可泛化到多种视觉基础模型（DINO、EVA-CLIP、DINOv2-R），均能带来 2%–7% 的提升；
低数据量场景下提升更显著（1/128 数据时 +6.5%）；
相比 TimeTuning，MoSiC 在 DAVIS 上聚类提升 8.7%，在 YTVOS 上提升 9.4%。

亮点与洞察¶

运动轨迹作为隐式监督信号：巧妙利用格式塔心理学原则，将"共同运动的点必归类于一组"这一直觉转化为可优化的目标；
仅用视频提升图像表征：无需图像标注，通过视频时序信号就能改善静态图像的稠密表征质量；
可见性掩码机制：仅对可见轨迹计算损失，优雅地解决了遮挡导致的伪标签问题，这比 TimeTuning 的掩码传播更鲁棒；
即插即用：可应用于各种视觉基础模型作为后续微调阶段。

局限与展望¶

依赖离线点跟踪器（CoTracker-v3），跟踪器的质量直接影响聚类传播的准确性；
训练需要视频数据（YouTube-VOS），无法在纯图像场景下使用；
对于极快速运动或相机大幅抖动场景，跟踪器本身可能失效；
聚类数 \(K\) 需要手动设定，缺乏自适应机制。

评分¶

新颖性: ⭐⭐⭐⭐ 运动轨迹+OT 聚类传播的组合在稠密自监督学习中是首创
实验充分度: ⭐⭐⭐⭐⭐ 6 个数据集、4 个评估基准、多种 backbone 泛化实验、全面的消融
写作质量: ⭐⭐⭐⭐ 逻辑清晰，公式规范，图示直观
价值: ⭐⭐⭐⭐ 为视频数据如何增强图像表征提供了有效方案