MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning¶
会议: ICCV 2025
arXiv: 2506.08694
代码: github.com/SMSD75/MoSiC
领域: 自监督学习 / 视频表示学习
关键词: 稠密自监督学习, 最优传输, 运动轨迹, 时空一致性, 视频分割
一句话总结¶
MoSiC 利用离线点跟踪器提取长程运动轨迹,通过基于最优传输(Sinkhorn-Knopp)的聚类机制在时间维度上传播聚类分配,从而在视频数据上学习空间-时间一致的稠密表征,仅用视频训练即可将 DINOv2 在多个图像/视频基准上提升 1%–6%。
研究背景与动机¶
稠密自监督学习在像素/patch 级表征学习上取得了很大进展,但将其扩展到视频仍很困难。核心挑战在于:
静态增强失效:图像域中的颜色变换等隐式保持像素对应关系,但视频中的物体运动、相机位移和形变会破坏这种对应;
遮挡问题:先前方法(如 TimeTuning)通过掩码传播在帧间建立对应关系,但当物体被暂时遮挡时会产生传播误差;
漂移累积:长程跟踪中误差逐帧积累,导致特征表征退化。
MoSiC 的核心洞察来自格式塔心理学原则——"一起运动的点属于同一组",将这一原则推到更细粒度的 patch 级别。
方法详解¶
整体框架¶
MoSiC 采用教师-学生框架,具体流程为: 1. 对视频片段 \(X \in \mathbb{R}^{h \times w \times c \times T}\) 分帧 patchify; 2. 学生网络处理随机遮掩后的 patch,教师网络处理原始 patch; 3. 使用离线点跟踪器(CoTracker-v3)提取长程运动轨迹; 4. 在首帧上通过 Sinkhorn-Knopp 最优传输算法进行聚类; 5. 沿运动轨迹传播聚类分配到后续帧; 6. 通过交叉熵损失对齐学生/教师的聚类分配。
关键设计¶
-
运动轨迹提取(Motion Trajectories):从首帧采样 \(N\) 个点构成均匀网格,利用冻结的 CoTracker-v3 跟踪这些点在整个视频片段中的位置 \(\text{Traj}_{t,i} \in \mathbb{R}^{T \times N \times 2}\)。CoTracker 的关键优势在于它具有长程跟踪能力并且对物体遮挡后的再出现(object permanence)具有鲁棒性。
-
基于最优传输的聚类(OT-based Clustering):给定聚类原型 \(P \in \mathbb{R}^{K \times d}\),计算 patch 特征与原型之间的传输代价(负余弦相似度),然后通过 Sinkhorn-Knopp 算法求解熵正则化最优传输问题:
其中 \(H(M)\) 是熵正则化项,\(\epsilon\) 控制分配的平滑度,同时施加均匀边际约束以防止坍缩。这一过程分别在学生网络和教师网络上进行。
- 聚类传播(Cluster Propagation):在首帧 \(t_0\) 上通过 OT 得到聚类分配后,利用运动轨迹将教师网络的聚类分配传播到后续帧:\(\mathcal{Q}_t^{\text{teach},i} = \mathcal{Q}_{t_0}^{\text{teach},i}\)。这意味着沿同一轨迹运动的点保持相同的聚类身份——即使它们的外观因视角变化而改变。教师端使用双线性插值在连续坐标上采样特征,学生端使用最近邻插值。
损失函数 / 训练策略¶
训练损失为交叉熵形式,在学生首帧的聚类得分 \(S_{t_0}^{\text{stu},k,i}\)(softmax 后)与教师传播后的 one-hot 聚类分配之间计算:
关键细节: - \(v_{t,i}\) 是可见性标志,仅对可见轨迹点计算损失,增强对遮挡的鲁棒性; - 仅使用简单增强(裁剪+遮掩),不需要颜色抖动、灰度等复杂增强; - 初始化自 DINOv2 预训练权重,在 YouTube-VOS 上训练。
实验关键数据¶
主实验¶
| 基准 | 数据集 | 指标 | MoSiC-S14 | DINOv2-S14 | 提升 |
|---|---|---|---|---|---|
| In-context Scene Understanding | Pascal VOC (1/128) | mIoU | 62.5 | 56.0 | +6.5 |
| In-context Scene Understanding | Pascal VOC (1/1) | mIoU | 78.2 | 77.0 | +1.2 |
| In-context Scene Understanding | ADE20K (1/1) | mIoU | 40.7 | 38.8 | +1.9 |
| 无监督视频语义分割 | DAVIS (F-Clustering) | mIoU | 58.9 | 57.4 | +1.5 |
| 无监督视频语义分割 | YTVOS (F-Clustering) | mIoU | 60.6 | 56.3 | +4.3 |
| 冻结聚类 | Pascal VOC (K=500) | mIoU | 60.2 | 58.6 | +1.6 |
| 线性分割 | Pascal VOC | mIoU | 79.7 | 78.9 | +0.8 |
| 线性分割 | ADE20K | mIoU | 39.6 | 37.9 | +1.7 |
| 语义分割 | Pascal VOC | mIoU | 51.2 | 37.5 | +13.7 |
MoSiC-B14(85M 参数)进一步提升:Pascal VOC in-context (1/128) 达 65.5,(1/1) 达 80.5。
消融实验¶
| 配置 | Pascal VOC (mIoU) | ADE20K (mIoU) | 说明 |
|---|---|---|---|
| 无遮掩 | 51.1 | 18.2 | 基线 |
| 10% 遮掩率 | 51.5 | 18.6 | 最佳 |
| 40% 遮掩率 | 49.9 | 18.5 | 过高遮掩有害 |
| 无 EMA 教师 | 50.5 | 18.2 | EMA 教师有帮助 |
| 有 EMA 教师 | 51.5 | 18.6 | 默认设置 |
| 8×8 网格 | 49.2 | 17.5 | 稀疏网格不足 |
| 16×16 网格 | 51.5 | 18.6 | 默认设置 |
关键发现¶
- MoSiC 可泛化到多种视觉基础模型(DINO、EVA-CLIP、DINOv2-R),均能带来 2%–7% 的提升;
- 低数据量场景下提升更显著(1/128 数据时 +6.5%);
- 相比 TimeTuning,MoSiC 在 DAVIS 上聚类提升 8.7%,在 YTVOS 上提升 9.4%。
亮点与洞察¶
- 运动轨迹作为隐式监督信号:巧妙利用格式塔心理学原则,将"共同运动的点必归类于一组"这一直觉转化为可优化的目标;
- 仅用视频提升图像表征:无需图像标注,通过视频时序信号就能改善静态图像的稠密表征质量;
- 可见性掩码机制:仅对可见轨迹计算损失,优雅地解决了遮挡导致的伪标签问题,这比 TimeTuning 的掩码传播更鲁棒;
- 即插即用:可应用于各种视觉基础模型作为后续微调阶段。
局限与展望¶
- 依赖离线点跟踪器(CoTracker-v3),跟踪器的质量直接影响聚类传播的准确性;
- 训练需要视频数据(YouTube-VOS),无法在纯图像场景下使用;
- 对于极快速运动或相机大幅抖动场景,跟踪器本身可能失效;
- 聚类数 \(K\) 需要手动设定,缺乏自适应机制。
相关工作与启发¶
- 与 TimeTuning 的核心区别在于使用鲁棒的长程点跟踪器替代掩码传播,避免了遮挡后的传播误差累积;
- 与 NeCo、CrIBo 等图像域方法互补——它们利用跨图像一致性,MoSiC 利用跨帧时序一致性;
- OT 聚类机制继承自 DINO/SwAV,但创新性地将聚类分配沿运动轨迹传播。
评分¶
- 新颖性: ⭐⭐⭐⭐ 运动轨迹+OT 聚类传播的组合在稠密自监督学习中是首创
- 实验充分度: ⭐⭐⭐⭐⭐ 6 个数据集、4 个评估基准、多种 backbone 泛化实验、全面的消融
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,公式规范,图示直观
- 价值: ⭐⭐⭐⭐ 为视频数据如何增强图像表征提供了有效方案