跳转至

From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning

会议: ICLR 2026
arXiv: 2602.03390
代码: https://github.com/hynnsk/SRL
领域: 视频理解 / 自监督学习 / 目标发现
关键词: 以目标为中心的学习, slot attention, 对比学习, 编码器-解码器对齐, 无监督分割

一句话总结

发现 slot-based 目标中心学习中编码器(产生尖锐但有噪声的注意力图)与解码器(产生空间一致但模糊的重建掩码)之间的恶性循环,提出同步对比学习目标和 slot 正则化预热策略将其转化为良性循环,在 MOVi 和 YouTube-VIS 上大幅提升物体发现性能。

研究背景与动机

领域现状:以目标为中心的学习(Object-Centric Learning)旨在无监督地将视频分解为独立对象的表征(slot),主流方法基于 slot attention + 重建范式。近期工作利用 DINOv2 特征提升对象分割质量。

现有痛点:编码器和解码器之间存在恶性循环——(a) 编码器(DINOv2)产生的注意力图虽然尖锐但包含高频噪声,导致解码器面临病态重建任务,只能产生模糊的重建掩码;(b) MSE 重建损失相当于低通滤波器,反馈给编码器的梯度缺乏高频信息,无法帮助去噪。

核心矛盾:编码器的噪声问题和解码器的模糊问题互相强化——"谁都不知道对方在说什么,但又只能从对方那里学习"。

本文目标 如何打破编码器-解码器之间的恶性循环,让两者互相改进而非互相退化?

切入角度:利用编码器和解码器各自的优势——编码器的注意力图虽有噪声但边界尖锐,解码器的重建掩码虽模糊但空间一致——设计交叉对比学习目标让各自取长补短。

核心 idea:用解码器的空间一致掩码去"去噪"编码器注意力,同时用编码器的尖锐注意力去"去模糊"解码器重建,形成良性循环。

方法详解

整体框架

在标准的 slot attention + 重建基线(SlotContrast)上,增加三个组件:(1) Slot 正则化预热(Stage 1),(2) 稳定过渡期(Stage 2),(3) 双向对比学习目标(Stage 3)。三阶段训练确保 slot 先特化再稳定再精炼。

关键设计

  1. Slot 正则化预热(Stage 1, 前 10% 训练):

    • 功能:防止多个 slot 坍缩到相同对象
    • 核心思路:迭代找到余弦相似度最高的 slot 对 (i,j),通过 KL 散度到均匀分布来选出更不特化的slot,对其注意力施加正则化惩罚。重复 M = floor(S/2) 次(S 为 slot 数)。
    • 设计动机:slot 坍缩是以目标为中心学习的常见问题,如果两个 slot 表示同一个物体,后续的对比学习就无法产生有效的正负样本划分。
  2. 去模糊对比学习(Deblurring CL, 在 Stage 3 激活):

    • 功能:利用编码器的尖锐注意力图作为伪标签,指导解码器产生更清晰的重建掩码
    • 核心思路:构建三级层次化对比目标——(a) 正样本:patch 自身的编码器-解码器对,(b) 半正样本:编码器注意力标记为同一 slot 的 patch 集合,(c) 负样本:其余 patch。排序对比损失使得解码器特征在同一 slot 内聚集、跨 slot 分离。
    • 设计动机:标准 MSE 损失只优化重建精度,无法改善空间分辨率;层次化对比损失直接优化掩码的判别性。
  3. 去噪对比学习(Denoising CL, 在 Stage 3 激活):

    • 功能:利用解码器的空间一致掩码作为伪标签,指导编码器去除高频噪声
    • 核心思路:正样本从 DINOv2 特征空间的 Top-K 近邻中选取,半正样本从解码器掩码标记为同一 slot 的 patch 中选取。结构类似去模糊 CL,但方向相反。
    • 设计动机:解码器掩码虽然模糊但空间一致(不会把噪声 patch 标记为前景),利用这种空间一致性帮助编码器学习更平滑的特征分布。

训练策略

三阶段调度:Stage 1(0-10%)slot 正则化,Stage 2(10-20%)仅基线损失稳定,Stage 3(20-100%)双向对比学习。损失权重均为 0.1。

实验关键数据

主实验

方法 MOVi-C FG-ARI MOVi-C mBO MOVi-E FG-ARI YTVIS FG-ARI YTVIS mBO
STEVE 36.1 26.5 50.6 15.0 19.1
VideoSAUR 64.8 38.9 73.9 28.9 26.3
SlotContrast 70.4 31.7 80.9 36.2 32.9
SRL (本文) 74.3 34.5 81.9 42.9 35.6

消融实验

去模糊CL 去噪CL Slot正则化 FG-ARI mBO
- - - 70.8 31.4
Y - - 70.0 33.2
- Y - 72.2 31.2
- - Y 70.7 35.1
Y Y Y 74.2 33.2

关键发现

  • 相比 SlotContrast 基线,在 YouTube-VIS 上 FG-ARI 提升 18.5%(36.2 -> 42.9),说明这不纯是合成数据的收益
  • 三个组件互补——单独使用去模糊 CL 反而降低 FG-ARI(70.0 vs 70.8),必须配合去噪 CL 或正则化
  • Slot 正则化对 mBO 贡献最大(31.4 -> 35.1),说明 slot 坍缩是 mBO 低的主因
  • 在 DAVIS 2017 的跨数据集迁移中,Jaccard 提升 11.7 个点

亮点与洞察

  • 恶性循环的诊断:清晰地识别出编码器噪声与解码器模糊之间的因果反馈循环,这种对问题根源的深入分析值得学习。
  • 对称设计:去模糊和去噪是对称的——各自利用对方的伪标签,形成互教互学。这种"你帮我去噪,我帮你去模糊"的设计范式非常优雅。
  • 三阶段训练调度:先稳定 slot,再引入对比学习,避免了训练初期 slot 坍缩导致对比学习产生错误梯度的问题。
  • 迁移到静态图像:在 COCO 上也有提升,说明方法不仅适用于视频。

局限与展望

  • 算法增加两个层次化对比损失,计算开销可能不低,但论文未报告训练时间对比
  • 三阶段训练引入了额外的超参数(阶段划分比例、正则化强度),敏感性分析显示对训练比例有一定依赖
  • 在极多目标场景(如 MOVi-E 有 23 个物体)中,slot 正则化的性能提升有限
  • 伪标签质量直接影响对比学习效果,训练早期的伪标签可能不够准确

相关工作与启发

  • vs SlotContrast: 本文的直接基线,SRL 在其上增加了双向对比学习和 slot 正则化
  • vs VideoSAUR: 使用 DINO 特征做 slot 的先驱工作,SRL 进一步解决了 DINO 特征噪声问题
  • vs STEVE: 像素空间重建的slot方法,SRL 在特征空间操作性能远超

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 恶性循环的诊断和对称互学设计非常深刻
  • 实验充分度: ⭐⭐⭐⭐⭐ MOVi-C/E + YTVIS + DAVIS + COCO, 消融全面
  • 写作质量: ⭐⭐⭐⭐⭐ 恶性/良性循环的叙事清晰有说服力
  • 价值: ⭐⭐⭐⭐ 为自监督目标发现提供了有效的方法论