跳转至

Perceptual Inductive Bias is What You Need Before Contrastive Learning

会议: CVPR 2025
arXiv: 2506.01201
代码: 无
领域: 自监督学习 / 3D视觉
关键词: 对比学习, 感知归纳偏置, 形状原型, 内在图像分解, 预预训练

一句话总结

受 David Marr 多阶段视觉处理理论启发,提出在标准对比学习之前增加一个"预预训练"(pre-pretraining)阶段,利用前景-背景分割的形状轮廓和内在图像分解(反照率+着色)作为感知归纳偏置,在 ResNet18 上实现 2 倍加速收敛,并在分割、深度估计和识别等下游任务上取得全面提升。

研究背景与动机

领域现状:对比学习(如 SimCLR、MoCo、BYOL 等)是自监督表征学习的主流方法,通过最大化同一图像不同视图之间的互信息来学习语义表征。这些方法通常直接从原始图像学习高层语义空间,跳过了中间层的视觉表征构建。

现有痛点:端到端的对比学习存在两个问题:(1) 收敛速度慢,需要大量 epoch 才能学到高质量表征;(2) 学到的表征存在纹理偏差(texture bias),模型倾向于利用纹理捷径进行识别,而非人类所依赖的形状信息。此外,语义级别的分类任务和像素级的分割/深度估计任务之间存在 trade-off,单一的对比学习框架很难同时优化两者。

核心矛盾:人类视觉处理是分阶段的——先感知边界和表面属性(中间层表征),再形成语义物体表征。但当前对比学习直接跳到语义层,忽略了中间层感知构造的归纳偏置,导致表征缺乏对形状、深度和表面的敏感性。

本文目标:验证并利用 Marr 的多阶段理论——先构建边界和表面层级的中间表征,再训练语义表征——以 (1) 加速对比学习收敛,(2) 提升下游任务(分类、分割、深度估计)性能,(3) 增强形状偏置和鲁棒性。

切入角度:作者借鉴发育心理学的发现——婴儿通过形状原型学习词汇,形状感知在早期视觉发育中极为重要。另外内在图像分解(反照率和着色)分别编码了材质表面属性和隐式 2.5D 信息,应该对不同下游任务有差异化的增益。

核心 idea:设计三种感知构造——形状原型(Shape Prototypes)、反照率图(Reflectance)、着色图(Shading),作为预训练前的归纳偏置注入对比学习。提出混合 coarse-to-fine 策略:先用形状原型加速初始学习,再切换回标准对比学习进行精细调整。

方法详解

整体方法包含三个独立的感知构造组件,既可以单独使用也可以组合使用。核心思想是将早期视觉处理阶段的中间表征(形状轮廓、内在图像)作为额外的"视图"或"原型"引入对比学习框架,为网络提供人类视觉系统的归纳偏置。

整体框架

输入是 ImageNet-100 上的图像。预处理阶段:使用 TRACER 离线生成前景-背景分割的形状轮廓(silhouette),使用 Retinex 算法分解得到反照率图和着色图。训练阶段:根据配置选择 S-PCL(形状原型对比学习)、ReflCL(反照率对比学习)、ShadCL(着色对比学习)或 MidVCL(三者组合),先进行 100 epoch 的预预训练,再切换到标准 MoCoV2 训练 300 epoch。

关键设计

  1. 形状原型对比学习(S-PCL):

    • 功能:学习基于形状轮廓的聚类原型,引导表征学习
    • 核心思路:将图像送入在线编码器得到表征 \(V\),形状轮廓送入动量编码器得到表征 \(U\)。对 \(U\) 进行 K-Means 聚类得到 \(K\) 个形状原型 \(S = \{s_1, ..., s_K\}\)。通过 ShapeProtoNCE 损失最大化图像表征 \(v_i\) 与其对应形状原型 \(s_p\) 之间的互信息,并与标准 InfoNCE 结合。多次聚类(不同 \(K\) 值)取平均以获得多粒度原型。
    • 设计动机:人类依赖物体的整体形状包络进行识别,形状相似的物体被归为一类。通过聚类形状轮廓得到原型,网络可以快速建立形状感知能力。但实验发现 S-PCL 在 100 epoch 后性能饱和——这正好说明形状偏置是"启动器"而非最终解决方案,需要后续的语义对比学习来精细化。
  2. 内在图像视图对比学习(ReflCL / ShadCL):

    • 功能:将内在图像(反照率或着色)作为对比学习的增强视图
    • 核心思路:原始图像通过编码器提取表征,内在图像(反照率或着色)通过动量编码器提取表征,计算两者之间的 InfoNCE 损失。最终损失是标准两视图 InfoNCE 加上内在图像 InfoNCE 的和。反照率图保留物体表面颜色/材质、去除光照影响;着色图隐含了 3D 形状和光照的交互信息。
    • 设计动机:反照率图可以帮助实例边界检测(基于材质差异分割),有助于分割和识别但不帮助深度估计;着色图隐含了丰富的 2.5D 信息,有助于深度估计但对分割/识别帮助有限。两者的差异化增益验证了"不同感知构造对不同任务的差异贡献"这一假设。
  3. 混合粗到细策略(Hybrid Coarse-to-Fine):

    • 功能:先用感知偏置加速启动,再用语义对比精细化
    • 核心思路:训练分两阶段——前 100 epoch 使用 S-PCL/MidVCL 进行预预训练,后 300 epoch 切换到标准 MoCoV2/PCL。形状原型在早期快速建立形状感知能力,但继续使用会饱和甚至阻碍更精细的语义学习。这类似于人类发育中先发展形状感知再发展词汇和概念的过程。
    • 设计动机:S-PCL 在 AMI(调整互信息)指标上的行为与此一致——早期快速增长,后期下降。这说明形状聚类最初与语义类别高度相关,但随着训练深入,更细粒度的语义区分需要突破形状原型的限制。

损失函数 / 训练策略

总体损失函数为 \(\mathcal{L} = \mathcal{L}_{InfoNCE} + \frac{1}{N}\sum_{i=1}^{N}\mathcal{L}_{ShapeProtoNCE, K_i} + \alpha \mathcal{L}_{Shad} + \beta \mathcal{L}_{Refl}\),其中 \(\alpha, \beta\) 为着色和反照率损失的权重。训练策略:先 S-PCL/MidVCL 100 epoch,再标准对比学习 300 epoch。使用 ResNet18 作为编码器,输出维度 256-D。

实验关键数据

主实验

方法 Epochs IN-100 Top-1 IN-1k Top-1 ADE20K mIoU Depth RME
SimCLR 400 77.2 40.8 30.4 0.1420
MoCoV2 400 77.0 41.6 30.4 0.1434
BYOL 400 75.8 42.9 30.9 0.1458
S-PCL 100 70.2 37.2 - -
S-PCL+MoCoV2 400 78.0 43.9 31.9 0.1398
MidVCL+MoCoV2 400 77.8 43.8 31.9 (tie) 0.1354

消融实验

配置 IN-100 Top-1 (100ep) IN-100 Top-1 (400ep)
S-PCL 单独训练 70.2 (最佳) 71.8 (饱和)
MoCoV2 单独训练 61.7 77.0
S-PCL→MoCoV2 - 78.0 (最佳)
MidVCL→MoCoV2 - 77.8

关键发现

  • S-PCL 在早期(100 epoch)表现最佳,超越所有基线约 5-8 个百分点;但 400 epoch 后性能饱和甚至下降(71.8 vs 基线 77%),说明形状偏置需要及时释放
  • 混合策略 S-PCL+MoCoV2 在所有下游任务上均达到最佳或接近最佳,同时收敛速度提升 2 倍
  • 反照率有助于分类和分割,着色有助于深度估计,三者组合(MidVCL)在深度和分割上均最优
  • 分割任务中 S-PCL 和 MidVCL 分别提升约 1.4 和 1.7 个 mIoU 点(ADE20K),Cityscapes 上提升更加显著(68.3 vs 63.4 基线)

亮点与洞察

  • 将认知科学理论(Marr 视觉理论、婴儿形状发育)转化为具体的算法设计,理论动机非常扎实
  • 三种感知构造对不同任务的差异化增益(反照率→识别/分割,着色→深度,形状→全部)提供了有趣的insights
  • "预预训练"的思路简洁有效,不改变主训练框架,易于集成
  • S-PCL 的"先升后降"现象及其与人类婴儿发育的类比,为课程学习提供了新的生物学视角

局限与展望

  • 仅在 ResNet18 和 ImageNet-100 上实验,缺乏大规模(ImageNet-1k 全量训练)和更大架构(ViT)的验证
  • 形状轮廓依赖预训练的 TRACER 分割模型,引入了额外的数据依赖
  • Retinex 算法的内在图像分解质量有限,使用更先进的分解方法可能带来更好结果
  • 最优的阶段切换 epoch(100→300)可能不是最优划分,缺乏对此超参数的敏感性分析
  • 混合策略引入的额外预处理开销(生成轮廓、分解内在图像)在大规模数据上可能成为瓶颈

相关工作与启发

  • PCL(Prototypical Contrastive Learning) 的关系:S-PCL 将原型聚类从语义空间转移到形状空间
  • 纹理偏差 研究表明大多数判别模型仍然是强纹理偏向的,本文的形状偏置方法提供了一种自监督的解决路径
  • 启发:可以将类似的"分阶段/课程式"归纳偏置引入到其他自监督学习框架(如 MAE、DINO v2)

评分

维度 分数 (1-5) 说明
新颖性 4 认知科学启发的预预训练策略较新颖
实验充分度 3 仅 ResNet18/IN-100,规模偏小
写作质量 4 动机清晰,实验分析详细
实用价值 3 需要额外预处理,适用范围受限