Perceptual Inductive Bias is What You Need Before Contrastive Learning¶

会议: CVPR 2025
arXiv: 2506.01201
代码: 无
领域: 自监督学习 / 3D视觉
关键词: 对比学习, 感知归纳偏置, 形状原型, 内在图像分解, 预预训练

一句话总结¶

受 David Marr 多阶段视觉处理理论启发，提出在标准对比学习之前增加一个"预预训练"（pre-pretraining）阶段，利用前景-背景分割的形状轮廓和内在图像分解（反照率+着色）作为感知归纳偏置，在 ResNet18 上实现 2 倍加速收敛，并在分割、深度估计和识别等下游任务上取得全面提升。

研究背景与动机¶

领域现状：对比学习（如 SimCLR、MoCo、BYOL 等）是自监督表征学习的主流方法，通过最大化同一图像不同视图之间的互信息来学习语义表征。这些方法通常直接从原始图像学习高层语义空间，跳过了中间层的视觉表征构建。

现有痛点：端到端的对比学习存在两个问题：(1) 收敛速度慢，需要大量 epoch 才能学到高质量表征；(2) 学到的表征存在纹理偏差（texture bias），模型倾向于利用纹理捷径进行识别，而非人类所依赖的形状信息。此外，语义级别的分类任务和像素级的分割/深度估计任务之间存在 trade-off，单一的对比学习框架很难同时优化两者。

核心矛盾：人类视觉处理是分阶段的——先感知边界和表面属性（中间层表征），再形成语义物体表征。但当前对比学习直接跳到语义层，忽略了中间层感知构造的归纳偏置，导致表征缺乏对形状、深度和表面的敏感性。

本文目标：验证并利用 Marr 的多阶段理论——先构建边界和表面层级的中间表征，再训练语义表征——以 (1) 加速对比学习收敛，(2) 提升下游任务（分类、分割、深度估计）性能，(3) 增强形状偏置和鲁棒性。

切入角度：作者借鉴发育心理学的发现——婴儿通过形状原型学习词汇，形状感知在早期视觉发育中极为重要。另外内在图像分解（反照率和着色）分别编码了材质表面属性和隐式 2.5D 信息，应该对不同下游任务有差异化的增益。

核心 idea：设计三种感知构造——形状原型（Shape Prototypes）、反照率图（Reflectance）、着色图（Shading），作为预训练前的归纳偏置注入对比学习。提出混合 coarse-to-fine 策略：先用形状原型加速初始学习，再切换回标准对比学习进行精细调整。

方法详解¶

整体方法包含三个独立的感知构造组件，既可以单独使用也可以组合使用。核心思想是将早期视觉处理阶段的中间表征（形状轮廓、内在图像）作为额外的"视图"或"原型"引入对比学习框架，为网络提供人类视觉系统的归纳偏置。

整体框架¶

输入是 ImageNet-100 上的图像。预处理阶段：使用 TRACER 离线生成前景-背景分割的形状轮廓（silhouette），使用 Retinex 算法分解得到反照率图和着色图。训练阶段：根据配置选择 S-PCL（形状原型对比学习）、ReflCL（反照率对比学习）、ShadCL（着色对比学习）或 MidVCL（三者组合），先进行 100 epoch 的预预训练，再切换到标准 MoCoV2 训练 300 epoch。

关键设计¶

形状原型对比学习（S-PCL）:
- 功能：学习基于形状轮廓的聚类原型，引导表征学习
- 核心思路：将图像送入在线编码器得到表征 \(V\)，形状轮廓送入动量编码器得到表征 \(U\)。对 \(U\) 进行 K-Means 聚类得到 \(K\) 个形状原型 \(S = \{s_1, ..., s_K\}\)。通过 ShapeProtoNCE 损失最大化图像表征 \(v_i\) 与其对应形状原型 \(s_p\) 之间的互信息，并与标准 InfoNCE 结合。多次聚类（不同 \(K\) 值）取平均以获得多粒度原型。
- 设计动机：人类依赖物体的整体形状包络进行识别，形状相似的物体被归为一类。通过聚类形状轮廓得到原型，网络可以快速建立形状感知能力。但实验发现 S-PCL 在 100 epoch 后性能饱和——这正好说明形状偏置是"启动器"而非最终解决方案，需要后续的语义对比学习来精细化。
内在图像视图对比学习（ReflCL / ShadCL）:
- 功能：将内在图像（反照率或着色）作为对比学习的增强视图
- 核心思路：原始图像通过编码器提取表征，内在图像（反照率或着色）通过动量编码器提取表征，计算两者之间的 InfoNCE 损失。最终损失是标准两视图 InfoNCE 加上内在图像 InfoNCE 的和。反照率图保留物体表面颜色/材质、去除光照影响；着色图隐含了 3D 形状和光照的交互信息。
- 设计动机：反照率图可以帮助实例边界检测（基于材质差异分割），有助于分割和识别但不帮助深度估计；着色图隐含了丰富的 2.5D 信息，有助于深度估计但对分割/识别帮助有限。两者的差异化增益验证了"不同感知构造对不同任务的差异贡献"这一假设。
混合粗到细策略（Hybrid Coarse-to-Fine）:
- 功能：先用感知偏置加速启动，再用语义对比精细化
- 核心思路：训练分两阶段——前 100 epoch 使用 S-PCL/MidVCL 进行预预训练，后 300 epoch 切换到标准 MoCoV2/PCL。形状原型在早期快速建立形状感知能力，但继续使用会饱和甚至阻碍更精细的语义学习。这类似于人类发育中先发展形状感知再发展词汇和概念的过程。
- 设计动机：S-PCL 在 AMI（调整互信息）指标上的行为与此一致——早期快速增长，后期下降。这说明形状聚类最初与语义类别高度相关，但随着训练深入，更细粒度的语义区分需要突破形状原型的限制。

损失函数 / 训练策略¶

总体损失函数为 \(\mathcal{L} = \mathcal{L}_{InfoNCE} + \frac{1}{N}\sum_{i=1}^{N}\mathcal{L}_{ShapeProtoNCE, K_i} + \alpha \mathcal{L}_{Shad} + \beta \mathcal{L}_{Refl}\)，其中 \(\alpha, \beta\) 为着色和反照率损失的权重。训练策略：先 S-PCL/MidVCL 100 epoch，再标准对比学习 300 epoch。使用 ResNet18 作为编码器，输出维度 256-D。

实验关键数据¶

主实验¶

方法	Epochs	IN-100 Top-1	IN-1k Top-1	ADE20K mIoU	Depth RME
SimCLR	400	77.2	40.8	30.4	0.1420
MoCoV2	400	77.0	41.6	30.4	0.1434
BYOL	400	75.8	42.9	30.9	0.1458
S-PCL	100	70.2	37.2	-	-
S-PCL+MoCoV2	400	78.0	43.9	31.9	0.1398
MidVCL+MoCoV2	400	77.8	43.8	31.9 (tie)	0.1354

消融实验¶

配置	IN-100 Top-1 (100ep)	IN-100 Top-1 (400ep)
S-PCL 单独训练	70.2 (最佳)	71.8 (饱和)
MoCoV2 单独训练	61.7	77.0
S-PCL→MoCoV2	-	78.0 (最佳)
MidVCL→MoCoV2	-	77.8

关键发现¶

S-PCL 在早期（100 epoch）表现最佳，超越所有基线约 5-8 个百分点；但 400 epoch 后性能饱和甚至下降（71.8 vs 基线 77%），说明形状偏置需要及时释放
混合策略 S-PCL+MoCoV2 在所有下游任务上均达到最佳或接近最佳，同时收敛速度提升 2 倍
反照率有助于分类和分割，着色有助于深度估计，三者组合（MidVCL）在深度和分割上均最优
分割任务中 S-PCL 和 MidVCL 分别提升约 1.4 和 1.7 个 mIoU 点（ADE20K），Cityscapes 上提升更加显著（68.3 vs 63.4 基线）

亮点与洞察¶

将认知科学理论（Marr 视觉理论、婴儿形状发育）转化为具体的算法设计，理论动机非常扎实
三种感知构造对不同任务的差异化增益（反照率→识别/分割，着色→深度，形状→全部）提供了有趣的insights
"预预训练"的思路简洁有效，不改变主训练框架，易于集成
S-PCL 的"先升后降"现象及其与人类婴儿发育的类比，为课程学习提供了新的生物学视角

局限与展望¶

仅在 ResNet18 和 ImageNet-100 上实验，缺乏大规模（ImageNet-1k 全量训练）和更大架构（ViT）的验证
形状轮廓依赖预训练的 TRACER 分割模型，引入了额外的数据依赖
Retinex 算法的内在图像分解质量有限，使用更先进的分解方法可能带来更好结果
最优的阶段切换 epoch（100→300）可能不是最优划分，缺乏对此超参数的敏感性分析
混合策略引入的额外预处理开销（生成轮廓、分解内在图像）在大规模数据上可能成为瓶颈

评分¶

维度	分数 (1-5)	说明
新颖性	4	认知科学启发的预预训练策略较新颖
实验充分度	3	仅 ResNet18/IN-100，规模偏小
写作质量	4	动机清晰，实验分析详细
实用价值	3	需要额外预处理，适用范围受限