Temporal Slowness in Central Vision Drives Semantic Object Learning¶

会议: ICLR2026
arXiv: 2602.04462
代码: 无
领域: 自监督
关键词: central vision, temporal slowness, self-supervised learning, Ego4D, semantic representation

一句话总结¶

通过模拟人类中央视觉（注视点裁剪）和时间慢性原则（时间对比学习），在 Ego4D 数据上训练 SSL 模型，发现两者组合能有效提升语义对象表征——中央视觉强化前景提取，时间慢性在注视凝视期间蒸馏语义信息。

研究背景与动机¶

领域现状¶

领域现状：人类从自我中心视觉流中以极少监督获取语义对象表征，但 SSL 模型在人类视觉体验上训练时效果不佳。

现有痛点：现有 SSL 模型忽略了两个关键生物学过程：(1) 视网膜的中央高分辨率处理（中央视觉），(2) 时间上相近的输入获得相似表征（慢性原则）。

核心矛盾：全视野训练混合了前景和背景信息，且无法利用时间上的对象跟踪信息。

本文目标 研究中央视觉和时间慢性在语义对象表征形成中的作用。

切入角度：在 Ego4D（5个月视觉体验）上用注视点预测模型生成注视坐标，裁剪中央视野区域，训练时间对比 SSL 模型。

方法详解¶

整体框架¶

Ego4D 帧 → 注视点预测（GLC 模型）→ 中央视觉裁剪 → MoCoV3 + 时间对比学习（InfoNCE 在时间邻居间）。

关键设计¶

中央视觉模拟: 以注视点为中心裁剪 \(N \times N\) 区域
时间慢性学习: 在时间窗口 \(\Delta T\) 内随机采样邻居帧做正对
单 epoch 训练: 在 6400 万帧上训练一个 epoch

实验关键数据¶

主实验¶

方法	ImageNet-1k	细粒度平均	实例识别
Frames Learning（全视野，无慢性）	49.50	基线	基线
Bio-inspired（中央+慢性）	49.58	提升	提升

关键发现¶

中央视觉强化前景对象特征提取（vs 背景）
注视凝视期间的时间慢性蒸馏更广泛的语义信息（类别、上下文共现）
模型与人类语义判断更一致（CKA 分析）
两者互补：中央视觉提供"什么"，慢性提供"语义关联"

消融实验与深入分析¶

消融/分析	发现
裁剪尺寸 \(N\)	224-336 为甜蜜点；N=112 过小丢失信息；全帧对场景有利但对象变差
时间窗口 \(\Delta T\)	ResNet50 最佳 \(\Delta T=3\)，ViT 最佳 \(\Delta T=1\)
前景 vs 背景分析	中央视觉降低了背景特征的重要性（ImageNet-9 实验验证）
注视凝视 vs 扫视	凝视期间（小时间窗口）的时间对比学习蒸馏最丰富的语义信息
物体共现 CKA	生物启发模型与 GloVe 共现嵌入的 CKA 对齐度更高
训练 epoch	单 epoch 接近饱和（第二 epoch 仅+0.5%），因 Ego4D 在 5fps 下高度冗余

ImageNet-9 前景/背景分析¶

模型	正常准确率	去背景准确率变化	去前景准确率变化
Frames Learning (全帧)	75%	-15%	-5%
Bio-inspired (中央+慢性)	80%	-10%	-20%

→ 说明中央视觉使模型更依赖前景对象而非背景——与人类视觉处理一致

语义维度表现（ResNet50）¶

语义维度	Frames Learning	Bio-inspired	提升
类别识别平均	45.65	46.94	+1.29
细粒度识别平均	33.84	38.42	+4.58
实例识别平均	59.03	67.00	+7.97
场景识别 Places365	43.02	42.95	-0.07

亮点与洞察¶

跨学科融合——将计算神经科学的"时间慢性原则"和"中央视觉"概念与 SSL 结合，用计算实验验证神经科学假说
中央视觉和时间慢性的互补性：中央视觉提供"看什么"（强化前景对象特征），时间慢性提供"怎么关联"（同一物体不同视角、同场景共现物体）
对"场景识别变差"的解释：全视野包含更多背景/空间布局信息，有利于场景识别；中央视觉裁掉了这些信息
对嵌入式 AI 的启发：机器人的视觉处理可以模仿人类——仅高分辨率处理注视点周围区域，大幅降低计算量
注视凝视期间的语义蒸馏是一个精彩发现——说明人类的"看"不仅是采集信息，停留不动时也在利用时间一致性学习不变表征

局限与展望¶

绝对性能提升幅度不大（类别识别仅+1.29%），更多价值在于科学理解而非工程提升
注视点预测模型（GLC）引入误差——真实人类注视数据仅 45 小时，其余 3600+ 小时依赖预测
主要使用 ResNet50 和 ViT-B/16，更大模型（如 ViT-L）上的验证缺失
单 epoch 训练在 Ego4D 上接近饱和——但这可能是数据冗余导致，而非方法的固有特性
未与其他自我中心 SSL 方法（如 EgoVLP、VC-1）直接比较

评分¶

新颖性: ⭐⭐⭐⭐ 生物学启发+SSL 的创新结合，具有科学价值
实验充分度: ⭐⭐⭐⭐ 多维度分析（分类、细粒度、实例、场景、共现）
写作质量: ⭐⭐⭐⭐ 逻辑清晰，实验设计有针对性
价值: ⭐⭐⭐⭐ 对理解人类视觉学习有科学贡献，对嵌入式 AI 有实践启发