跳转至

CaMiT: A Time-Aware Car Model Dataset for Classification and Generation

会议: NeurIPS 2025
arXiv: 2510.17626
代码: GitHub
领域: 图像生成
关键词: 时序数据集, 细粒度分类, 持续学习, 时间感知生成, 汽车模型识别

一句话总结

提出 CaMiT 数据集(787K 标注 + 5.1M 无标注汽车图像,2005–2023),系统研究细粒度视觉类别的时间漂移问题,并在静态预训练、时间增量预训练、时间增量分类器学习和时间感知图像生成四个场景下提供 benchmark。

研究背景与动机

现有大规模视觉数据集(ImageNet、LAION、DataComp)均采用"一次训练"范式,忽略了视觉类别随时间演变的外观漂移问题。这种漂移在技术制品(如汽车)中尤为显著:设计更迭、新款型出现、旧款型退出,导致同一类别在不同年份的视觉表征差异逐年增大。

已有工作要么聚焦于粗粒度视觉类别(VCT-107、CLEAR),要么着重于大规模 VLM 持续预训练(TIC-DataComp),缺乏细粒度技术制品在长时间跨度上的时序建模数据集。StanfordCars、CompCars 等汽车数据集虽含生产年份,但缺少图像发布时间戳,每类样本不足 150 张,不适合长周期分析。

CaMiT 通过 Flickr API 收集近 20 年汽车图像,首次回答了一个关键问题:如何在视觉模型中建模细粒度技术制品在长时间段内的视觉演变?

方法详解

整体框架

CaMiT 的构建分三阶段:数据收集 → 数据过滤 → 数据标注,最终在四个实验场景中验证:

  1. SPT(静态预训练):分析不加任何时序缓解措施下的时间漂移效应
  2. TIP(时间增量预训练):逐年更新 backbone 模型
  3. TICL(时间增量分类器学习):冻结 backbone,仅更新分类层
  4. TAIG(时间感知图像生成):在训练 caption 中加入时间元数据

关键设计

数据集构建流程

  • 收集:通过 Flickr API 查询 425 种汽车子类/品牌/型号组合,每年每查询最多 5000 张,获得 7.5M 初始图像
  • 过滤:CLIP 嵌入去重(阈值 0.9)→ YOLOv11x 车辆检测(置信度 ≥ 0.6,bbox ≥ 64px)→ Qwen2.5-7B 过滤非外观图 → 人脸模糊 → SAM 2 重叠检测,最终保留 5.87M 车辆裁剪
  • 标注:半自动流程,Qwen2.5-7B 开放预测 → GPT-4o 聚焦确认 → DeiT 弱标签训练的判别器集成,人工验证 20K 样本后确定阈值,最终 190 类标注精度 99.6%

时间漂移分析:使用 CLIP ViT-B 嵌入计算年份间 KID(核 Inception 距离),验证时间差距越大、嵌入差异越显著。

分类实验设计

  • SPT:比较 DINOv2、CLIP(通用预训练)和 MoCo v3(领域特定预训练),加 LoRA 适配
  • TIP:Reservoir 更新 vs. LoRA 年度适配 vs. 两者结合
  • TICL:冻结 backbone + NCM / FeCAM / RanPAC / RanDumb 增量分类器
  • TAIG:SD1.5 + LoRA,caption 中嵌入时间元数据

损失函数

分类实验使用 NCM(最近类均值)或各 TICL 方法的原始目标;生成实验基于 Stable Diffusion 1.5 标准扩散损失 + LoRA 微调:

\[\mathcal{L} = \mathbb{E}_{t, \epsilon}\left[\|\epsilon - \epsilon_\theta(x_t, t, c_{\text{time}})\|^2\right]\]

其中 \(c_{\text{time}}\) 嵌入了年份信息的文本条件。

实验关键数据

主实验

预训练方式 模型 \(A_{avg}\) \(A_{crt}\) \(A_{bck}\) \(A_{fwd}\)
SPT DINOv2 ViT-B 26.1 32.6 26.1 25.3
SPT CLIP+Li ViT-B 65.6 74.0 63.9 66.3
SPT MoCo v3+Li ViT-B 66.0 76.5 63.2 67.4
TIP MoCo v3+R+La ViT-S 78.5 90.2 82.5 73.0
TICL RanPAC + MoCo v3+Li ViT-B 87.8

TICL 方案(RanPAC + 专用预训练 backbone)取得最佳总体准确率 87.8%,相比朴素 NCM 提升 21.8 个百分点。

消融实验

TICL 算法 DINOv2 ViT-S MoCo v3+Li ViT-S CLIP+Li ViT-B MoCo v3+Li ViT-B
NCM 20.9 64.9 65.6 66.0
NCM-TI 26.3 71.4 70.1 72.1
FeCAM 61.0 85.6 79.9 81.5
RanDumb 62.1 83.1 77.2 84.2
RanPAC 66.4 86.6 80.3 87.8
  • LoRA 年度适配的 TIP 仅需 0.3 GPU 小时/年,而 Reservoir 版本需 18 GPU 小时/年
  • 专用预训练 MoCo v3 在 LoRA 适配后可与 2000M 数据训练的 CLIP 媲美

关键发现

  1. 细粒度分类中,领域专用预训练(CaMiT 上 MoCo v3)经 LoRA 适配后与大规模通用模型(CLIP 2B 图像)性能相当,与粗粒度分类结论不同
  2. 时间增量分类器学习(TICL)是最有效的时间漂移缓解策略,RanPAC 在专用 backbone 上取得最佳性能
  3. 时间感知生成(TAIG)通过嵌入年份元数据,使生成图像分布更贴近真实分布

亮点与洞察

  • ⭐ 首个面向细粒度技术制品的长时间跨度时序视觉数据集,填补了重要空白
  • ⭐ 系统验证了专用小模型在细粒度任务上可与通用大模型匹敌,为资源高效方案提供了强有力证据
  • 半自动标注流水线(VLM + 判别模型集成)达到 99.6% 精度,标注成本远低于纯人工
  • TICL 方案(冻结 backbone + 增量分类器)在准确率和计算效率间取得了极佳平衡

局限性

  • 仅聚焦汽车单一品类,结论能否泛化到其他技术制品(电子产品、家具等)尚未验证
  • Flickr 作为唯一数据来源存在地域和用户群偏差(欧洲品牌占比最高)
  • 时间感知生成仅基于 SD1.5,未探索更先进的生成架构
  • 类别数量 190 相对有限,未覆盖全球所有主流车型

相关工作与启发

与 CLEAR、VCT-107、TIC-DataComp 等时序视觉数据集形成互补:CaMiT 专注细粒度,它们面向粗粒度或大规模 VLM。TICL 实验中 RanPAC 的成功表明随机投影 + 原型累积可能是时序持续学习的高效范式。对实际部署系统(如自动驾驶中的车型识别)有直接参考价值。

评分

⭐⭐⭐⭐ (4/5)

维度 评分
新颖性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐
实验充分性 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐

数据集贡献扎实全面,四个实验场景设计合理,但核心技术创新偏弱(主要是现有方法的系统性组合),且仅限于汽车这一单一品类。