CaMiT: A Time-Aware Car Model Dataset for Classification and Generation¶

会议: NeurIPS 2025
arXiv: 2510.17626
代码: GitHub
领域: 图像生成
关键词: 时序数据集, 细粒度分类, 持续学习, 时间感知生成, 汽车模型识别

一句话总结¶

提出 CaMiT 数据集（787K 标注 + 5.1M 无标注汽车图像，2005–2023），系统研究细粒度视觉类别的时间漂移问题，并在静态预训练、时间增量预训练、时间增量分类器学习和时间感知图像生成四个场景下提供 benchmark。

研究背景与动机¶

现有大规模视觉数据集（ImageNet、LAION、DataComp）均采用"一次训练"范式，忽略了视觉类别随时间演变的外观漂移问题。这种漂移在技术制品（如汽车）中尤为显著：设计更迭、新款型出现、旧款型退出，导致同一类别在不同年份的视觉表征差异逐年增大。

已有工作要么聚焦于粗粒度视觉类别（VCT-107、CLEAR），要么着重于大规模 VLM 持续预训练（TIC-DataComp），缺乏细粒度技术制品在长时间跨度上的时序建模数据集。StanfordCars、CompCars 等汽车数据集虽含生产年份，但缺少图像发布时间戳，每类样本不足 150 张，不适合长周期分析。

CaMiT 通过 Flickr API 收集近 20 年汽车图像，首次回答了一个关键问题：如何在视觉模型中建模细粒度技术制品在长时间段内的视觉演变？

方法详解¶

整体框架¶

CaMiT 的构建分三阶段：数据收集 → 数据过滤 → 数据标注，最终在四个实验场景中验证：

SPT（静态预训练）：分析不加任何时序缓解措施下的时间漂移效应
TIP（时间增量预训练）：逐年更新 backbone 模型
TICL（时间增量分类器学习）：冻结 backbone，仅更新分类层
TAIG（时间感知图像生成）：在训练 caption 中加入时间元数据

关键设计¶

数据集构建流程：

收集：通过 Flickr API 查询 425 种汽车子类/品牌/型号组合，每年每查询最多 5000 张，获得 7.5M 初始图像
过滤：CLIP 嵌入去重（阈值 0.9）→ YOLOv11x 车辆检测（置信度 ≥ 0.6，bbox ≥ 64px）→ Qwen2.5-7B 过滤非外观图 → 人脸模糊 → SAM 2 重叠检测，最终保留 5.87M 车辆裁剪
标注：半自动流程，Qwen2.5-7B 开放预测 → GPT-4o 聚焦确认 → DeiT 弱标签训练的判别器集成，人工验证 20K 样本后确定阈值，最终 190 类标注精度 99.6%

时间漂移分析：使用 CLIP ViT-B 嵌入计算年份间 KID（核 Inception 距离），验证时间差距越大、嵌入差异越显著。

分类实验设计：

SPT：比较 DINOv2、CLIP（通用预训练）和 MoCo v3（领域特定预训练），加 LoRA 适配
TIP：Reservoir 更新 vs. LoRA 年度适配 vs. 两者结合
TICL：冻结 backbone + NCM / FeCAM / RanPAC / RanDumb 增量分类器
TAIG：SD1.5 + LoRA，caption 中嵌入时间元数据

损失函数¶

分类实验使用 NCM（最近类均值）或各 TICL 方法的原始目标；生成实验基于 Stable Diffusion 1.5 标准扩散损失 + LoRA 微调：

\[\mathcal{L} = \mathbb{E}_{t, \epsilon}\left[\|\epsilon - \epsilon_\theta(x_t, t, c_{\text{time}})\|^2\right]\]

其中 \(c_{\text{time}}\) 嵌入了年份信息的文本条件。

实验关键数据¶

主实验¶

预训练方式	模型	\(A_{avg}\)↑	\(A_{crt}\)↑	\(A_{bck}\)↑	\(A_{fwd}\)↑
SPT	DINOv2 ViT-B	26.1	32.6	26.1	25.3
SPT	CLIP+Li ViT-B	65.6	74.0	63.9	66.3
SPT	MoCo v3+Li ViT-B	66.0	76.5	63.2	67.4
TIP	MoCo v3+R+La ViT-S	78.5	90.2	82.5	73.0
TICL	RanPAC + MoCo v3+Li ViT-B	87.8	—	—	—

TICL 方案（RanPAC + 专用预训练 backbone）取得最佳总体准确率 87.8%，相比朴素 NCM 提升 21.8 个百分点。

消融实验¶

TICL 算法	DINOv2 ViT-S	MoCo v3+Li ViT-S	CLIP+Li ViT-B	MoCo v3+Li ViT-B
NCM	20.9	64.9	65.6	66.0
NCM-TI	26.3	71.4	70.1	72.1
FeCAM	61.0	85.6	79.9	81.5
RanDumb	62.1	83.1	77.2	84.2
RanPAC	66.4	86.6	80.3	87.8

LoRA 年度适配的 TIP 仅需 0.3 GPU 小时/年，而 Reservoir 版本需 18 GPU 小时/年
专用预训练 MoCo v3 在 LoRA 适配后可与 2000M 数据训练的 CLIP 媲美

关键发现¶

细粒度分类中，领域专用预训练（CaMiT 上 MoCo v3）经 LoRA 适配后与大规模通用模型（CLIP 2B 图像）性能相当，与粗粒度分类结论不同
时间增量分类器学习（TICL）是最有效的时间漂移缓解策略，RanPAC 在专用 backbone 上取得最佳性能
时间感知生成（TAIG）通过嵌入年份元数据，使生成图像分布更贴近真实分布

亮点与洞察¶

⭐ 首个面向细粒度技术制品的长时间跨度时序视觉数据集，填补了重要空白
⭐ 系统验证了专用小模型在细粒度任务上可与通用大模型匹敌，为资源高效方案提供了强有力证据
半自动标注流水线（VLM + 判别模型集成）达到 99.6% 精度，标注成本远低于纯人工
TICL 方案（冻结 backbone + 增量分类器）在准确率和计算效率间取得了极佳平衡

局限性¶

仅聚焦汽车单一品类，结论能否泛化到其他技术制品（电子产品、家具等）尚未验证
Flickr 作为唯一数据来源存在地域和用户群偏差（欧洲品牌占比最高）
时间感知生成仅基于 SD1.5，未探索更先进的生成架构
类别数量 190 相对有限，未覆盖全球所有主流车型

评分¶

⭐⭐⭐⭐ (4/5)

维度	评分
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐

数据集贡献扎实全面，四个实验场景设计合理，但核心技术创新偏弱（主要是现有方法的系统性组合），且仅限于汽车这一单一品类。