Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images¶

会议: ICCV 2025
arXiv: 2504.08727
代码: 无
领域: 多模态VLM
关键词: 大规模图像分析, 城市变化检测, 视觉趋势发现, MLLM系统设计, 街景图像

一句话总结¶

提出 Visual Chronicles 系统，首次利用多模态大语言模型（MLLM）分析超过 2000 万张街景图像的海量数据库，通过自底向上的分层策略（局部变化检测 + 趋势发现）和高效的文本嵌入-MLLM 混合验证算法，无标签、开放式地发现城市十年间的视觉变化趋势（如旧金山新增太阳能板、高架桥被刷成蓝色等），将 MLLM 推理成本降低 2000 倍同时保持 93.9% 的验证准确率。

研究背景与动机¶

问题定义¶

给定一个城市的海量时间序列图像（如 2000 万张 Google Street View 图片，跨越 10+ 年），目标是自动发现频繁出现的视觉变化趋势（visual trends）——即在不同地点至少发生 \(N\) 次的相似变化事件，并提供可视化证据。核心要求是： - 开放式查询：不预设目标类别（如"汽车"或"建筑"），支持任意语义层面的发现 - 无标签：不需要任何训练数据 - 大规模：需处理数千万张图像

已有方法的不足¶

预训练识别模型无法处理开放式查询：如汽车检测器只能发现汽车相关变化，无法发现"餐厅增加了户外用餐区"这类开放语义变化

无监督图像分析工具缺乏语义理解：HoG 特征、颜色直方图、CLIP 嵌入等方法在变化检测任务上 AP 仅 16-27%，无法理解"商店关门了"这类需要整体语义理解的变化

学习方法需要标签：如 Gebru et al. 的车辆人口学分析需要标注的车辆属性数据

MLLM 上文限制：即使最强的 Gemini-1.5 Pro 也只能处理约 88K 张图像的上下文，远不及 2000 万张

核心动机¶

关键洞察：MLLM 在小规模图像集（20-40 张）上的开放式语义分析能力极强——它不仅能检测语义层面的时间变化（如"角落商店挂上了出售标志"），还能自动忽略无关变化（如光照和季节变化）。然而，MLLM 无法直接处理海量数据。因此需要设计一个分层系统，将海量分析问题分解为 MLLM 能高效处理的子问题。

方法详解¶

整体框架¶

Visual Chronicles 采用自底向上的两步分析框架： 1. 局部变化检测（Local Change Detection）：对每个地点的时序图像序列，用 MLLM 检测局部视觉变化并生成文本描述 2. 趋势发现（Trend Discovery）：汇聚数百万条局部变化，通过 Canopy 聚类提出趋势候选，再用"文本嵌入排序 + MLLM 验证"的混合算法高效确认哪些趋势真实存在

关键设计¶

1. MLLM 驱动的局部变化检测¶

功能：对每个地点的近似同视角、不同时间的图像序列，检测发生了哪些语义变化
核心思路：
- 将每个地点的时序图像按时间排序，输入 MLLM（Gemini-1.5 Pro）
- 精心设计的 prompt 要求 MLLM 回答两个问题：(1) 发生了什么变化？(2) 变化在哪两张图之间发生？
- MLLM 输出每个变化的文本描述和对应的证据图像
- 对 NYC 的 88.3 万个地点和 SF 的 94.3 万个地点分别处理，产生约 290 万和 360 万条变化记录
设计动机：MLLM 天然擅长这类小规模（每个地点平均 20+ 张图）的开放式语义分析——它能理解复杂场景语义（如"商店关门了"），同时自动过滤季节、光照等无关变化。AP 达到 76.56%，远超最优嵌入方法（CLIP 26.52%）

2. 高效混合趋势验证算法¶

功能：从数百万条局部变化中找出至少出现 \(N\) 次的频繁趋势
核心思路：

步骤 1 - 趋势候选提出： - 将所有变化描述嵌入向量空间 - 使用 Canopy Clustering（宽松阈值）找到潜在的趋势候选

步骤 2 - 混合验证（核心创新）： - 直接用嵌入距离分类——不够准确（AP 73.13%，无法捕捉微妙的语义差异） - 直接用 MLLM 逐一验证——太慢（200 个趋势 × 300 万变化需要 1 年以上）

混合方案（Algorithm 1）： 1. 用文本嵌入计算所有变化与趋势的距离 2. 取最近的 \(k\) 个变化（\(k = 3N\)） 3. 仅对这 \(k\) 个变化用 MLLM 做二元分类："这个变化是否属于这个趋势？" 4. 若 MLLM 确认 ≥ \(N\) 个属于该趋势，则确认趋势为真

这将 MLLM 推理成本降低 \(2000\times\)（200 个趋势仅需 4.6 小时而非 380 天）

设计动机：文本嵌入虽然不够精确做最终分类（微妙措辞差异、概念粒度不同），但作为排序工具，能高效筛选出最有可能属于某趋势的候选；MLLM 的精确语义判断则用于最终验证，两者互补

3. 扩展查询支持¶

功能：支持时间条件查询（"2020 年以来发生了什么？"）和主题条件查询（"零售店发生了什么变化？"）
核心思路：
- 时间查询：过滤变化记录的时间戳，仅保留指定时间范围内的变化，重新运行趋势发现
- 主题查询：用文本嵌入计算变化描述与主题文本的相似度，取最近的 \(k\) 个用 MLLM 筛选相关变化，再运行趋势发现
- 非时序查询：将第一步改为对单张图像问"图中有什么不寻常的东西？"，后续不变
设计动机：模块化设计使系统能灵活适应不同类型的分析需求，无需修改核心算法

损失函数 / 训练策略¶

本文是零样本系统，不涉及模型训练。核心超参数： - MLLM：Gemini-1.5 Pro - 趋势确认阈值：\(N = 500\) - 混合验证最近邻数：\(k = 1500\)（即 \(3N\)） - 趋势候选数：200-500 个 - 文本嵌入：NV-Emb

实验关键数据¶

主实验¶

局部变化检测（200 个地点，3036 张图像）：

方法	类型	AP
HoG 特征	图像特征	16.44%
颜色直方图	图像特征	16.76%
遥感方法	遥感	18.51%
CLIP	语义嵌入	26.52%
NV-Emb	文本嵌入	23.75%
Gemini (ours)	MLLM	76.56%

MLLM 的额外指标：精度 81.34%，召回率 89.87%

趋势发现验证（50 个候选，2000 个趋势-变化对）：

方法	类型	可扩展	AP
随机	—	—	47.70%
CLIP	图像嵌入	✔	54.78%
NV-Emb	文本嵌入	✔	73.13%
Gemini	MLLM	✘	86.63%

消融实验¶

混合验证 vs. 替代方案（1000 个趋势候选）：

方法	Acc@50	Acc@100	Acc@200
AllTrue 基线	72.7%	54.1%	28.9%
NV-Emb 阈值	77.9%	69.6%	81.8%
随机选择 + MLLM	31.8%	49.9%	74.9%
混合方案 (ours)	93.9%	94.6%	98.3%

关键发现¶

MLLM 在局部变化检测上远超所有基线：76.56% AP vs. CLIP 的 26.52%，证明 MLLM 的语义理解对开放式变化检测不可替代
直接问 MLLM 预测趋势不可行：不看图的 MLLM 只能给出抽象答案（如"经济增长"），无法发现具体趋势
混合算法兼具精度和效率：在 \(N=200\) 时达到 98.3% 准确率，同时将推理成本降低 2000 倍
发现了意想不到的趋势：如旧金山高架桥被刷成"Coronado Blue"（481 次出现）、纽约增加了 745 个安全摄像头等
支持多种查询模式：时间条件筛选出 COVID 后期的户外用餐趋势（2020-2022 出现 1482 次 vs. 2017-2019 的 668 次）

亮点与洞察¶

首次在百万级图像上使用 MLLM 进行分析：开创了 MLLM 用于海量视觉数据挖掘的新范式
"MLLM 强在小规模 + 系统设计解决大规模"的范式：不是让 MLLM 处理所有数据，而是将大问题分解为 MLLM 擅长的小问题
混合算法的巧妙设计：利用嵌入做粗排（效率）+ MLLM 做精排（精度），两者互补
发现的趋势具有真实价值：如城市规划部门可用来评估基础设施变化、零售行业可分析门店开关趋势
零标注、开放式发现：不需要预设类别或标签，真正实现了开放世界的视觉数据挖掘

局限与展望¶

采样偏差：街景相机的空间和时间采样不均匀——如高架桥上能看到更多屋顶太阳能板，不代表那个区域安装了更多
MLLM 的偏差和错误：81.34% 的精度意味着约 1/5 的检测是错误的，这些错误可能系统性地偏向某些类型的变化
计算成本仍然较高：即使混合算法降低了 2000 倍，处理一个城市仍需数小时的 MLLM 推理（64 个 MLLM 并行 4.6 小时）
缺乏统计严谨性：没有建立假设检验框架来量化趋势的显著性，也没有校正多重比较
仅验证了概念可行性：作为首个此类系统，设计空间远未充分探索（如不同 MLLM、不同聚类策略的影响）

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 开创性的问题定义和系统设计，首次在千万级图像上使用 MLLM
实验充分度: ⭐⭐⭐⭐ — 定量评估全面（变化检测 + 趋势发现 + 混合验证），但主要依赖单一 MLLM（Gemini）
写作质量: ⭐⭐⭐⭐⭐ — 故事讲述极其流畅，从动机到方法到应用一气呵成
价值: ⭐⭐⭐⭐⭐ — 开创了"MLLM + 系统工程 = 海量视觉数据挖掘"的新范式，具有广泛的应用前景