摘要
arXiv:2504.08727v1 交叉类型: cross
摘要: 我们提出了一种使用多模态大语言模型(MLLMs)来分析包含数千万张不同时间拍摄的图像的大数据库,以发现时间变化中的模式。具体来说,我们旨在捕捉一段时间内整个城市频繁共现的变化("趋势")。与之前的视觉分析不同,我们的分析能够回答开放性查询(例如,“城市的频繁变化类型是什么?”)而无需预定义的目标主题或训练标签。这些特性使得之前的学习基于或无监督的视觉分析工具不再适用。我们认定MLLMs作为一种新型工具,因为它们具备开放性语义理解能力。然而,我们的数据集规模比MLLM能够接受的上下文大四数量级。因此,我们引入了一种自底向上的过程,将大规模的视觉分析问题分解为更可处理的子问题。我们精心设计了基于MLLM的解决方案来解决每个子问题。在实验和对系统的消融研究中,我们发现与基线相比,它表现显著更优,并且能够从大型城市拍摄的图像中发现有趣的趋势(例如,“露天就餐区的增加”、“立交桥被涂成蓝色”等)。更多结果和互动演示请访问 https://boyangdeng.com/visual-chronicles。