LLM2D

摘要

arXiv:2504.08727v1 交叉类型: cross 摘要: 我们提出了一种使用多模态大语言模型(MLLMs)来分析包含数千万张不同时间拍摄的图像的大数据库，以发现时间变化中的模式。具体来说，我们旨在捕捉一段时间内整个城市频繁共现的变化("趋势")。与之前的视觉分析不同，我们的分析能够回答开放性查询（例如，“城市的频繁变化类型是什么？”）而无需预定义的目标主题或训练标签。这些特性使得之前的学习基于或无监督的视觉分析工具不再适用。我们认定MLLMs作为一种新型工具，因为它们具备开放性语义理解能力。然而，我们的数据集规模比MLLM能够接受的上下文大四数量级。因此，我们引入了一种自底向上的过程，将大规模的视觉分析问题分解为更可处理的子问题。我们精心设计了基于MLLM的解决方案来解决每个子问题。在实验和对系统的消融研究中，我们发现与基线相比，它表现显著更优，并且能够从大型城市拍摄的图像中发现有趣的趋势（例如，“露天就餐区的增加”、“立交桥被涂成蓝色”等）。更多结果和互动演示请访问 https://boyangdeng.com/visual-chronicles。