LLM2D

摘要

社交媒体图片已成为理解人类与重要主题（如文化遗产、生物多样性和自然等）互动的重要信息来源。由于这些图片的视觉内容高度多样且复杂，再加上其数量庞大，因此将这些图片分组到若干语义上有意义的集群中而无需标签是一项具有挑战性的任务。另一方面，大型视觉模型 (LVM)、大型语言模型 (LLM) 和大型视觉语言模型 (LVLM) 的最新进展为探索新的高效且可扩展的解决方案提供了重要机会。本研究提出、分析并比较了基于一个或多个最先进的 LVM、LLM 和 LVLM 的各种方法，用于将社交媒体图片映射到若干预定义类别中。作为案例研究，我们考虑了理解人类与自然之间互动的问题，也称为自然对人类的贡献或文化生态系统服务 (CES)。我们的实验表明，表现最佳的方法（提供高度竞争性的结果）是在小型标记数据集上微调的 LVM DINOv2 和使用简单提示的 LVLM 模型（如专有 GPT-4 (gpt-4o-mini)）。