LLM2D
基于大型单模态和多模态模型的社交媒体图像无监督分类:以“自然对人类的贡献”为例
On Large Uni- and Multi-modal Models for Unsupervised Classification of Social Media Images: Nature's Contribution to People as case study
作者: Rohaifa Khaldi, Domingo Alcaraz-Segura, Ignacio S\'anchez-Herrera, Javier Martinez-Lopez, Carlos Javier Navarro, Siham Tabik
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00275v1

摘要

社交媒体图片已成为理解人类与重要主题(如文化遗产、生物多样性和自然等)互动的重要信息来源。由于这些图片的视觉内容高度多样且复杂,再加上其数量庞大,因此将这些图片分组到若干语义上有意义的集群中而无需标签是一项具有挑战性的任务。另一方面,大型视觉模型 (LVM)、大型语言模型 (LLM) 和大型视觉语言模型 (LVLM) 的最新进展为探索新的高效且可扩展的解决方案提供了重要机会。本研究提出、分析并比较了基于一个或多个最先进的 LVM、LLM 和 LVLM 的各种方法,用于将社交媒体图片映射到若干预定义类别中。作为案例研究,我们考虑了理解人类与自然之间互动的问题,也称为自然对人类的贡献或文化生态系统服务 (CES)。我们的实验表明,表现最佳的方法(提供高度竞争性的结果)是在小型标记数据集上微调的 LVM DINOv2 和使用简单提示的 LVLM 模型(如专有 GPT-4 (gpt-4o-mini))。