LLM2D

摘要

arXiv:2504.18201v1 交叉类型公告摘要：在社交媒体平台广泛存在的时代，个人经常分享能反映其意图和兴趣的照片，这些分享影响了个人的生活质量和社会的稳定性。传统的计算机视觉任务，如目标检测和语义分割，专注于具体的视觉表示，而意图识别则更多依赖于隐含的视觉线索。由于这些线索的广泛变化性和主观性带来了挑战，再加上表达抽象概念的类内多样性问题，例如“享受生活”，现有的方法通过手动设计代表性特征或将每个类从全局特征中构建原型来解决问题。然而，这些方法依然难以应对每种意图类别巨大的视觉多样性。在此论文中，我们提出了一种名为多粒度组成视觉线索学习（MCCL）的新方法，以应对这些挑战中的图像意图识别。我们的方法通过人认知的系统组成性将意图识别分解为视觉线索组成，并结合多粒度特征。我们采用类特定的原型来缓解数据不平衡问题。我们将意图识别视为一个多标签分类问题，通过图卷积网络将标签嵌入相关的先验知识注入其中。通过在Intentonomy和MDID数据集上的先进表现证明了我们的方法在提升现有方法的准确性的同时，还具有良好的解释性。我们的工作为未来探索复杂多样的人类表达形式的理解提供了尝试。