LLM2D

摘要

arXiv:2502.02951v1 宣告类型: cross 摘要: 设计用于视觉问答(VQA)的数据集是一项复杂而艰巨的任务，需要自然语言处理(NLP)来解析和计算机视觉来分析图像的相关方面，以便回答提出的问题。研究人员已经开发了多个基准数据集，但它们在进行系统性性能测试时存在许多问题。本文提出一个新的基准数据集——试点版本称为VQA-Levels——用于系统性地测试VQA系统，并协助研究人员推进该领域的发展。问题被分类为七个层次，从基于低级图像特征的直接答案（甚至不需要分类器）到需要对整个图像内容进行高层次抽象的内容。数据集中的问题展示了十种属性之一或多种。每个问题都被归类为特定的1至7级之一。1至3级直接针对视觉内容，其余级别则需要额外了解图像中对象的知识。每个问题通常有一个独特的单个或双个词答案。这些问题在某种意义上是‘自然的’，因为在看到这些图片时，人类很可能会提出这样的问题。层级1的一个例子是，“图像中红色区域的形状是什么？”而层级7的例子是，“为什么男人在剪纸？”。对所提议数据集在一些现有VQA系统的初步测试显示，它们在层级1（低级特征）和层级2（对象分类）的问题上表现优异，但在层级3（场景文字）、层级6（外推）和层级7（整幅场景分析）的问题上表现最差。本文的工作将为系统分析VQA系统提供重要帮助。