摘要
arXiv:2502.02951v1 宣告类型: cross
摘要: 设计用于视觉问答(VQA)的数据集是一项复杂而艰巨的任务,需要自然语言处理(NLP)来解析和计算机视觉来分析图像的相关方面,以便回答提出的问题。研究人员已经开发了多个基准数据集,但它们在进行系统性性能测试时存在许多问题。本文提出一个新的基准数据集——试点版本称为VQA-Levels——用于系统性地测试VQA系统,并协助研究人员推进该领域的发展。问题被分类为七个层次,从基于低级图像特征的直接答案(甚至不需要分类器)到需要对整个图像内容进行高层次抽象的内容。数据集中的问题展示了十种属性之一或多种。每个问题都被归类为特定的1至7级之一。1至3级直接针对视觉内容,其余级别则需要额外了解图像中对象的知识。每个问题通常有一个独特的单个或双个词答案。这些问题在某种意义上是‘自然的’,因为在看到这些图片时,人类很可能会提出这样的问题。层级1的一个例子是,“图像中红色区域的形状是什么?”而层级7的例子是,“为什么男人在剪纸?”。对所提议数据集在一些现有VQA系统的初步测试显示,它们在层级1(低级特征)和层级2(对象分类)的问题上表现优异,但在层级3(场景文字)、层级6(外推)和层级7(整幅场景分析)的问题上表现最差。本文的工作将为系统分析VQA系统提供重要帮助。