LLM2D

摘要

视觉问答（VQA）是一项多模态任务，它融合了计算机视觉（CV）和自然语言处理（NLP）的元素，旨在对任何视觉输入生成答案。随着时间的推移，VQA的范围已从专注于大量自然图像数据集扩展到包含合成图像、视频、3D环境和各种其他视觉输入的数据集。大型预训练网络的出现已将早期依赖于特征提取和融合方案的VQA方法转变为视觉语言预训练（VLP）技术。然而，缺乏涵盖传统VQA架构和当代VLP方法的全面调查。此外，VQA视角下的VLP挑战尚未得到充分探索，为潜在的开放问题留下了空间。我们的工作对VQA领域进行了调查，深入探讨了VQA数据集和方法在该领域历史上的复杂性，介绍了详细的分类法来对VQA的各个方面进行分类，并突出了最新的趋势、挑战和改进范围。我们进一步将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一组供未来研究的开放问题。这项工作旨在通过阐明潜在的研究途径和扩展该领域的边界，为初学者和专家提供指导。