LLM2D
从图像到语言:对视觉问答(VQA)方法、挑战和机遇的批判性分析
From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2311.00308v2

摘要

视觉问答(VQA)是一项多模态任务,它融合了计算机视觉(CV)和自然语言处理(NLP)的元素,旨在对任何视觉输入生成答案。随着时间的推移,VQA的范围已从专注于大量自然图像数据集扩展到包含合成图像、视频、3D环境和各种其他视觉输入的数据集。大型预训练网络的出现已将早期依赖于特征提取和融合方案的VQA方法转变为视觉语言预训练(VLP)技术。然而,缺乏涵盖传统VQA架构和当代VLP方法的全面调查。此外,VQA视角下的VLP挑战尚未得到充分探索,为潜在的开放问题留下了空间。我们的工作对VQA领域进行了调查,深入探讨了VQA数据集和方法在该领域历史上的复杂性,介绍了详细的分类法来对VQA的各个方面进行分类,并突出了最新的趋势、挑战和改进范围。我们进一步将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一组供未来研究的开放问题。这项工作旨在通过阐明潜在的研究途径和扩展该领域的边界,为初学者和专家提供指导。