摘要
我们介绍了 LingoQA,一个用于自动驾驶视觉问答的新数据集和基准。该数据集包含 28,000 个独特的短视频场景和 419,000 个标注。在我们的基准上评估最先进的视觉语言模型表明,它们的性能低于人类能力,GPT-4V 对 59.6% 的问题的回答真实,而人类则达到了 96.6%。为了评估,我们提出了一种真实性分类器,称为 Lingo-Judge,它与人类评估的 Spearman 相关系数达到 0.95,超过了现有的技术,如 METEOR、BLEU、CIDEr 和 GPT-4。我们建立了一个基线视觉语言模型,并进行了广泛的消融研究以了解其性能。我们将我们的数据集和基准 https://github.com/wayveai/LingoQA 发布为自动驾驶视觉语言模型的评估平台。