LLM2D

摘要

我们介绍了 LingoQA，一个用于自动驾驶视觉问答的新数据集和基准。该数据集包含 28,000 个独特的短视频场景和 419,000 个标注。在我们的基准上评估最先进的视觉语言模型表明，它们的性能低于人类能力，GPT-4V 对 59.6% 的问题的回答真实，而人类则达到了 96.6%。为了评估，我们提出了一种真实性分类器，称为 Lingo-Judge，它与人类评估的 Spearman 相关系数达到 0.95，超过了现有的技术，如 METEOR、BLEU、CIDEr 和 GPT-4。我们建立了一个基线视觉语言模型，并进行了广泛的消融研究以了解其性能。我们将我们的数据集和基准 https://github.com/wayveai/LingoQA 发布为自动驾驶视觉语言模型的评估平台。