LLM2D
CollagePrompt:一种基于GPT-4V的经济实惠的视觉识别基准
CollagePrompt: A Benchmark for Budget-Friendly Visual Recognition with GPT-4V
作者: Siyu Xu, Yunke Wang, Daochang Liu, Bo Du, Chang Xu
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2403.11468v2

摘要

arXiv:2403.11468v2 宣布类型: replace-cross 摘要:近年来生成式AI的发展表明,通过提供视觉提示,GPT-4V可以在视觉识别任务中表现出显著的能力。尽管具有令人印象深刻的性能,但与GPT-4V推理相关的高昂成本构成了广泛应用的障碍。为了解决这一挑战,我们提出了一种经济实惠的拼接提示任务,将多个图像拼接成一个视觉提示,使GPT-4V能够同时对多个图像进行视觉识别,从而降低成本。我们收集了一个包含各种拼接提示的数据集,以评估其在GPT-4V视觉识别中的性能。我们的评估揭示了几个关键发现:1) 拼接中的不同位置对识别准确性有影响。2) 将同一类别的图像分组在一起可以产生更好的视觉识别结果。3) 错误的标签通常来自相邻的图像。这些发现强调了拼接提示中图像排列的重要性。为此,我们构建了一个基准,称为CollagePrompt,该基准为设计拼接提示以实现更经济高效的GPT-4V视觉识别提供了一个平台。我们提出了基于遗传算法的基线方法来优化拼接布局,并引入了两个度量标准来衡量优化拼接提示的效率。我们的基准使研究人员能够更好地优化拼接提示,从而使得GPT-4V在视觉识别中更加经济实惠。代码和数据可在该项目页面https://collageprompting.github.io/获取。