LLM2D

摘要

arXiv:2403.11468v2 宣布类型: replace-cross 摘要：近年来生成式AI的发展表明，通过提供视觉提示，GPT-4V可以在视觉识别任务中表现出显著的能力。尽管具有令人印象深刻的性能，但与GPT-4V推理相关的高昂成本构成了广泛应用的障碍。为了解决这一挑战，我们提出了一种经济实惠的拼接提示任务，将多个图像拼接成一个视觉提示，使GPT-4V能够同时对多个图像进行视觉识别，从而降低成本。我们收集了一个包含各种拼接提示的数据集，以评估其在GPT-4V视觉识别中的性能。我们的评估揭示了几个关键发现：1) 拼接中的不同位置对识别准确性有影响。2) 将同一类别的图像分组在一起可以产生更好的视觉识别结果。3) 错误的标签通常来自相邻的图像。这些发现强调了拼接提示中图像排列的重要性。为此，我们构建了一个基准，称为CollagePrompt，该基准为设计拼接提示以实现更经济高效的GPT-4V视觉识别提供了一个平台。我们提出了基于遗传算法的基线方法来优化拼接布局，并引入了两个度量标准来衡量优化拼接提示的效率。我们的基准使研究人员能够更好地优化拼接提示，从而使得GPT-4V在视觉识别中更加经济实惠。代码和数据可在该项目页面https://collageprompting.github.io/获取。