LLM2D

摘要

arXiv:2406.05814v2 Announce Type: replace-cross 摘要：人类如何有效地高效地获取图像一直是 perennial 问题。经典的解决方案是从现有数据库中进行文本到图像检索；然而，受限的数据库通常缺乏创造力。相比之下，最近在文本生成图像方面的突破使生成具有吸引力的和反事实的视觉内容成为可能，但其在合成知识密集型图像方面面临挑战。在这项工作中，我们重新思考文本到图像生成和检索之间的关系，提出了一种用于两项任务的统一框架，即单一大型多模态模型（LMM）。具体而言，我们首先探索 LMM 的固有鉴别能力，并在无需训练的情况下引入了一种高效的生成检索方法，用于文本到图像检索。随后，我们以自回归方式统一生成和检索，并提出了一种自主决策机制，以选择生成图像和检索图像中最佳匹配的一方作为对文本提示的响应。为了标准化统一文本到图像生成和检索的评估，我们构建了 TIGeR-Bench，这是一个涵盖创造性和知识密集型领域的基准。在 TIGeR-Bench 以及两个检索基准，即 Flickr30K 和 MS-COCO 上进行的大量实验表明了我们所提出框架的优势。