LLM2D

摘要

大型语言模型（LLM）对视觉世界的理解程度如何？随着LLM在计算机视觉领域的应用日益广泛，这个问题变得至关重要且意义重大。然而，现有研究主要集中在有限的场景中，例如它们生成视觉内容或聚类多模态数据的能力。为此，我们提出了视觉文本表示基准（ViTeRB），以识别使语言模型与视觉世界良好对齐的关键属性。通过此基准，我们发现大规模解码器型LLM是表示视觉中心语境中文本的理想候选者，这与当前使用文本编码器的做法相反。基于这些发现，我们提出了ShareLock，一个超轻量级的类似CLIP的模型。通过利用来自强大的视觉和语言模型的预计算冻结特征，ShareLock在ImageNet上取得了令人印象深刻的51%的准确率，尽管只使用了56.3万对图像-标题数据。此外，训练只需要1个GPU小时（或包括特征预计算在内的10个小时）——比以往的方法少几个数量级。代码将公开发布。