LLM2D
更好的语言模型是否拥有更清晰的视觉?
Do better language models have crisper vision?
作者: Jona Ruthardt, Gertjan J. Burghouts, Serge Belongie, Yuki M. Asano
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.07173v1

摘要

大型语言模型(LLM)对视觉世界的理解程度如何?随着LLM在计算机视觉领域的应用日益广泛,这个问题变得至关重要且意义重大。然而,现有研究主要集中在有限的场景中,例如它们生成视觉内容或聚类多模态数据的能力。为此,我们提出了视觉文本表示基准(ViTeRB),以识别使语言模型与视觉世界良好对齐的关键属性。通过此基准,我们发现大规模解码器型LLM是表示视觉中心语境中文本的理想候选者,这与当前使用文本编码器的做法相反。基于这些发现,我们提出了ShareLock,一个超轻量级的类似CLIP的模型。通过利用来自强大的视觉和语言模型的预计算冻结特征,ShareLock在ImageNet上取得了令人印象深刻的51%的准确率,尽管只使用了56.3万对图像-标题数据。此外,训练只需要1个GPU小时(或包括特征预计算在内的10个小时)——比以往的方法少几个数量级。代码将公开发布。