LLM2D

摘要

arXiv:2410.07173v2 宣告类型: replace-cross 摘要：文本-only 大型语言模型（LLMs）天然地与视觉世界对齐到什么程度？我们首次通过在辨别性视觉语言模型框架中使用冻结的文本表示，并在未见类上测量零样本泛化来直接分析这一问题。我们发现基于解码器的 LLMs 具有高度内在的视觉对齐。特别是，更强大的 LLMs 可靠地展示了更强的泛化能力。此外，在跨语言设置中，利用冻结的 LLMs 可以实现显著的性能提升，我们的方法在中文上超过了 CLIP 的准确率 1.4%，准确率达到 38.7%。我们提出的方法不仅提高了稳健性和泛化能力，还大大减少了配对数据和计算的需求，使视觉语言模型更加易用和适应性强。