摘要
arXiv:2410.07173v2 宣告类型: replace-cross
摘要:文本-only 大型语言模型(LLMs)天然地与视觉世界对齐到什么程度?我们首次通过在辨别性视觉语言模型框架中使用冻结的文本表示,并在未见类上测量零样本泛化来直接分析这一问题。我们发现基于解码器的 LLMs 具有高度内在的视觉对齐。特别是,更强大的 LLMs 可靠地展示了更强的泛化能力。此外,在跨语言设置中,利用冻结的 LLMs 可以实现显著的性能提升,我们的方法在中文上超过了 CLIP 的准确率 1.4%,准确率达到 38.7%。我们提出的方法不仅提高了稳健性和泛化能力,还大大减少了配对数据和计算的需求,使视觉语言模型更加易用和适应性强。