LLM2D

帕利吉玛：一款通用的30亿参数视觉语言模型，用于迁移学习

PaliGemma: A versatile 3B VLM for transfer

作者: Lucas Beyer, Andreas Steiner, Andr\'e Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bo\v{s}njak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai

发布日期: 10/11/2024

arXiv ID: oai:arXiv.org:2407.07726v2

摘要

PaliGemma 是一款基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放式视觉语言模型 (VLM)。它经过训练成为一个多功能且知识渊博的基础模型，能够有效地进行迁移学习。它在各种开放世界任务中取得了优异的性能。我们评估了 PaliGemma 在近 40 种不同任务上的表现，包括标准 VLM 基准测试，以及遥感和分割等更专业化的任务。

查看原文下载 PDF