摘要
自 2022 年 11 月 ChatGPT 发布以来,大型语言模型 (LLM) 取得了相当大的成功,包括在开源社区中,许多开放权重模型可用。然而,部署此类服务的先决条件通常未知,并且难以提前评估。为了促进这一过程,我们在波尔多大学的 INRIA 中心进行了大量测试。在本文中,我们提出了一种对不同大小的几个模型(主要是 Mistral 和 LLaMa)性能的比较,这些模型取决于可用的 GPU,使用 vLLM,这是一个旨在优化这些模型推理的 Python 库。我们的结果为希望部署 LLM 的私人和公共团体提供了有价值的信息,使他们能够根据其可用硬件评估不同模型的性能。因此,这项研究有助于促进这些大型语言模型在各种应用领域的采用和使用。