LLM2D

摘要

自2023年11月ChatGPT发布以来，大型语言模型（LLMs）取得了显著的成功，包括在开源社区中，许多开源权重模型可供使用。然而，部署此类服务的要求往往未知且难以提前评估。为了促进这一过程，我们在波尔多大学Inria中心进行了大量测试。本文中，我们提出了一种基于可用GPU的多个不同大小模型（主要是Mistral和LLaMa）性能的比较，使用vLLM，一个旨在优化这些模型推理的Python库。我们的结果为希望部署LLMs的私人及公共团体提供了宝贵的信息，使他们能够根据可用硬件评估不同模型的性能。因此，本研究有助于促进这些大型语言模型在各种应用领域的采用和使用。