LLM2D
部署开源大型语言模型:性能分析
Deploying Open-Source Large Language Models: A performance Analysis
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14887v1

摘要

自2023年11月ChatGPT发布以来,大型语言模型(LLMs)取得了显著的成功,包括在开源社区中,许多开源权重模型可供使用。然而,部署此类服务的要求往往未知且难以提前评估。为了促进这一过程,我们在波尔多大学Inria中心进行了大量测试。本文中,我们提出了一种基于可用GPU的多个不同大小模型(主要是Mistral和LLaMa)性能的比较,使用vLLM,一个旨在优化这些模型推理的Python库。我们的结果为希望部署LLMs的私人及公共团体提供了宝贵的信息,使他们能够根据可用硬件评估不同模型的性能。因此,本研究有助于促进这些大型语言模型在各种应用领域的采用和使用。