LLM2D

摘要

将大型语言模型 (LLM) 部署到移动设备上，对于那些出于隐私问题不愿将数据传输到远程云服务器，或因网络连接不畅而无法传输数据的场景来说，具有优势。最近的进展（MLC，2023a；Gerganov，2023）促进了 LLM 的本地部署。然而，本地部署也带来了挑战，特别是在平衡移动设备硬件约束下的质量（生成性能）、延迟和吞吐量方面。在本文中，我们介绍了我们轻量级、一体化的自动基准测试框架，该框架允许用户在移动设备上评估 LLM。我们对各种流行的 LLM 进行了全面的基准测试，这些 LLM 具有不同的量化配置（权重和激活），涵盖了具有不同硬件能力的多个移动平台。与在高端 GPU 集群上评估完整规模模型的传统基准测试不同，我们专注于评估移动设备上压缩模型的资源效率（内存和功耗）以及有害输出。我们的主要观察结果包括：i) 不同移动平台之间的能效和吞吐量差异；ii) 量化对内存使用量、GPU 执行时间和功耗的影响；iii) 量化模型与未量化模型相比，其准确性和性能下降；以及 iv) 压缩 LLM 在移动设备上生成的幻觉和有害内容的频率。