LLM2D
PalmBench:移动平台上压缩大型语言模型的综合基准测试
PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms
作者: Yilong Li, Jingyu Liu, Hao Zhang, M Badri Narayanan, Utkarsh Sharma, Shuai Zhang, Pan Hu, Yijing Zeng, Jayaram Raghuram, Suman Banerjee
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05315v1

摘要

将大型语言模型 (LLM) 部署到移动设备上,对于那些出于隐私问题不愿将数据传输到远程云服务器,或因网络连接不畅而无法传输数据的场景来说,具有优势。最近的进展(MLC,2023a;Gerganov,2023)促进了 LLM 的本地部署。然而,本地部署也带来了挑战,特别是在平衡移动设备硬件约束下的质量(生成性能)、延迟和吞吐量方面。在本文中,我们介绍了我们轻量级、一体化的自动基准测试框架,该框架允许用户在移动设备上评估 LLM。我们对各种流行的 LLM 进行了全面的基准测试,这些 LLM 具有不同的量化配置(权重和激活),涵盖了具有不同硬件能力的多个移动平台。与在高端 GPU 集群上评估完整规模模型的传统基准测试不同,我们专注于评估移动设备上压缩模型的资源效率(内存和功耗)以及有害输出。我们的主要观察结果包括:i) 不同移动平台之间的能效和吞吐量差异;ii) 量化对内存使用量、GPU 执行时间和功耗的影响;iii) 量化模型与未量化模型相比,其准确性和性能下降;以及 iv) 压缩 LLM 在移动设备上生成的幻觉和有害内容的频率。