LLM2D
LLMPi:优化树莓派上的高 throughput 大语言模型
LLMPi: Optimizing LLMs for High-Throughput on Raspberry Pi
作者: Mahsa Ardakani, Jinendra Malekar, Ramtin Zand
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02118v1

摘要

arXiv:2504.02118v1 类型: cross 摘要:将大型语言模型(LLMs)部署在资源受限的边缘设备如树莓派上,面临着计算效率、功率消耗和响应延迟的挑战。本文探讨了基于量化优化技术,以便在低功耗嵌入式系统上高效地执行LLMs。我们的方法利用了k-量化,这是一种针对不同位宽设计的后训练量化(PTQ)方法,支持高效的2比特、4比特、6比特和8比特权重量化。此外,我们还采用了带有量化感知训练(QAT)的三元量化方法用于BitNet模型,从而更有效地适应更低位宽的表示,同时保持准确性。 我们的研究结果突显了量化LLMs在边缘设备上进行实时对话AI的潜力,为移动和嵌入式应用中低功耗、高效率的AI部署铺平了道路。研究表明,激进的量化策略可以显著降低能耗,同时保持推理质量,使得LLMs在资源受限的环境中更具实用性。