LLM2D

摘要

arXiv:2504.02118v1 类型: cross 摘要：将大型语言模型（LLMs）部署在资源受限的边缘设备如树莓派上，面临着计算效率、功率消耗和响应延迟的挑战。本文探讨了基于量化优化技术，以便在低功耗嵌入式系统上高效地执行LLMs。我们的方法利用了k-量化，这是一种针对不同位宽设计的后训练量化（PTQ）方法，支持高效的2比特、4比特、6比特和8比特权重量化。此外，我们还采用了带有量化感知训练（QAT）的三元量化方法用于BitNet模型，从而更有效地适应更低位宽的表示，同时保持准确性。我们的研究结果突显了量化LLMs在边缘设备上进行实时对话AI的潜力，为移动和嵌入式应用中低功耗、高效率的AI部署铺平了道路。研究表明，激进的量化策略可以显著降低能耗，同时保持推理质量，使得LLMs在资源受限的环境中更具实用性。