摘要
arXiv:2504.03360v1 类型: cross
摘要:在边缘设备上部署大型语言模型(LLMs)面临着计算限制、内存限制、推理速度和能源消耗等重大挑战。模型量化已成为一种关键技术,通过减少模型大小和计算开销,使得高效地进行LLM推理成为可能。在此研究中,我们对Ollama库中的28个量化LLM进行了全面分析,该库默认使用后训练量化(PTQ)和权重唯一量化技术,并在具有4GB RAM的Raspberry Pi 4边缘设备上部署。我们在多个量化级别和任务类型上评估了能源效率、推理性能和输出准确性。这些模型在五个标准化数据集(常识问答(CommonsenseQA)、BIG-Bench Hard、真实问答(TruthfulQA)、GSM8K和HumanEval)上进行了基准测试,并采用高分辨率的硬件级能源测量工具来捕捉实际的能源消耗。我们的研究发现,不同量化设置之间的能源效率、推理速度和准确性之间的权衡关系,并强调了针对资源受限环境优化LLM部署的配置。通过将硬件级能源分析与LLM基准测试相结合,本研究为可持续人工智能提供了可操作的见解,弥补了现有能源感知LLM部署研究中的关键空白。