LLM2D

摘要

arXiv:2504.03360v1 类型: cross 摘要：在边缘设备上部署大型语言模型（LLMs）面临着计算限制、内存限制、推理速度和能源消耗等重大挑战。模型量化已成为一种关键技术，通过减少模型大小和计算开销，使得高效地进行LLM推理成为可能。在此研究中，我们对Ollama库中的28个量化LLM进行了全面分析，该库默认使用后训练量化（PTQ）和权重唯一量化技术，并在具有4GB RAM的Raspberry Pi 4边缘设备上部署。我们在多个量化级别和任务类型上评估了能源效率、推理性能和输出准确性。这些模型在五个标准化数据集（常识问答（CommonsenseQA）、BIG-Bench Hard、真实问答（TruthfulQA）、GSM8K和HumanEval）上进行了基准测试，并采用高分辨率的硬件级能源测量工具来捕捉实际的能源消耗。我们的研究发现，不同量化设置之间的能源效率、推理速度和准确性之间的权衡关系，并强调了针对资源受限环境优化LLM部署的配置。通过将硬件级能源分析与LLM基准测试相结合，本研究为可持续人工智能提供了可操作的见解，弥补了现有能源感知LLM部署研究中的关键空白。