LLM2D
高性能机器学习推理的边缘AI平台基准测试
Benchmarking Edge AI Platforms for High-Performance ML Inference
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14803v1

摘要

边缘计算因其能够减少通信延迟并实现实时处理而日益受到重视,这促进了高性能、异构片上系统解决方案的兴起。尽管当前的方法通常涉及缩小现代硬件规模,但这些平台上的神经网络工作负载的性能特征可能会有显著差异,尤其是在并行处理方面,这对边缘部署至关重要。为了解决这一问题,我们进行了一项全面的研究,比较了各种线性代数和神经网络推理任务在仅CPU、CPU/GPU和CPU/NPU集成解决方案中的延迟和吞吐量。我们发现,神经处理单元(NPU)在矩阵向量乘法(快58.6%)和某些神经网络任务(视频分类和大语言模型快3.2倍)中表现出色。GPU在矩阵乘法(快22.6%)和LSTM网络(快2.7倍)中表现优异,而CPU则在点积等较少并行操作中表现出色。基于NPU的推理在低功耗下实现了延迟和吞吐量的平衡。基于GPU的推理虽然能耗更高,但在大维度和批量处理时表现最佳。我们强调了异构计算解决方案在边缘AI中的潜力,其中多样化的计算单元可以被战略性地利用,以提升准确和实时的推理能力。