LLM2D

摘要

边缘计算因其能够减少通信延迟并实现实时处理而日益受到重视，这促进了高性能、异构片上系统解决方案的兴起。尽管当前的方法通常涉及缩小现代硬件规模，但这些平台上的神经网络工作负载的性能特征可能会有显著差异，尤其是在并行处理方面，这对边缘部署至关重要。为了解决这一问题，我们进行了一项全面的研究，比较了各种线性代数和神经网络推理任务在仅CPU、CPU/GPU和CPU/NPU集成解决方案中的延迟和吞吐量。我们发现，神经处理单元（NPU）在矩阵向量乘法（快58.6%）和某些神经网络任务（视频分类和大语言模型快3.2倍）中表现出色。GPU在矩阵乘法（快22.6%）和LSTM网络（快2.7倍）中表现优异，而CPU则在点积等较少并行操作中表现出色。基于NPU的推理在低功耗下实现了延迟和吞吐量的平衡。基于GPU的推理虽然能耗更高，但在大维度和批量处理时表现最佳。我们强调了异构计算解决方案在边缘AI中的潜力，其中多样化的计算单元可以被战略性地利用，以提升准确和实时的推理能力。