摘要
arXiv:2502.01651v1 标题类型: cross
摘要:本文旨在优化 Llama2 推理,这是机器学习和自然语言处理(NLP)中的一个关键方面。我们评估了包括 TensorFlow、PyTorch、Python、Mojo、C++ 和 Java 在内的多种编程语言和框架,在广泛基准测试的基础上分析了它们在速度、内存消耗和实现简便性方面的性能。每一方法的优缺点得到了强调,并提出了并行处理和硬件利用的优化策略。此外,我们研究了 Mojo SDK 这一新型框架,该框架专为 Apple Silicon 上的大规模语言模型(LLM)推理设计,并将其性能与 C、C++、Rust、Zig、Go 和 Julia 的实现进行了基准测试。我们在 Apple M1 Max 上进行的实验表明,Mojo SDK 具有竞争力的性能、易于使用的特点以及与 Python 的无缝兼容性,将其定位为 Apple Silicon 上 LLM 推理的强大替代方案。我们还讨论了 LLM 在资源受限硬件上的部署的更广泛影响,并确定了未来研究的潜在方向。