LLM2D
优化效率的語言實現實比较研究:细调 LLaMA 2 推理
Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency
作者: Sazzad Hossain, Touhidul Alam Seyam, Avijit Chowdhury, Munis Xamidov, Rajib Ghose, Abhijit Pathak
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01651v1

摘要

arXiv:2502.01651v1 标题类型: cross 摘要:本文旨在优化 Llama2 推理,这是机器学习和自然语言处理(NLP)中的一个关键方面。我们评估了包括 TensorFlow、PyTorch、Python、Mojo、C++ 和 Java 在内的多种编程语言和框架,在广泛基准测试的基础上分析了它们在速度、内存消耗和实现简便性方面的性能。每一方法的优缺点得到了强调,并提出了并行处理和硬件利用的优化策略。此外,我们研究了 Mojo SDK 这一新型框架,该框架专为 Apple Silicon 上的大规模语言模型(LLM)推理设计,并将其性能与 C、C++、Rust、Zig、Go 和 Julia 的实现进行了基准测试。我们在 Apple M1 Max 上进行的实验表明,Mojo SDK 具有竞争力的性能、易于使用的特点以及与 Python 的无缝兼容性,将其定位为 Apple Silicon 上 LLM 推理的强大替代方案。我们还讨论了 LLM 在资源受限硬件上的部署的更广泛影响,并确定了未来研究的潜在方向。