LLM2D
Fine-tuning LLaMA 2 性能:对最优效率的语言实现比较研究
Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency
作者: Sazzad Hossain, Touhidul Alam Seyam, Avijit Chowdhury, Munis Xamidov, Rajib Ghose, Abhijit Pathak
发布日期: 2/5/2025
arXiv ID: 2502.01651

摘要

arXiv:2502.01651v1 Announce Type: cross 摘要:本文旨在优化 Llama2 推理,这是机器学习和自然语言处理(NLP)中的一个关键方面。我们评估了包括 TensorFlow、PyTorch、Python、Mojo、C++ 和 Java 在内的各种编程语言和框架,并通过广泛的基准测试分析了它们在速度、内存消耗和实现便捷性方面的性能。强调了每种方法的优势和局限性,并提出了并行处理和硬件利用方面的优化策略。此外,我们研究了 Mojo SDK,这是一个专为 Apple Silicon 上的大语言模型(LLM)推理设计的新框架,并将其性能与 C、C++、Rust、Zig、Go 和 Julia 的实现进行基准测试。在 Apple M1 Max 上进行的实验表明,Mojo SDK 具有竞争力的性能、易用性和与 Python 的无缝兼容性,使其成为 Apple Silicon 上 LLM 推理的强效替代方案。我们还讨论了 LLM 在资源受限硬件上的部署的更广泛影响,并指出了未来研究的潜在方向。