LLM2D
LLM 在 LLaMA2 上的基准测试:多编程语言下的代码开发性能评估
LLM Benchmarking with LLaMA2: Evaluating Code Development Performance Across Multiple Programming Languages
作者: Patrick Diehl, Nojoud Nader, Maxim Moraru, Steven R. Brandt
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19217v1

摘要

arXiv:2503.19217v1 宣传类型: cross 摘要:大规模语言模型(LLMs)的快速进化为在软件开发中自动化各种任务开辟了新可能。本文评估了Llama 2-70B模型在自动化这些任务方面的能力,特别是在使用常用编程语言编写的科学应用程序中。利用代表性测试问题,我们评估了模型生成代码、文档和单元测试的能力,以及在不同常用编程语言之间翻译现有代码的能力。我们全面的分析评估了生成和翻译代码的编译、运行时行为和正确性。此外,我们还评估了自动生成代码、文档和单元测试的质量。我们的结果表明,虽然Llama 2-70B在生成简单的数值任务的语法正确且功能正常的代码方面表现频繁,但在更复杂的并行化或分布式计算方面却遇到了重大困难,需要大量的人工修正。我们指出了关键的限制,并建议未来改进的方向,以更好地利用基于人工智能的自动化在科学计算工作流中的应用。