摘要
arXiv:2503.19217v1 宣传类型: cross
摘要:大规模语言模型(LLMs)的快速进化为在软件开发中自动化各种任务开辟了新可能。本文评估了Llama 2-70B模型在自动化这些任务方面的能力,特别是在使用常用编程语言编写的科学应用程序中。利用代表性测试问题,我们评估了模型生成代码、文档和单元测试的能力,以及在不同常用编程语言之间翻译现有代码的能力。我们全面的分析评估了生成和翻译代码的编译、运行时行为和正确性。此外,我们还评估了自动生成代码、文档和单元测试的质量。我们的结果表明,虽然Llama 2-70B在生成简单的数值任务的语法正确且功能正常的代码方面表现频繁,但在更复杂的并行化或分布式计算方面却遇到了重大困难,需要大量的人工修正。我们指出了关键的限制,并建议未来改进的方向,以更好地利用基于人工智能的自动化在科学计算工作流中的应用。