LLM2D

摘要

arXiv:2503.19217v1 宣传类型: cross 摘要：大规模语言模型（LLMs）的快速进化为在软件开发中自动化各种任务开辟了新可能。本文评估了Llama 2-70B模型在自动化这些任务方面的能力，特别是在使用常用编程语言编写的科学应用程序中。利用代表性测试问题，我们评估了模型生成代码、文档和单元测试的能力，以及在不同常用编程语言之间翻译现有代码的能力。我们全面的分析评估了生成和翻译代码的编译、运行时行为和正确性。此外，我们还评估了自动生成代码、文档和单元测试的质量。我们的结果表明，虽然Llama 2-70B在生成简单的数值任务的语法正确且功能正常的代码方面表现频繁，但在更复杂的并行化或分布式计算方面却遇到了重大困难，需要大量的人工修正。我们指出了关键的限制，并建议未来改进的方向，以更好地利用基于人工智能的自动化在科学计算工作流中的应用。