LLM2D

摘要

arXiv:2502.06111v1 Announce Type: cross 摘要：计算机科学研究项目的日益复杂性要求更有效的工具来部署代码库。大型语言模型（LLMs），例如Anthropic Claude和Meta Llama，在各类计算机科学研究领域已经展示了显著的进步，包括自动化各种软件工程任务。为了评估LLMs在处理计算机科学研究项目中的复杂代码开发任务的效果，特别是针对NLP/CV/AI/ML/DM等主题，我们引入了CSR-Bench，一个计算机科学研究项目的基准测试。该基准测试从准确性、效率和部署脚本质量等多个方面评估LLMs，旨在探索它们在自主进行计算机科学研究方面的潜力。我们还介绍了一个全新的框架，CSR-Agents，该框架利用多个LLM代理来自动化计算机科学研究项目的GitHub代码库部署。具体而言，通过检查Markdown文件中的指令并对代码库结构进行解释，该模型生成并迭代改进bash命令，以便设置实验环境并部署代码以进行研究任务。CSR-Bench的初步结果显示，LLM代理可以显著增强代码库部署流程，从而提高开发人员的生产力并改善开发流程的管理。