摘要
arXiv:2502.06111v1 Announce Type: cross
摘要:计算机科学研究项目的日益复杂性要求更有效的工具来部署代码库。大型语言模型(LLMs),例如Anthropic Claude和Meta Llama,在各类计算机科学研究领域已经展示了显著的进步,包括自动化各种软件工程任务。为了评估LLMs在处理计算机科学研究项目中的复杂代码开发任务的效果,特别是针对NLP/CV/AI/ML/DM等主题,我们引入了CSR-Bench,一个计算机科学研究项目的基准测试。该基准测试从准确性、效率和部署脚本质量等多个方面评估LLMs,旨在探索它们在自主进行计算机科学研究方面的潜力。我们还介绍了一个全新的框架,CSR-Agents,该框架利用多个LLM代理来自动化计算机科学研究项目的GitHub代码库部署。具体而言,通过检查Markdown文件中的指令并对代码库结构进行解释,该模型生成并迭代改进bash命令,以便设置实验环境并部署代码以进行研究任务。CSR-Bench的初步结果显示,LLM代理可以显著增强代码库部署流程,从而提高开发人员的生产力并改善开发流程的管理。