LLM2D
CSR-Bench: 在计算机科学研究仓库部署中评估LLM代理的基准测试
CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories
作者: Yijia Xiao, Runhui Wang, Luyang Kong, Davor Golac, Wei Wang
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.06111v2

摘要

arXiv:2502.06111v2 宣布类型: 替换交叉引用 摘要:随着计算机科学研究项目的日益复杂,需要更加有效的工具来部署代码库。大型语言模型(LLMs),如Anthropic Claude和Meta Llama,在计算机科学研究的各种领域中已经显示出显著的进步,包括软件工程任务的自动化。为了评估LLMs在处理计算机科学研究项目的复杂代码开发任务方面的有效性,特别是对于NLP/CV/AI/ML/DM等主题,我们引入了CSR-Bench,一个针对计算机科学研究项目的基准测试。该基准测试从准确度、效率和部署脚本质量等多个方面评估LLMs,旨在探索它们在自主进行计算机科学研究方面的潜力。我们还引入了一种新的框架CSR-Agents,该框架利用多个LLM代理自动部署计算机科学研究项目的GitHub代码库。具体而言,通过检查Markdown文件中的指令并解释仓库结构,模型生成并迭代改进bash命令,用于设置实验环境并部署代码以执行研究任务。CSR-Bench的初步结果显示,LLM代理可以显著提高代码库部署的工作流程,从而提高开发者的生产力并改善开发工作流程的管理。