LLM2D

摘要

arXiv:2502.06111v2 宣布类型: 替换交叉引用摘要：随着计算机科学研究项目的日益复杂，需要更加有效的工具来部署代码库。大型语言模型（LLMs），如Anthropic Claude和Meta Llama，在计算机科学研究的各种领域中已经显示出显著的进步，包括软件工程任务的自动化。为了评估LLMs在处理计算机科学研究项目的复杂代码开发任务方面的有效性，特别是对于NLP/CV/AI/ML/DM等主题，我们引入了CSR-Bench，一个针对计算机科学研究项目的基准测试。该基准测试从准确度、效率和部署脚本质量等多个方面评估LLMs，旨在探索它们在自主进行计算机科学研究方面的潜力。我们还引入了一种新的框架CSR-Agents，该框架利用多个LLM代理自动部署计算机科学研究项目的GitHub代码库。具体而言，通过检查Markdown文件中的指令并解释仓库结构，模型生成并迭代改进bash命令，用于设置实验环境并部署代码以执行研究任务。CSR-Bench的初步结果显示，LLM代理可以显著提高代码库部署的工作流程，从而提高开发者的生产力并改善开发工作流程的管理。