LLM2D
BigCodeBench:基于多样化函数调用和复杂指令的代码生成基准测试
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions
作者: Terry Yue Zhuo, Minh Chien Vu, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen Gong, Thong Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, Binyuan Hui, Niklas Muennighoff, David Lo, Daniel Fried, Xiaoning Du, Harm de Vries, Leandro Von Werra
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2406.15877v4

摘要

arXiv:2406.15877v4 任务自动化类型: replace-cross 摘要:任务自动化通过Python代码借助近期大型语言模型(LLMs)的进步,在软件工程开发到通用推理等各种任务中得到了极大增强。虽然当前的基准测试表明LLMs可以使用程序来解决任务,类似于人类开发者,但大多数评估仅限于短且自包含的算法任务或独立的函数调用。解决具有挑战性和实际的任务需要利用多种函数调用来有效地实现数据解析和网页开发等功能的能力。此外,使用多种工具来解决任务需要通过准确理解复杂指令来进行组合推理。满足这两种特性对LLMs来说都是一项巨大的挑战。为了评估LLMs如何通过程序解决具有挑战性和实际的任务,我们引入了BigCodeBench,这是一个基准测试,要求LLMs调用来自139个库和7个领域中的1,140个细粒度任务的多种函数调用作为工具。为了严格评估LLMs,每个任务包含5.6个测试案例,平均分支覆盖率为99%。此外,我们提出了BigCodeBench-Instruct这一针对自然语言的BigCodeBench变体,它可以自动将原始文档字符串转换为仅包含必要信息的简短指令。我们对60个LLM的广泛评估表明,LLMs尚不具备遵循复杂指令精确使用函数调用的能力,最高得分为60%,比人类表现的97%低得多。这些结果强调了在这一领域进一步发展的需求。