LLM2D
DA-Code:面向大型语言模型的代理数据科学代码生成基准测试
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models
作者: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07331v1

摘要

我们提出了DA-Code,一个专门为评估大型语言模型(LLM)在基于代理的数据科学任务中的能力而设计的代码生成基准。该基准包含三个核心要素:首先,DA-Code中的任务本质上具有挑战性,将它们与传统的代码生成任务区分开来,并要求在基础和规划方面具备高级编码技能。其次,DA-Code中的示例均基于真实且多样化的数据,涵盖了广泛的复杂数据整理和分析任务。第三,为了解决这些任务,模型必须利用复杂的数据科学编程语言,执行复杂的数据处理并得出答案。我们在一个可控且可执行的环境中构建了该基准,该环境与现实世界的数据分析场景一致,并且具有可扩展性。注释者精心设计了评估套件,以确保评估的准确性和稳健性。我们开发了DA-Agent基线。实验表明,尽管基线比其他现有框架表现更好,但使用当前最好的LLM仅实现了30.5%的准确率,仍有很大的提升空间。我们将在[https://da-code-bench.github.io](https://da-code-bench.github.io)发布我们的基准。