LLM2D

摘要

我们提出了DA-Code，一个专门为评估大型语言模型（LLM）在基于代理的数据科学任务中的能力而设计的代码生成基准。该基准包含三个核心要素：首先，DA-Code中的任务本质上具有挑战性，将它们与传统的代码生成任务区分开来，并要求在基础和规划方面具备高级编码技能。其次，DA-Code中的示例均基于真实且多样化的数据，涵盖了广泛的复杂数据整理和分析任务。第三，为了解决这些任务，模型必须利用复杂的数据科学编程语言，执行复杂的数据处理并得出答案。我们在一个可控且可执行的环境中构建了该基准，该环境与现实世界的数据分析场景一致，并且具有可扩展性。注释者精心设计了评估套件，以确保评估的准确性和稳健性。我们开发了DA-Agent基线。实验表明，尽管基线比其他现有框架表现更好，但使用当前最好的LLM仅实现了30.5%的准确率，仍有很大的提升空间。我们将在[https://da-code-bench.github.io](https://da-code-bench.github.io)发布我们的基准。