摘要
我们介绍了 DA-Code,一个专门用于评估大型语言模型 (LLMs) 在基于代理的数据科学任务上的代码生成基准。该基准包含三个核心要素:首先,DA-Code 中的任务本质上具有挑战性,与传统的代码生成任务不同,需要在基础和规划方面具备高级编码技能。其次,DA-Code 中的示例全部基于真实且多样化的数据,涵盖了各种复杂的数据整理和分析任务。第三,为了解决这些任务,模型必须使用复杂的数据科学编程语言,以执行复杂的数据处理并得出答案。我们在一个可控且可执行的环境中设置了基准,该环境与现实世界的数据分析场景一致,并且可扩展。标注人员精心设计了评估套件,以确保评估的准确性和稳健性。我们开发了 DA-Agent 基线。实验表明,尽管基线比其他现有框架表现更好,但使用当前最好的 LLMs 仅实现了 30.5% 的准确率,还有很大的改进空间。我们将在 https://da-code-bench.github.io 发布我们的基准。