LLM2D

摘要

我们介绍了 DA-Code，一个专门用于评估大型语言模型 (LLMs) 在基于代理的数据科学任务上的代码生成基准。该基准包含三个核心要素：首先，DA-Code 中的任务本质上具有挑战性，与传统的代码生成任务不同，需要在基础和规划方面具备高级编码技能。其次，DA-Code 中的示例全部基于真实且多样化的数据，涵盖了各种复杂的数据整理和分析任务。第三，为了解决这些任务，模型必须使用复杂的数据科学编程语言，以执行复杂的数据处理并得出答案。我们在一个可控且可执行的环境中设置了基准，该环境与现实世界的数据分析场景一致，并且可扩展。标注人员精心设计了评估套件，以确保评估的准确性和稳健性。我们开发了 DA-Agent 基线。实验表明，尽管基线比其他现有框架表现更好，但使用当前最好的 LLMs 仅实现了 30.5% 的准确率，还有很大的改进空间。我们将在 https://da-code-bench.github.io 发布我们的基准。