LLM2D

摘要

arXiv:2504.04808v2 宣告类型: replace-cross 摘要：随着云数据仓库的广泛应用，从业者们越来越多地转向Extract-Load-Transform (ELT)流水线。然而，设计这些流水线通常需要大量的手动工作来确保正确性。近年来，已经在数据任务中展现出强大能力的人工智能方法，如文本到SQL，为减轻开发ELT流水线的手动努力提供了机会。不幸的是，现有的数据工程基准仅评估孤立的任务，如使用数据工具和编写数据转换查询，这在评估生成端到端ELT流水线的AI代理方面留下了显著的差距。为了填补这一空白，我们介绍了ELT-Bench，这是一种端到端基准，旨在评估AI代理构建ELT流水线的能力。ELT-Bench包括100条流水线，涵盖各种领域的835个源表和203个数据模型。通过模拟涉及多种数据源集成和使用流行数据工具的现实场景，ELT-Bench评估AI代理在处理复杂数据工程工作流方面的能力。AI代理必须与数据库和数据工具交互、编写代码和SQL查询，并协调每一条流水线的每一个阶段。我们使用ELT-Bench评估了两个代表性的代码代理框架，Spider-Agent和SWE-Agent，以及六种流行的大型语言模型（LLMs）。表现最佳的代理，Spider-Agent Claude-3.7-Sonnet（扩展思考版本），正确生成了3.9%的数据模型，平均每条流水线成本为4.30美元，步骤数为89.3步。我们的实验结果表明了ELT-Bench的挑战，并突显了需要更先进的AI代理以减少ELT工作流中的手动努力。我们的代码和数据可在https://github.com/uiuc-kang-lab/ELT-Bench获得。