摘要
arXiv:2504.04808v2 宣告类型: replace-cross
摘要:随着云数据仓库的广泛应用,从业者们越来越多地转向Extract-Load-Transform (ELT)流水线。然而,设计这些流水线通常需要大量的手动工作来确保正确性。近年来,已经在数据任务中展现出强大能力的人工智能方法,如文本到SQL,为减轻开发ELT流水线的手动努力提供了机会。不幸的是,现有的数据工程基准仅评估孤立的任务,如使用数据工具和编写数据转换查询,这在评估生成端到端ELT流水线的AI代理方面留下了显著的差距。
为了填补这一空白,我们介绍了ELT-Bench,这是一种端到端基准,旨在评估AI代理构建ELT流水线的能力。ELT-Bench包括100条流水线,涵盖各种领域的835个源表和203个数据模型。通过模拟涉及多种数据源集成和使用流行数据工具的现实场景,ELT-Bench评估AI代理在处理复杂数据工程工作流方面的能力。AI代理必须与数据库和数据工具交互、编写代码和SQL查询,并协调每一条流水线的每一个阶段。我们使用ELT-Bench评估了两个代表性的代码代理框架,Spider-Agent和SWE-Agent,以及六种流行的大型语言模型(LLMs)。表现最佳的代理,Spider-Agent Claude-3.7-Sonnet(扩展思考版本),正确生成了3.9%的数据模型,平均每条流水线成本为4.30美元,步骤数为89.3步。我们的实验结果表明了ELT-Bench的挑战,并突显了需要更先进的AI代理以减少ELT工作流中的手动努力。我们的代码和数据可在https://github.com/uiuc-kang-lab/ELT-Bench获得。