LLM2D
ELT-Bench:评估AI代理在ELT管道上的端到端基准测试
ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines
作者: Tengjun Jin, Yuxuan Zhu, Daniel Kang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04808v1

摘要

arXiv:2504.04808v1 类别: cross 摘要:随着云数据仓库的广泛应用,从业者越来越多地转向抽取-加载-转换 (ELT) 管道。然而,设计这些管道往往需要大量的手动工作以确保正确性。近年来,在数据任务中表现出强大能力的基于人工智能的方法,如文本到SQL,为减轻开发ELT管道的手动努力提供了机会。不幸的是,目前的数据工程基准只能评估孤立的任务,如使用数据工具和编写数据转换查询,这在评估生成端到端ELT管道的人工智能代理方面留下了显著的差距。 为了填补这一差距,我们引入了ELT-Bench,这是一种端到端的基准测试,旨在评估AI代理构建ELT管道的能力。ELT-Bench 包含 100 个管道,包括 835 个源表和 203 个数据模型,涵盖了各种领域。通过模拟涉及多种数据源集成和使用流行数据工具的现实场景,ELT-Bench 评估了AI代理处理复杂数据工程工作流的能力。AI代理必须与数据库和数据工具交互,编写代码和SQL查询,并协调每个管道阶段。我们使用ELT-Bench 对两种代表性的代码代理框架Spider-Agent和SWE-Agent进行了评估,采用了六种流行的大型语言模型 (LLMs)。表现最佳的代理,Spider-Agent Claude-3.7-Sonnet 延伸思考,仅正确生成了 3.9% 的数据模型,平均每管道成本为 $4.30 和 89.3 步。我们的实验结果表明了ELT-Bench 的挑战,并突出了减少ELT工作流手动努力所需更高级的AI代理的需求。我们的代码和数据可在 https://github.com/uiuc-kang-lab/ETL.git 获取。