LLM2D

摘要

arXiv:2504.04808v1 类别: cross 摘要：随着云数据仓库的广泛应用，从业者越来越多地转向抽取-加载-转换 (ELT) 管道。然而，设计这些管道往往需要大量的手动工作以确保正确性。近年来，在数据任务中表现出强大能力的基于人工智能的方法，如文本到SQL，为减轻开发ELT管道的手动努力提供了机会。不幸的是，目前的数据工程基准只能评估孤立的任务，如使用数据工具和编写数据转换查询，这在评估生成端到端ELT管道的人工智能代理方面留下了显著的差距。为了填补这一差距，我们引入了ELT-Bench，这是一种端到端的基准测试，旨在评估AI代理构建ELT管道的能力。ELT-Bench 包含 100 个管道，包括 835 个源表和 203 个数据模型，涵盖了各种领域。通过模拟涉及多种数据源集成和使用流行数据工具的现实场景，ELT-Bench 评估了AI代理处理复杂数据工程工作流的能力。AI代理必须与数据库和数据工具交互，编写代码和SQL查询，并协调每个管道阶段。我们使用ELT-Bench 对两种代表性的代码代理框架Spider-Agent和SWE-Agent进行了评估，采用了六种流行的大型语言模型 (LLMs)。表现最佳的代理，Spider-Agent Claude-3.7-Sonnet 延伸思考，仅正确生成了 3.9% 的数据模型，平均每管道成本为 $4.30 和 89.3 步。我们的实验结果表明了ELT-Bench 的挑战，并突出了减少ELT工作流手动努力所需更高级的AI代理的需求。我们的代码和数据可在 https://github.com/uiuc-kang-lab/ETL.git 获取。