LLM2D

摘要

arXiv:2409.07703v3 宣告类型: 替换摘要: 大型语言模型（LLMs）和大型视觉-语言模型（LVLMs）展示了令人印象深刻的语言/视觉推理能力，激发了构建针对特定应用（如购物助手或AI软件工程师）的代理的 Recent 趋势。最近，许多数据科学基准已经被提出，以研究它们在数据科学领域的性能。然而，现有的数据科学基准在与现实世界的数据科学应用相比时仍然存在不足，因为这些基准的设置过于简化。为了弥合这一差距，我们引入了 DSBench，这是一个全面的基准，旨在通过现实的任务来评估数据科学代理。该基准包括来自 Eloquence 和 Kaggle 竞赛的 466 个数据分析任务和 74 个数据建模任务。DSBench 提供了一个现实的设置，涵盖了长上下文、多模态任务背景、与大量数据文件和多表结构的推理，以及端到端的数据建模任务。我们对最先进的 LLM、LVLM 和代理的研究显示，它们在大多数任务中都存在问题，最好的代理仅解决了 34.12% 的数据分析任务，并实现了 34.74% 的相对性能差距（RPG）。这些发现强调了进一步开发更实用、更智能和更自主的数据科学代理的必要性。