摘要
arXiv:2502.13897v1 Announce Type: cross
摘要:本文介绍了DataSciBench,这是一种综合基准,用于评估大型语言模型(LLM)在数据科学中的能力。最近的相关基准主要集中在单一任务、容易获得的正确答案以及简单明了的评估指标上,这限制了可以评估的任务范围。相比之下,DataSciBench 是基于一个更全面和精心收集的自然且具有挑战性的提示集合构建的,这些提示具有不确定的正确答案和评估指标。我们开发了一种半自动化的流程来生成正确答案(GT)和验证评估指标。该流程利用并实施了基于 LLM 的自我一致性及人工验证策略,通过利用收集的提示、预定义的任务类型和汇总函数(指标)生成准确的 GT。此外,我们提出了一种创新的Task-Function-Code(TFC)框架,基于精确定义的指标和编程规则来评估每次代码执行的结果。我们的实验框架涉及使用我们收集到的多样化提示测试6个API基础模型、8个开源通用模型和9个开源代码生成模型。这种方法旨在提供更全面和严格的LLM数据科学评估,揭示它们的优势和不足。实验结果表明,API基础模型在所有指标上的表现优于开源模型,Deepseek-Coder-33B-Instruct 在开源模型中得分最高。我们已将所有代码和数据发布在 https://github.com/THUDM/DataSciBench。