LLM2D

摘要

arXiv:2407.06423v3 宣告类型: 替换摘要：数据挖掘对于从数据中提取有价值的信息至关重要，这些信息可以辅助组织做出有效的决策。我们介绍了InsightBench，这是一个包含三个关键特性的基准数据集。首先，它包含100个代表不同商业应用场景（如金融和事件管理）的数据集，每个数据集都附带了一组精心挑选并植入数据中的见解。其次，不同于现有的专注于回答单一查询的基准数据集，InsightBench 评估代理的能力，包括提出问题、解释答案以及生成一份关于见解和行动步骤的总结。第三，我们进行了全面的质量保证，确保基准数据集中的每个数据集都有明确的目标，并包含了相关且有意义的问题和分析。此外，我们使用有效的开源评估工具LLaMA-3 实施了一种双向评估机制来评估代理提取见解的能力。我们还提出了我们的基准数据分析代理AgentPoirot，它能够执行端到端的数据分析。我们在InsightBench上的评估显示，AgentPoirot 在提取见解的能力方面优于专注于解决单一查询的现有方法（如Pandas Agent）。我们还比较了开源和闭源LLM以及各种评估策略的性能。总体而言，该基准数据集为推动全面自动化数据分析的发展提供了测试平台，可在此处访问：https://github.com/ServiceNow/insight-bench。