摘要
arXiv:2407.06423v3 宣告类型: 替换
摘要:数据挖掘对于从数据中提取有价值的信息至关重要,这些信息可以辅助组织做出有效的决策。我们介绍了InsightBench,这是一个包含三个关键特性的基准数据集。首先,它包含100个代表不同商业应用场景(如金融和事件管理)的数据集,每个数据集都附带了一组精心挑选并植入数据中的见解。其次,不同于现有的专注于回答单一查询的基准数据集,InsightBench 评估代理的能力,包括提出问题、解释答案以及生成一份关于见解和行动步骤的总结。第三,我们进行了全面的质量保证,确保基准数据集中的每个数据集都有明确的目标,并包含了相关且有意义的问题和分析。此外,我们使用有效的开源评估工具LLaMA-3 实施了一种双向评估机制来评估代理提取见解的能力。我们还提出了我们的基准数据分析代理AgentPoirot,它能够执行端到端的数据分析。我们在InsightBench上的评估显示,AgentPoirot 在提取见解的能力方面优于专注于解决单一查询的现有方法(如Pandas Agent)。我们还比较了开源和闭源LLM以及各种评估策略的性能。总体而言,该基准数据集为推动全面自动化数据分析的发展提供了测试平台,可在此处访问:https://github.com/ServiceNow/insight-bench。