LLM2D
InsightBench:通过多步洞察生成评估企业分析代理
InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation
作者: Gaurav Sahu, Abhay Puri, Juan Rodriguez, Amirhossein Abaskohi, Mohammad Chegini, Alexandre Drouin, Perouz Taslakian, Valentina Zantedeschi, Alexandre Lacoste, David Vazquez, Nicolas Chapados, Christopher Pal, Sai Rajeswar Mudumba, Issam Hadj Laradji
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2407.06423v3

摘要

arXiv:2407.06423v3 宣告类型: 替换 摘要:数据挖掘对于从数据中提取有价值的信息至关重要,这些信息可以辅助组织做出有效的决策。我们介绍了InsightBench,这是一个包含三个关键特性的基准数据集。首先,它包含100个代表不同商业应用场景(如金融和事件管理)的数据集,每个数据集都附带了一组精心挑选并植入数据中的见解。其次,不同于现有的专注于回答单一查询的基准数据集,InsightBench 评估代理的能力,包括提出问题、解释答案以及生成一份关于见解和行动步骤的总结。第三,我们进行了全面的质量保证,确保基准数据集中的每个数据集都有明确的目标,并包含了相关且有意义的问题和分析。此外,我们使用有效的开源评估工具LLaMA-3 实施了一种双向评估机制来评估代理提取见解的能力。我们还提出了我们的基准数据分析代理AgentPoirot,它能够执行端到端的数据分析。我们在InsightBench上的评估显示,AgentPoirot 在提取见解的能力方面优于专注于解决单一查询的现有方法(如Pandas Agent)。我们还比较了开源和闭源LLM以及各种评估策略的性能。总体而言,该基准数据集为推动全面自动化数据分析的发展提供了测试平台,可在此处访问:https://github.com/ServiceNow/insight-bench。