LLM2D
洞察力基准:通过多步骤洞察生成评估商业分析代理
InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation
作者: Gaurav Sahu, Abhay Puri, Juan Rodriguez, Amirhossein Abaskohi, Mohammad Chegini, Alexandre Drouin, Perouz Taslakian, Valentina Zantedeschi, Alexandre Lacoste, David Vazquez, Nicolas Chapados, Christopher Pal, Sai Rajeswar Mudumba, Issam Hadj Laradji
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2407.06423v2

摘要

数据分析对于从数据中提取有价值的见解至关重要,可以帮助组织做出有效的决策。我们引入了 InsightBench,这是一个具有三个关键特征的基准数据集。首先,它包含 100 个数据集,代表着金融和事件管理等各种商业用例,每个数据集都附带了一套精心策划的植入数据集的见解。其次,与专注于回答单个查询的现有基准不同,InsightBench 根据代理执行端到端数据分析的能力对其进行评估,包括制定问题、解释答案以及生成见解和可操作步骤的摘要。第三,我们进行了全面的质量保证,以确保基准中的每个数据集都具有明确的目标,并包含相关且有意义的问题和分析。此外,我们使用 LLaMA-3 作为一种有效的开源评估器,实施了一种双向评估机制,以评估代理提取见解的能力。我们还提出了 AgentPoirot,我们能够执行端到端数据分析的基线数据分析代理。我们在 InsightBench 上的评估表明,AgentPoirot 优于专注于解决单个查询的现有方法(例如 Pandas Agent)。我们还比较了开源和闭源 LLM 以及各种评估策略的性能。总的来说,这个基准可以作为测试平台,推动全面自动化数据分析的进一步发展。