摘要
数据分析对于从数据中提取有价值的见解至关重要,可以帮助组织做出有效的决策。我们引入了 InsightBench,这是一个具有三个关键特征的基准数据集。首先,它包含 100 个数据集,代表着金融和事件管理等各种商业用例,每个数据集都附带了一套精心策划的植入数据集的见解。其次,与专注于回答单个查询的现有基准不同,InsightBench 根据代理执行端到端数据分析的能力对其进行评估,包括制定问题、解释答案以及生成见解和可操作步骤的摘要。第三,我们进行了全面的质量保证,以确保基准中的每个数据集都具有明确的目标,并包含相关且有意义的问题和分析。此外,我们使用 LLaMA-3 作为一种有效的开源评估器,实施了一种双向评估机制,以评估代理提取见解的能力。我们还提出了 AgentPoirot,我们能够执行端到端数据分析的基线数据分析代理。我们在 InsightBench 上的评估表明,AgentPoirot 优于专注于解决单个查询的现有方法(例如 Pandas Agent)。我们还比较了开源和闭源 LLM 以及各种评估策略的性能。总的来说,这个基准可以作为测试平台,推动全面自动化数据分析的进一步发展。