LLM2D

摘要

数据分析对于从数据中提取有价值的见解至关重要，可以帮助组织做出有效的决策。我们引入了 InsightBench，这是一个具有三个关键特征的基准数据集。首先，它包含 100 个数据集，代表着金融和事件管理等各种商业用例，每个数据集都附带了一套精心策划的植入数据集的见解。其次，与专注于回答单个查询的现有基准不同，InsightBench 根据代理执行端到端数据分析的能力对其进行评估，包括制定问题、解释答案以及生成见解和可操作步骤的摘要。第三，我们进行了全面的质量保证，以确保基准中的每个数据集都具有明确的目标，并包含相关且有意义的问题和分析。此外，我们使用 LLaMA-3 作为一种有效的开源评估器，实施了一种双向评估机制，以评估代理提取见解的能力。我们还提出了 AgentPoirot，我们能够执行端到端数据分析的基线数据分析代理。我们在 InsightBench 上的评估表明，AgentPoirot 优于专注于解决单个查询的现有方法（例如 Pandas Agent）。我们还比较了开源和闭源 LLM 以及各种评估策略的性能。总的来说，这个基准可以作为测试平台，推动全面自动化数据分析的进一步发展。