摘要
大型语言模型 (LLM) 在各个领域变得越来越重要,尤其是在处理复杂数据类型方面。这包括结构化数据处理,如 ChartQA 和 ChatGPT-Ada 所示,以及多模态非结构化数据处理,如视觉问答 (VQA) 所示。这些领域引起了工业界和学术界的广泛关注。尽管如此,针对这些不同的数据处理场景,仍然缺乏统一的评估方法。为了解决这个问题,我们介绍了 BabelBench,这是一个创新的基准框架,用于评估 LLM 在使用代码执行管理多模态多结构化数据方面的熟练程度。BabelBench 包含一个包含 247 个精心策划的问题的数据集,这些问题通过感知、常识推理、逻辑推理等任务来挑战模型。除了多模态理解、结构化数据处理以及代码生成的基本能力外,这些任务还需要探索、规划、推理和调试等高级能力。我们在 BabelBench 上的实验结果表明,即使是像 ChatGPT 4 这样的尖端模型也还有很大的改进空间。我们从全面分析中得出的见解为社区未来的研究提供了宝贵的指导。基准数据可以在 https://github.com/FFD8FFE/babelbench 找到。