LLM2D

摘要

大型语言模型 (LLM) 在各个领域变得越来越重要，尤其是在处理复杂数据类型方面。这包括结构化数据处理，如 ChartQA 和 ChatGPT-Ada 所示，以及多模态非结构化数据处理，如视觉问答 (VQA) 所示。这些领域引起了工业界和学术界的广泛关注。尽管如此，针对这些不同的数据处理场景，仍然缺乏统一的评估方法。为了解决这个问题，我们介绍了 BabelBench，这是一个创新的基准框架，用于评估 LLM 在使用代码执行管理多模态多结构化数据方面的熟练程度。BabelBench 包含一个包含 247 个精心策划的问题的数据集，这些问题通过感知、常识推理、逻辑推理等任务来挑战模型。除了多模态理解、结构化数据处理以及代码生成的基本能力外，这些任务还需要探索、规划、推理和调试等高级能力。我们在 BabelBench 上的实验结果表明，即使是像 ChatGPT 4 这样的尖端模型也还有很大的改进空间。我们从全面分析中得出的见解为社区未来的研究提供了宝贵的指导。基准数据可以在 https://github.com/FFD8FFE/babelbench 找到。