LLM2D
巴别塔基准:用于多模态和多结构数据代码驱动分析的通用基准
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data
作者: Xuwu Wang, Qiwen Cui, Yunzhe Tao, Yiran Wang, Ziwei Chai, Xiaotian Han, Boyi Liu, Jianbo Yuan, Jing Su, Guoyin Wang, Tingkai Liu, Liyu Chen, Tianyi Liu, Tao Sun, Yufeng Zhang, Sirui Zheng, Quanzeng You, Yang Yang, Hongxia Yang
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00773v1

摘要

大型语言模型 (LLM) 在各个领域变得越来越重要,尤其是在处理复杂数据类型方面。这包括结构化数据处理,如 ChartQA 和 ChatGPT-Ada 所示,以及多模态非结构化数据处理,如视觉问答 (VQA) 所示。这些领域引起了工业界和学术界的广泛关注。尽管如此,针对这些不同的数据处理场景,仍然缺乏统一的评估方法。为了解决这个问题,我们介绍了 BabelBench,这是一个创新的基准框架,用于评估 LLM 在使用代码执行管理多模态多结构化数据方面的熟练程度。BabelBench 包含一个包含 247 个精心策划的问题的数据集,这些问题通过感知、常识推理、逻辑推理等任务来挑战模型。除了多模态理解、结构化数据处理以及代码生成的基本能力外,这些任务还需要探索、规划、推理和调试等高级能力。我们在 BabelBench 上的实验结果表明,即使是像 ChatGPT 4 这样的尖端模型也还有很大的改进空间。我们从全面分析中得出的见解为社区未来的研究提供了宝贵的指导。基准数据可以在 https://github.com/FFD8FFE/babelbench 找到。