LLM2D
VisScience:评估K12教育多模态科学推理的综合基准
VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13730v1

摘要

arXiv:2409.13730v1 公告类型: 新提交 摘要: 多模态大型语言模型(MLLMs)通过整合文本和视觉信息,在复杂场景中实现视觉理解,展示了在各种任务中的显著能力。尽管已有多个基准旨在评估MLLMs从视觉问答到复杂问题解决的任务,但大多数基准主要集中在数学或一般视觉理解任务上。这揭示了当前基准中的一个关键差距,即往往忽视了其他关键科学学科,如物理和化学的纳入。为了填补这一空白,我们精心构建了一个全面的基准,名为VisScience,用于评估数学、物理和化学三个学科的多模态科学推理能力。该基准包含3000个问题,来自K12教育——涵盖小学到高中——均匀分布在三个学科中,每个学科1000个问题。VisScience中的问题涵盖了21个不同的学科,并分为五个难度级别,提供了每个学科内广泛的主题范围。通过VisScience,我们对25个代表性MLLMs在科学推理中的表现进行了详细评估。实验结果表明,闭源MLLMs通常优于开源模型。最佳表现包括Claude3.5-Sonnet在数学中达到53.4%的准确率,GPT-4o在物理中达到38.2%,Gemini-1.5-Pro在化学中达到47.0%。这些结果突显了MLLMs的优势和局限性,指出了未来改进的方向,并强调了开发能够有效应对多模态科学推理多样需求的模型的重要性。