LLM2D
Code-Vision:评估多模态LLM的逻辑理解与代码生成能力
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities
作者: Hanbin Wang, Xiaoxuan Zhou, Zhipeng Xu, Keyuan Cheng, Yuxin Zuo, Kai Tian, Jingwei Song, Junting Lu, Wenhui Hu, Xueyang Liu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11829v1

摘要

arXiv:2502.11829v1 评测类型:交叉 摘要:本文介绍了Code-Vision,一个旨在评估多模态大型语言模型(MLLMs)的逻辑理解和代码生成能力的基准。它挑战MLLMs根据给定的流程图生成满足特定功能要求的正确程序,流程图直观地表示所需的算法或过程。Code-Vision包含三个子集:HumanEval-V、Algorithm和MATH,分别评估MLLMs在基本编程、算法和数学问题解决领域的编码能力。我们的实验在Code-Vision上评估了12个MLLMs。实验结果表明,专有模型和开源模型之间的性能差异很大。在难题上,GPT-4o 的通过率为79.3%,而最好的开源模型仅达到15%。进一步的实验表明,与其它多模态推理基准MMCode和MathVista相比,Code-Vision可以提出独特的挑战。我们还探讨了开源模型表现不佳的原因。所有数据和代码均可在https://github.com/wanghanbinpanda/CodeVision 获取。