摘要
arXiv:2502.11829v1 评测类型:交叉
摘要:本文介绍了Code-Vision,一个旨在评估多模态大型语言模型(MLLMs)的逻辑理解和代码生成能力的基准。它挑战MLLMs根据给定的流程图生成满足特定功能要求的正确程序,流程图直观地表示所需的算法或过程。Code-Vision包含三个子集:HumanEval-V、Algorithm和MATH,分别评估MLLMs在基本编程、算法和数学问题解决领域的编码能力。我们的实验在Code-Vision上评估了12个MLLMs。实验结果表明,专有模型和开源模型之间的性能差异很大。在难题上,GPT-4o 的通过率为79.3%,而最好的开源模型仅达到15%。进一步的实验表明,与其它多模态推理基准MMCode和MathVista相比,Code-Vision可以提出独特的挑战。我们还探讨了开源模型表现不佳的原因。所有数据和代码均可在https://github.com/wanghanbinpanda/CodeVision 获取。