LLM2D

摘要

arXiv:2502.11829v1 评测类型：交叉摘要：本文介绍了Code-Vision，一个旨在评估多模态大型语言模型（MLLMs）的逻辑理解和代码生成能力的基准。它挑战MLLMs根据给定的流程图生成满足特定功能要求的正确程序，流程图直观地表示所需的算法或过程。Code-Vision包含三个子集：HumanEval-V、Algorithm和MATH，分别评估MLLMs在基本编程、算法和数学问题解决领域的编码能力。我们的实验在Code-Vision上评估了12个MLLMs。实验结果表明，专有模型和开源模型之间的性能差异很大。在难题上，GPT-4o 的通过率为79.3%，而最好的开源模型仅达到15%。进一步的实验表明，与其它多模态推理基准MMCode和MathVista相比，Code-Vision可以提出独特的挑战。我们还探讨了开源模型表现不佳的原因。所有数据和代码均可在https://github.com/wanghanbinpanda/CodeVision 获取。