LLM2D

摘要

arXiv:2410.12381v3 宣告类型: replace-cross 摘要: 理解和推理图像是人类智能的基本方面。尽管大型多模态模型（LMMs）在各种任务中展现了令人印象深刻的性能，但现有的基准测试缺乏对它们在图示解释和推理能力的全面评估，特别是在编码环境中。我们介绍了HumanEval-V，这是一个严格的基准测试，涵盖了六种任务类型，并评估了多样的视觉推理能力。每个任务都包含精心设计的图示、函数签名和测试案例，采用新的代码生成任务来全面评估模型对图示的理解。通过与22个LMMs的广泛实验，我们发现即使表现最佳的模型也只能达到一定程度的成功，Claude 3.5 Sonnet仅达到36.8%的pass@1通过率，这突显出巨大的改进空间。我们的分析表明，当前的LMMs在空间变换、拓扑关系以及人类直观易懂的动态模式方面存在困难。这些发现为提高LMMs的视觉推理能力提供了有价值的见解。我们已在https://github.com/HumanEval-V/HumanEval-V-Benchmark 开源了我们的代码和基准测试。