摘要
arXiv:2410.12381v3 宣告类型: replace-cross
摘要: 理解和推理图像是人类智能的基本方面。尽管大型多模态模型(LMMs)在各种任务中展现了令人印象深刻的性能,但现有的基准测试缺乏对它们在图示解释和推理能力的全面评估,特别是在编码环境中。我们介绍了HumanEval-V,这是一个严格的基准测试,涵盖了六种任务类型,并评估了多样的视觉推理能力。每个任务都包含精心设计的图示、函数签名和测试案例,采用新的代码生成任务来全面评估模型对图示的理解。通过与22个LMMs的广泛实验,我们发现即使表现最佳的模型也只能达到一定程度的成功,Claude 3.5 Sonnet仅达到36.8%的pass@1通过率,这突显出巨大的改进空间。我们的分析表明,当前的LMMs在空间变换、拓扑关系以及人类直观易懂的动态模式方面存在困难。这些发现为提高LMMs的视觉推理能力提供了有价值的见解。我们已在https://github.com/HumanEval-V/HumanEval-V-Benchmark 开源了我们的代码和基准测试。