LLM2D
HumanEval-V:基于复杂图表的编码任务中高层视觉推理基准测试
HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks
作者: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2410.12381v3

摘要

arXiv:2410.12381v3 宣告类型: replace-cross 摘要: 理解和推理图像是人类智能的基本方面。尽管大型多模态模型(LMMs)在各种任务中展现了令人印象深刻的性能,但现有的基准测试缺乏对它们在图示解释和推理能力的全面评估,特别是在编码环境中。我们介绍了HumanEval-V,这是一个严格的基准测试,涵盖了六种任务类型,并评估了多样的视觉推理能力。每个任务都包含精心设计的图示、函数签名和测试案例,采用新的代码生成任务来全面评估模型对图示的理解。通过与22个LMMs的广泛实验,我们发现即使表现最佳的模型也只能达到一定程度的成功,Claude 3.5 Sonnet仅达到36.8%的pass@1通过率,这突显出巨大的改进空间。我们的分析表明,当前的LMMs在空间变换、拓扑关系以及人类直观易懂的动态模式方面存在困难。这些发现为提高LMMs的视觉推理能力提供了有价值的见解。我们已在https://github.com/HumanEval-V/HumanEval-V-Benchmark 开源了我们的代码和基准测试。