LLM2D

摘要

arXiv:2408.14419v2 项目类型：替换摘要：我们介绍了CHARTOM，这是一个用于多模态大型语言模型的视觉理论思维基准测试。CHARTOM包含特别设计的数据可视化图表。给定一个图表，语言模型不仅需要正确理解图表（FACT问题），还需要判断该图表是否会对人类读者产生误导作用（MIND问题）。这两个问题都有重要的社会价值。我们详细介绍了CHARTOM基准测试的构建过程，包括其与人类表现的校准。我们使用截至2024年底的领先LLM（包括GPT、Claude、Gemini、Qwen、Llama和Llava）对CHARTOM数据集进行了基准测试，并发现我们的基准测试对所有测试的LLM都具有挑战性，表明未来大型语言模型存在改进的空间。