LLM2D
CHARTOM:多模态大型语言模型的视觉共情推理基准
CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models
作者: Shubham Bharti, Shiyun Cheng, Jihyun Rho, Jianrui Zhang, Mu Cai, Yong Jae Lee, Martina Rau, Xiaojin Zhu
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2408.14419v2

摘要

arXiv:2408.14419v2 项目类型:替换 摘要:我们介绍了CHARTOM,这是一个用于多模态大型语言模型的视觉理论思维基准测试。CHARTOM包含特别设计的数据可视化图表。给定一个图表,语言模型不仅需要正确理解图表(FACT问题),还需要判断该图表是否会对人类读者产生误导作用(MIND问题)。这两个问题都有重要的社会价值。我们详细介绍了CHARTOM基准测试的构建过程,包括其与人类表现的校准。我们使用截至2024年底的领先LLM(包括GPT、Claude、Gemini、Qwen、Llama和Llava)对CHARTOM数据集进行了基准测试,并发现我们的基准测试对所有测试的LLM都具有挑战性,表明未来大型语言模型存在改进的空间。