LLM2D
使用游戏玩法研究大型多模态模型中的多模态和对话基础
Using Game Play to Investigate Multimodal and Conversational Grounding in Large Multimodal Models
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2406.14035v2

摘要

虽然文本模型的评估情况有所改善,但目前似乎多模态(文本和图像)模型的发展速度仍然快于评估方法的发展。在本文中,我们将最近从文本模型中开发的评估范式引入到多模态模型中,即通过目标导向的游戏(自我)进行评估,补充基于参考和基于偏好的评估。具体来说,我们定义了一些游戏,这些游戏挑战模型从视觉信息中表示情境的能力,并通过对话对这些表示进行对齐。我们发现,最大的封闭模型在我们定义的游戏中表现相当好,而即使是最好的开放权重模型也难以应对。进一步分析发现,最大的模型的卓越深度描述能力驱动了部分表现。两种模型都有进一步发展的空间,确保基准的持续相关性。