LLM2D

摘要

虽然文本模型的评估情况有所改善，但目前似乎多模态（文本和图像）模型的发展速度仍然快于评估方法的发展。在本文中，我们将最近从文本模型中开发的评估范式引入到多模态模型中，即通过目标导向的游戏（自我）进行评估，补充基于参考和基于偏好的评估。具体来说，我们定义了一些游戏，这些游戏挑战模型从视觉信息中表示情境的能力，并通过对话对这些表示进行对齐。我们发现，最大的封闭模型在我们定义的游戏中表现相当好，而即使是最好的开放权重模型也难以应对。进一步分析发现，最大的模型的卓越深度描述能力驱动了部分表现。两种模型都有进一步发展的空间，确保基准的持续相关性。