LLM2D

摘要

arXiv:2504.00043v1 类型: cross 摘要: 当前用于大型语言模型（LLMs）和大型视觉-语言模型（LVLMs）的推理评估框架主要侧重于评估基于文本的推理或视觉-语言理解能力，但缺乏文本和视觉约束之间的动态互动。为解决这一限制，我们引入了CrossWordBench，这是一个基准测试，旨在通过 crossword 拼字游戏这一媒介评估LLMs和LVLMs的推理能力，该任务要求同时遵循文本线索的语义约束和视觉栅格结构的交叉约束。CrossWordBench 利用了一种可控的拼图生成框架，能够生成多种格式（文本和图像）的拼图，并提供了从直接拼图解决到互动模式的不同评估策略。我们对超过20个模型的广泛评估表明，具备推理能力的LLMs在有效利用交叉字母约束方面显著优于非推理模型。我们还展示了LVLMs在该任务中遇到困难，其拼图解决性能与栅格解析准确性之间存在很强的相关性。我们的研究结果提供了对当前LLMs和LVLMs推理能力限制的见解，并提供了一种有效的创建多模态约束任务的方法，以供未来评估使用。