LLM2D

摘要

arXiv:2412.11373v2 声称类型: 修订摘要: 在本文中，我们提出了将广受欢迎的文字基础桌面游戏Codenames作为一个适合评估大型语言模型（LLMs）推理能力的基准测试的建议。Codenames为实现成功的AI性能提供了一个极具挑战性的任务，需要复杂的语言理解、心理理论能力和知识论推理能力。此前针对Codenames开发代理的尝试大多依赖于词嵌入技术，这种方法词汇量范围有限，且当与不同方法结合使用时表现不佳。大型语言模型在基于语言的任务上展示了增强的推理和理解能力，但在侧向思维挑战方面仍然存在问题。我们评估了包括GPT-4o、Gemini 1.5、Claude 3.5 Sonnet和Llama 3.1在内的几种最先进的大型语言模型在各种棋盘布局上的能力。我们的结果显示，尽管某些大模型整体上表现更好，但不同的模型在游戏过程中展现出不同的 emergent 行为，并擅长特定的角色。我们还评估了不同大模型组合在一起时的合作性能，表明大模型代理比之前的技巧更具适用性，能够与更广泛的队友进行合作。