摘要
arXiv:2412.11373v2 声称类型: 修订
摘要: 在本文中,我们提出了将广受欢迎的文字基础桌面游戏Codenames作为一个适合评估大型语言模型(LLMs)推理能力的基准测试的建议。Codenames为实现成功的AI性能提供了一个极具挑战性的任务,需要复杂的语言理解、心理理论能力和知识论推理能力。此前针对Codenames开发代理的尝试大多依赖于词嵌入技术,这种方法词汇量范围有限,且当与不同方法结合使用时表现不佳。大型语言模型在基于语言的任务上展示了增强的推理和理解能力,但在侧向思维挑战方面仍然存在问题。我们评估了包括GPT-4o、Gemini 1.5、Claude 3.5 Sonnet和Llama 3.1在内的几种最先进的大型语言模型在各种棋盘布局上的能力。我们的结果显示,尽管某些大模型整体上表现更好,但不同的模型在游戏过程中展现出不同的 emergent 行为,并擅长特定的角色。我们还评估了不同大模型组合在一起时的合作性能,表明大模型代理比之前的技巧更具适用性,能够与更广泛的队友进行合作。