摘要
大型语言模型(LLMs)在不完全信息场景下的问题解决能力评估日益重要,涵盖提问、知识搜索、错误检测和路径规划等能力。当前研究主要集中在LLMs的问题解决能力,如“二十问”游戏。然而,这类游戏并不要求识别误导性线索,而这是不完全信息场景中必需的。此外,现有的游戏如“谁是卧底”具有高度主观性,使得评估变得困难。因此,本文引入了一种基于“谁是卧底”和“二十问”的新游戏——BrainKing,用于评估LLMs在不完全信息场景下的能力。它要求LLMs通过有限的“是或否”问题和潜在的误导性答案来识别目标实体。通过设置简单、中等和困难难度模式,我们全面评估了LLMs在各个方面的表现。我们的结果揭示了LLMs在BrainKing中的能力和局限性,为LLMs的问题解决水平提供了重要见解。