LLM2D

摘要

大型语言模型（LLMs）在不完全信息场景下的问题解决能力评估日益重要，涵盖提问、知识搜索、错误检测和路径规划等能力。当前研究主要集中在LLMs的问题解决能力，如“二十问”游戏。然而，这类游戏并不要求识别误导性线索，而这是不完全信息场景中必需的。此外，现有的游戏如“谁是卧底”具有高度主观性，使得评估变得困难。因此，本文引入了一种基于“谁是卧底”和“二十问”的新游戏——BrainKing，用于评估LLMs在不完全信息场景下的能力。它要求LLMs通过有限的“是或否”问题和潜在的误导性答案来识别目标实体。通过设置简单、中等和困难难度模式，我们全面评估了LLMs在各个方面的表现。我们的结果揭示了LLMs在BrainKing中的能力和局限性，为LLMs的问题解决水平提供了重要见解。