LLM2D

摘要

尽管自然语言处理的进步显著提高了大型语言模型 (LLM) 在需要垂直思考的任务中的表现，但它们横向思考的能力仍未得到充分探索，并且由于评估创造性思维过程的复杂性和相关数据的稀缺性，难以衡量。为了解决这些挑战，我们引入了 SPLAT，这是一个利用情境谜题来评估和引出 LLM 横向思考能力的基准。该基准包含 975 个跨三个难度级别的分级情境谜题，采用了新的多轮玩家-裁判框架，而不是传统的基于模型的评估，后者通常需要更强大的评估模型。该框架模拟了一个交互式游戏，模型（玩家）向评估模型（裁判）询问有关不完整故事的问题以推断完整场景。裁判根据详细的参考场景回答问题，或者评估玩家的预测是否与参考场景一致。这种方法减少了对更强大的评估模型的依赖，从而能够评估最先进的 LLM。实验表明，强大的评估模型（如 WizardLM-2）在中间问答和最终场景准确性方面与人类判断高度一致，达到 80% 以上的一致性，与人类之间的一致性水平相似。此外，将我们基准中的数据和推理过程应用于其他与横向思考相关的基准（例如 RiddleSense 和 BrainTeaser）会导致性能提升。这表明我们的基准有效地评估和引出了 LLM 的横向思考能力。代码可在以下地址获取：https://github.com/chenqi008/LateralThinking。