LLM2D
弱评估-强思考:利用情境谜题评估和激发大型语言模型的横向思维
Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles
作者: Qi Chen, Bowen Zhang, Gang Wang, Qi Wu
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06733v1

摘要

尽管自然语言处理的进步显著提高了大型语言模型 (LLM) 在需要垂直思考的任务中的表现,但它们横向思考的能力仍未得到充分探索,并且由于评估创造性思维过程的复杂性和相关数据的稀缺性,难以衡量。为了解决这些挑战,我们引入了 SPLAT,这是一个利用情境谜题来评估和引出 LLM 横向思考能力的基准。该基准包含 975 个跨三个难度级别的分级情境谜题,采用了新的多轮玩家-裁判框架,而不是传统的基于模型的评估,后者通常需要更强大的评估模型。该框架模拟了一个交互式游戏,模型(玩家)向评估模型(裁判)询问有关不完整故事的问题以推断完整场景。裁判根据详细的参考场景回答问题,或者评估玩家的预测是否与参考场景一致。这种方法减少了对更强大的评估模型的依赖,从而能够评估最先进的 LLM。实验表明,强大的评估模型(如 WizardLM-2)在中间问答和最终场景准确性方面与人类判断高度一致,达到 80% 以上的一致性,与人类之间的一致性水平相似。此外,将我们基准中的数据和推理过程应用于其他与横向思考相关的基准(例如 RiddleSense 和 BrainTeaser)会导致性能提升。这表明我们的基准有效地评估和引出了 LLM 的横向思考能力。代码可在以下地址获取:https://github.com/chenqi008/LateralThinking。