LLM2D

摘要

arXiv:2406.09043v3 宣告类型: replace-cross 摘要：纵横填字谜是一种需要解谜者展示高度自然语言理解、文字游戏、推理以及世界知识水平的词谜形式，同时还需遵守字数和字符长度的限制。在本文中，我们探讨了使用大规模语言模型（LLMs）解决纵横填字谜的挑战。我们展示了当前一代语言模型在解读隐喻填字谜线索方面表现出显著的能力，并且在相关基准测试中，其性能比之前报告的最先进的（SoTA）结果提高了2-3倍。我们还开发了一种搜索算法，以这种性能为基础，首次使用开箱即用的LLMs解决完整填字谜网格问题，实现了在《纽约时报》填字谜上的准确率为93%。此外，我们还展示了语言模型具有良好的泛化能力，能够支持具有可靠依据的答案。