LLM2D

摘要

arXiv:2504.14128v4 宣布类型: 替换摘要: 原理是使大规模语言模型（LLMs）能够与外部世界进行互动的一项至关重要的技能。随着任务变得越来越复杂，它们对顺序决策所需的推理能力也提出了越来越复杂和多样的要求，这需要在上下文历史中进行结构化的推理来确定下一步的最佳行动。我们引入了TALES，这是一个既包括合成数据，也包括人类编写的文本冒险游戏的多样化集合，旨在挑战和评估多样的推理能力。我们展示了在一系列大规模语言模型上的结果，并对表现最优秀的模型进行了定性的分析。尽管在合成游戏中表现出色，但即使是表现最好的LLM驱动的代理，在设计用于人类娱乐的游戏中的得分也未达到15%。实验的代码和可视化可以在 https://microsoft.github.io/tale-suite 找到。