LLM2D
TALES: 文本冒险学习环境套件
TALES: Text Adventure Learning Environment Suite
作者: Christopher Zhang Cui, Xingdi Yuan, Ziang Xiao, Prithviraj Ammanabrolu, Marc-Alexandre C\^ot\'e
发布日期: 4/25/2025
arXiv ID: oai:arXiv.org:2504.14128v4

摘要

arXiv:2504.14128v4 宣布类型: 替换 摘要: 原理是使大规模语言模型(LLMs)能够与外部世界进行互动的一项至关重要的技能。随着任务变得越来越复杂,它们对顺序决策所需的推理能力也提出了越来越复杂和多样的要求,这需要在上下文历史中进行结构化的推理来确定下一步的最佳行动。我们引入了TALES,这是一个既包括合成数据,也包括人类编写的文本冒险游戏的多样化集合,旨在挑战和评估多样的推理能力。我们展示了在一系列大规模语言模型上的结果,并对表现最优秀的模型进行了定性的分析。尽管在合成游戏中表现出色,但即使是表现最好的LLM驱动的代理,在设计用于人类娱乐的游戏中的得分也未达到15%。实验的代码和可视化可以在 https://microsoft.github.io/tale-suite 找到。