LLM2D
TALES: 文本冒险学习环境套件
TALES: Text Adventure Learning Environment Suite
作者: Christopher Zhang Cui, Xingdi Yuan, Ziang Xiao, Prithviraj Ammanabrolu, Marc-Alexandre C\^ot\'e
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.14128v3

摘要

arXiv:2504.14128v3 通知类型: 修改 摘要: 推理是使大规模语言模型(LLMs)能够与世界交互的基本技能。随着任务变得越来越复杂,它们需要更加复杂和多元的推理能力来进行序列决策,需要对上下文历史进行结构化推理以确定下一步的最佳行动。我们介绍了TALES,这是一种多样化的合成和人工编写的文字冒险游戏集合,旨在挑战和评估多元的推理能力。我们展示了多种LLM,包括全权重和部分权重,的表现,并对表现最佳的模型进行了定性分析。尽管在合成游戏中表现出色,即使是最优秀的LLM驱动代理在游戏中获得的分数也仅为15%,这些游戏是为人类享受而设计的。在 https://microsoft.github.io/tales 中可以找到实验的代码和可视化结果。