摘要
arXiv:2504.14128v1 通告类型: 新
摘要: 推理是使大语言模型(LLMs)能够与世界互动的一项基本技能。随着任务变得越来越复杂,它们需要越来越复杂和多样的推理能力来进行序列决策,这要求对上下文历史进行结构化推理以确定下一个最佳行动。我们介绍了TALES,这是一个多样化的合成和人工撰写的文字冒险游戏集合,旨在挑战和评估多样的推理能力。我们展示了多种大语言模型(包括开源和封闭权重)的结果,并对表现最佳的模型进行了定性分析。尽管在合成游戏中表现出色,但即使表现最好的LLM驱动代理在设计供人类娱乐的游戏中的得分也未能达到15%。有关实验的代码和可视化可以在https://microsoft.github.io/tales找到。