LLM2D

摘要

arXiv:2504.14128v1 通告类型: 新摘要: 推理是使大语言模型（LLMs）能够与世界互动的一项基本技能。随着任务变得越来越复杂，它们需要越来越复杂和多样的推理能力来进行序列决策，这要求对上下文历史进行结构化推理以确定下一个最佳行动。我们介绍了TALES，这是一个多样化的合成和人工撰写的文字冒险游戏集合，旨在挑战和评估多样的推理能力。我们展示了多种大语言模型（包括开源和封闭权重）的结果，并对表现最佳的模型进行了定性分析。尽管在合成游戏中表现出色，但即使表现最好的LLM驱动代理在设计供人类娱乐的游戏中的得分也未能达到15%。有关实验的代码和可视化可以在https://microsoft.github.io/tales找到。