LLM2D

摘要

arXiv:2504.14128v2 宣告类型: 替换摘要：推理是使大型语言模型（LLMs）能够与世界互动的一项基本技能。随着任务变得越来越复杂，它们对顺序决策所需的推理能力和多样性提出了越来越复杂和多样的要求，这就需要对上下文历史进行结构化的推理，以确定下一步的最佳行动。我们介绍了TALES，这是一个多样性的合成和人工撰写的文本冒险游戏集合，旨在挑战并评估多样的推理能力。我们在一系列LLMs、开放式和封闭式的权重上进行了实验，并对表现最佳的模型进行了定性的分析。尽管在合成游戏上表现出色，即使是最优秀的LLM驱动的代理也无法在设计供人类娱乐的游戏上达到15%的成就。可以在 https://microsoft.github.io/tales 查找到实验的代码和可视化结果。