LLM2D

摘要

arXiv:2504.14128v3 通知类型: 修改摘要: 推理是使大规模语言模型（LLMs）能够与世界交互的基本技能。随着任务变得越来越复杂，它们需要更加复杂和多元的推理能力来进行序列决策，需要对上下文历史进行结构化推理以确定下一步的最佳行动。我们介绍了TALES，这是一种多样化的合成和人工编写的文字冒险游戏集合，旨在挑战和评估多元的推理能力。我们展示了多种LLM，包括全权重和部分权重，的表现，并对表现最佳的模型进行了定性分析。尽管在合成游戏中表现出色，即使是最优秀的LLM驱动代理在游戏中获得的分数也仅为15%，这些游戏是为人类享受而设计的。在 https://microsoft.github.io/tales 中可以找到实验的代码和可视化结果。