LLM2D

摘要

大型语言模型 (LLM) 在各种任务中展现出其作为自主代理的潜力，其中一个新兴应用是将 LLM 用于玩游戏。在这项工作中，我们探索了游戏行业的一个实际问题：LLM 可以用来衡量游戏难度吗？我们提出了一种使用 LLM 代理的通用游戏测试框架，并在两个广受欢迎的策略游戏中进行了测试： Wordle 和 Slay the Spire。我们的结果揭示了一个有趣的发现：尽管 LLM 可能无法像普通人类玩家那样出色，但它们的表现，在简单的通用提示技术的引导下，与人类玩家指示的难度之间表现出统计学上的显著且强烈的相关性。这表明 LLM 可以作为有效的代理，用于在开发过程中衡量游戏难度。基于我们的实验，我们还概述了将 LLM 纳入游戏测试流程的一般原则和指南。