摘要
大型语言模型 (LLM) 在各种任务中展现出其作为自主代理的潜力,其中一个新兴应用是将 LLM 用于玩游戏。在这项工作中,我们探索了游戏行业的一个实际问题:LLM 可以用来衡量游戏难度吗?我们提出了一种使用 LLM 代理的通用游戏测试框架,并在两个广受欢迎的策略游戏中进行了测试: Wordle 和 Slay the Spire。我们的结果揭示了一个有趣的发现:尽管 LLM 可能无法像普通人类玩家那样出色,但它们的表现,在简单的通用提示技术的引导下,与人类玩家指示的难度之间表现出统计学上的显著且强烈的相关性。这表明 LLM 可以作为有效的代理,用于在开发过程中衡量游戏难度。基于我们的实验,我们还概述了将 LLM 纳入游戏测试流程的一般原则和指南。