LLM2D
大型语言模型可能无法达到人类玩家的水平,但它们可以成为测试者:利用大型语言模型代理测量游戏难度
LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents
作者: Chang Xiao, Brenda Z. Yang
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.02829v1

摘要

大型语言模型 (LLM) 在各种任务中展现出其作为自主代理的潜力,其中一个新兴应用是将 LLM 用于玩游戏。在这项工作中,我们探索了游戏行业的一个实际问题:LLM 可以用来衡量游戏难度吗?我们提出了一种使用 LLM 代理的通用游戏测试框架,并在两个广受欢迎的策略游戏中进行了测试: Wordle 和 Slay the Spire。我们的结果揭示了一个有趣的发现:尽管 LLM 可能无法像普通人类玩家那样出色,但它们的表现,在简单的通用提示技术的引导下,与人类玩家指示的难度之间表现出统计学上的显著且强烈的相关性。这表明 LLM 可以作为有效的代理,用于在开发过程中衡量游戏难度。基于我们的实验,我们还概述了将 LLM 纳入游戏测试流程的一般原则和指南。