摘要
arXiv:2502.10906v1 奖励类型: 新
摘要: 奖励设计在游戏AI的训练中起着关键作用,需要大量的领域特定知识和人力。近年来,一些研究探讨了使用大型语言模型(LLMs)生成训练游戏代理和控制机器人所需的奖励。在内容生成文献中,已经有早期工作专注于生成强化学习代理生成器的奖励函数。本文介绍了PCGRLLM,这是一种基于之前工作的扩展架构,采用了反馈机制和多种基于推理的提示工程技术。我们使用两种最先进的LLMs在二维环境中对故事到奖励生成任务进行了评估,展示了我们方法的普适性。我们的实验提供了对LLMs在内容生成任务中必不可少的能力的深入评估。结果突显了分别高达415%和40%的重要性能提升,这取决于语言模型的零样本能力。我们的工作展示了在游戏AI开发中减少对人类依赖的潜力,同时支持和增强创造过程。