LLM2D
PCGRLLM:由大型语言模型驱动的程序化内容生成强化学习奖励设计
PCGRLLM: Large Language Model-Driven Reward Design for Procedural Content Generation Reinforcement Learning
作者: In-Chang Baek, Sung-Hyun Kim, Sam Earle, Zehua Jiang, Noh Jin-Ha, Julian Togelius, Kyung-Joong Kim
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10906v1

摘要

arXiv:2502.10906v1 奖励类型: 新 摘要: 奖励设计在游戏AI的训练中起着关键作用,需要大量的领域特定知识和人力。近年来,一些研究探讨了使用大型语言模型(LLMs)生成训练游戏代理和控制机器人所需的奖励。在内容生成文献中,已经有早期工作专注于生成强化学习代理生成器的奖励函数。本文介绍了PCGRLLM,这是一种基于之前工作的扩展架构,采用了反馈机制和多种基于推理的提示工程技术。我们使用两种最先进的LLMs在二维环境中对故事到奖励生成任务进行了评估,展示了我们方法的普适性。我们的实验提供了对LLMs在内容生成任务中必不可少的能力的深入评估。结果突显了分别高达415%和40%的重要性能提升,这取决于语言模型的零样本能力。我们的工作展示了在游戏AI开发中减少对人类依赖的潜力,同时支持和增强创造过程。