LLM2D

摘要

arXiv:2502.13388v1 公告类型: 新摘要: 星际争霸II是一个复杂且动态的即时战略(RTS)游戏环境，非常适合人工智能和强化学习研究。为了通过自我反思解决大型语言模型(LLM)在复杂环境中的学习问题，我们基于专家经验和自我经验提出了一个事件反思(REFLECTION OF EPISODES, ROE)框架。该框架首先通过关键帧选择方法获得游戏中关键信息，然后根据专家经验和自我经验进行决策。在一场游戏结束后，它会反思之前的经历以获得新的自我经验。最后，在实验中，我们的方法在TextStarCraft II的非常困难难度下战胜了机器人。我们详细分析了游戏中大型语言模型的数据，验证了其有效性。