摘要
arXiv:2502.13388v1 公告类型: 新
摘要: 星际争霸II是一个复杂且动态的即时战略(RTS)游戏环境,非常适合人工智能和强化学习研究。为了通过自我反思解决大型语言模型(LLM)在复杂环境中的学习问题,我们基于专家经验和自我经验提出了一个事件反思(REFLECTION OF EPISODES, ROE)框架。该框架首先通过关键帧选择方法获得游戏中关键信息,然后根据专家经验和自我经验进行决策。在一场游戏结束后,它会反思之前的经历以获得新的自我经验。最后,在实验中,我们的方法在TextStarCraft II的非常困难难度下战胜了机器人。我们详细分析了游戏中大型语言模型的数据,验证了其有效性。