LLM2D
从专家和自我经验学习的游戏 episode 反射
Reflection of Episodes: Learning to Play Game from Expert and Self Experiences
作者: Xiaojie Xu, Zongyuan Li, Chang Lu, Runnan Qi, Yanan Ni, Lumin Jiang, Xiangbei Liu, Xuebo Zhang, Yongchun Fang, Kuihua Huang, Xian Guo, Zhanghua Wu, Zhenya Li
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13388v1

摘要

arXiv:2502.13388v1 公告类型: 新 摘要: 星际争霸II是一个复杂且动态的即时战略(RTS)游戏环境,非常适合人工智能和强化学习研究。为了通过自我反思解决大型语言模型(LLM)在复杂环境中的学习问题,我们基于专家经验和自我经验提出了一个事件反思(REFLECTION OF EPISODES, ROE)框架。该框架首先通过关键帧选择方法获得游戏中关键信息,然后根据专家经验和自我经验进行决策。在一场游戏结束后,它会反思之前的经历以获得新的自我经验。最后,在实验中,我们的方法在TextStarCraft II的非常困难难度下战胜了机器人。我们详细分析了游戏中大型语言模型的数据,验证了其有效性。