LLM2D
基于大规模语言模型的自博弈与强化学习的 strategically Gomoku 系统
LLM-Gomoku: A Large Language Model-Based System for Strategic Gomoku with Self-Play and Reinforcement Learning
作者: Hui Wang
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21683v1

摘要

arXiv:2503.21683v1 宣布类型: 新 摘要: 近年来,大型语言模型 (LLMs) 在自然语言处理 (NLP) 领域取得了显著进展,具备强大的生成、理解和推理能力。这些模型已在教育、智能决策和游戏等多个领域找到应用。然而,有效地利用 LLMs 进行五子棋的战略规划和决策仍是一项挑战。本研究旨在基于 LLMs 开发一个五子棋 AI 系统,模拟人类学习下国际象棋的进程。该系统旨在理解和应用五子棋策略和逻辑,以做出理性的决策。研究方法包括使模型能够“读棋盘”、“理解规则”、“选择策略”和“评估位置”,并通过自我对弈和强化学习增强其能力。研究结果表明,这种方法显著改善了移动位置的选择,解决了生成非法位置的问题,并通过并行位置评估减少了处理时间。经过广泛的自我对弈训练后,该模型的五子棋能力显著提高。