摘要
本文介绍了 SC-Phi2,一个针对宏观管理任务的星际争霸 2 微调小型语言模型。小型语言模型,如 Phi2、Gemma 和 DistilBERT,是大型语言模型 (LLM) 的简化版本,参数更少,运行所需的功率和内存更少。为了让微软的 Phi2 模型学习星际争霸,我们创建了一个新的 SC2 文本数据集,其中包含有关星际争霸种族、角色和行动的信息,并使用它通过自监督学习来微调 Phi-2。我们将这个语言模型与来自预训练的 BLIP-2(自举语言图像预训练)模型的视觉转换器 (ViT) 配对,并在 MSC 重播数据集上对其进行微调。这使我们能够构建包含视觉游戏状态信息的动态提示。与星际争霸 LLM 中使用的 GPT-3.5 等大型模型不同,Phi2 主要在教科书数据上进行训练,除了我们的训练过程提供的知识之外,它本身对星际争霸 2 的了解很少。通过使用 LoRA(低秩自适应)和量化,我们的模型可以在单个 GPU 上进行训练。我们证明,我们的模型在微观管理任务(如构建顺序和全局状态预测)中表现良好,并且参数数量较少。