LLM2D

摘要

本文介绍了 SC-Phi2，一个针对宏观管理任务的星际争霸 2 微调小型语言模型。小型语言模型，如 Phi2、Gemma 和 DistilBERT，是大型语言模型 (LLM) 的简化版本，参数更少，运行所需的功率和内存更少。为了让微软的 Phi2 模型学习星际争霸，我们创建了一个新的 SC2 文本数据集，其中包含有关星际争霸种族、角色和行动的信息，并使用它通过自监督学习来微调 Phi-2。我们将这个语言模型与来自预训练的 BLIP-2（自举语言图像预训练）模型的视觉转换器 (ViT) 配对，并在 MSC 重播数据集上对其进行微调。这使我们能够构建包含视觉游戏状态信息的动态提示。与星际争霸 LLM 中使用的 GPT-3.5 等大型模型不同，Phi2 主要在教科书数据上进行训练，除了我们的训练过程提供的知识之外，它本身对星际争霸 2 的了解很少。通过使用 LoRA（低秩自适应）和量化，我们的模型可以在单个 GPU 上进行训练。我们证明，我们的模型在微观管理任务（如构建顺序和全局状态预测）中表现良好，并且参数数量较少。