LLM2D

摘要

arXiv:2411.05281v3 宣布类型: replace-cross 摘要：我们介绍了Fox-1，这是一个小型语言模型（SLM）系列，包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。这些模型是在3万亿个网页抓取文档数据上进行预训练的，并在50亿个指令跟随和多轮对话数据上进行微调。为了提高预训练效率，Fox-1-1.6B模型引入了一种新的三阶段数据课程，跨越所有训练数据，序列长度为2K-8K。在架构设计上，Fox-1配备了更深的层结构、扩展的词汇表，并利用了分组查询注意（GQA），提供了与其他SLM相比更高效且性能更好的架构。Fox-1在各种基准测试中达到或优于StableLM-2-1.6B、Gemma-2B、Qwen1.5-1.8B和OpenELM1.1B的性能，具有竞争力的推理速度和吞吐量。模型权重已根据Apache 2.0许可证发布，我们旨在推动大型语言模型的民主化，并使其对整个开源社区完全开放。