摘要
arXiv:2411.05281v3 宣布类型: replace-cross
摘要:我们介绍了Fox-1,这是一个小型语言模型(SLM)系列,包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。这些模型是在3万亿个网页抓取文档数据上进行预训练的,并在50亿个指令跟随和多轮对话数据上进行微调。为了提高预训练效率,Fox-1-1.6B模型引入了一种新的三阶段数据课程,跨越所有训练数据,序列长度为2K-8K。在架构设计上,Fox-1配备了更深的层结构、扩展的词汇表,并利用了分组查询注意(GQA),提供了与其他SLM相比更高效且性能更好的架构。Fox-1在各种基准测试中达到或优于StableLM-2-1.6B、Gemma-2B、Qwen1.5-1.8B和OpenELM1.1B的性能,具有竞争力的推理速度和吞吐量。模型权重已根据Apache 2.0许可证发布,我们旨在推动大型语言模型的民主化,并使其对整个开源社区完全开放。