摘要
数据准备是任何大型语言模型 (LLM) 开发的第一步,也是非常重要的一步。本文介绍了一个易于使用、可扩展且可灵活扩展的开源数据准备工具包,称为数据准备套件 (DPK)。DPK 的架构设计旨在使用户能够根据需要扩展其数据准备工作。借助 DPK,他们可以在本地机器上准备数据,或轻松扩展到在具有数千个 CPU 内核的集群上运行。DPK 附带了一套高度可扩展且可扩展的模块,用于转换自然语言和代码数据。如果用户需要额外的转换,他们可以使用 DPK 对转换创建的大量支持轻松地进行开发。这些模块可以独立使用或通过管道连接以执行一系列操作。在本文中,我们描述了 DPK 架构,并展示了其从小型规模到大量 CPU 的性能。DPK 中的模块已被用于准备 Granite 模型 [1] [2]。我们相信 DPK 对 AI 社区来说是一个宝贵的贡献,它可以轻松地准备数据以提高其 LLM 模型的性能,或使用检索增强生成 (RAG) 微调模型。