LLM2D
数据准备工具包:为大语言模型应用开发准备数据
Data-Prep-Kit: getting your data ready for LLM application development
作者: David Wood, Boris Lublinsky, Alexy Roytman, Shivdeep Singh, Abdulhamid Adebayo, Revital Eres, Mohammad Nassar, Hima Patel, Yousaf Shah, Constantin Adam, Petros Zerfos, Nirmit Desai, Daiki Tsuzuku, Takuya Goto, Michele Dolfi, Saptha Surendran, Paramesvaran Selvam, Sungeun An, Yuan Chi Chang, Dhiraj Joshi, Hajar Emami-Gohari, Xuan-Hong Dang, Yan Koyfman, Shahrokh Daijavad
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18164v1

摘要

数据准备是任何大型语言模型 (LLM) 开发的第一步,也是非常重要的一步。本文介绍了一个易于使用、可扩展且可灵活扩展的开源数据准备工具包,称为数据准备套件 (DPK)。DPK 的架构设计旨在使用户能够根据需要扩展其数据准备工作。借助 DPK,他们可以在本地机器上准备数据,或轻松扩展到在具有数千个 CPU 内核的集群上运行。DPK 附带了一套高度可扩展且可扩展的模块,用于转换自然语言和代码数据。如果用户需要额外的转换,他们可以使用 DPK 对转换创建的大量支持轻松地进行开发。这些模块可以独立使用或通过管道连接以执行一系列操作。在本文中,我们描述了 DPK 架构,并展示了其从小型规模到大量 CPU 的性能。DPK 中的模块已被用于准备 Granite 模型 [1] [2]。我们相信 DPK 对 AI 社区来说是一个宝贵的贡献,它可以轻松地准备数据以提高其 LLM 模型的性能,或使用检索增强生成 (RAG) 微调模型。