AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning
作者: Praneeth Vadlapati
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2406.19271v1
摘要
始终需要最新的、可靠的大型语言模型 (LLM)。通常,LLM 在固定数据集上进行训练,然后部署。然而,训练数据不断过时。使用网络数据自动训练 AI 涉及到数据质量和安全方面的重要问题,因为存在偏差、垃圾邮件和其他不安全或不希望有的文本。纯净的数据对于生成可靠的模型至关重要。在不纯净数据上训练模型可能会导致不良结果。本研究提出了一种系统,该系统收集网络数据并在现有可信 AI 模型的帮助下自动过滤掉不希望有的文本。在实验中,收集并过滤了一小部分网络数据,证明了该系统在净化数据方面的有效性。