LLM2D

摘要

始终需要最新的、可靠的大型语言模型 (LLM)。通常，LLM 在固定数据集上进行训练，然后部署。然而，训练数据不断过时。使用网络数据自动训练 AI 涉及到数据质量和安全方面的重要问题，因为存在偏差、垃圾邮件和其他不安全或不希望有的文本。纯净的数据对于生成可靠的模型至关重要。在不纯净数据上训练模型可能会导致不良结果。本研究提出了一种系统，该系统收集网络数据并在现有可信 AI 模型的帮助下自动过滤掉不希望有的文本。在实验中，收集并过滤了一小部分网络数据，证明了该系统在净化数据方面的有效性。