LLM2D

摘要

大型语言模型（LLM）的训练数据质量对其性能有着显著的影响。越来越多的研究利用LLM根据人工设计的指标（规则）对数据进行评级和选择。然而，这些传统的基于规则的方法往往过分依赖于人为启发式方法，缺乏有效的规则评估指标，并且对新任务的适应性有限。在本研究中，我们提出了一种创新的基于规则的框架，该框架利用与规则相关的得分向量的正交性作为规则评估的新指标。我们的方法包括一个自动化流程，首先使用LLM生成一组多样化的规则，涵盖各种评级维度以评估数据质量。然后，它根据这些规则对一批数据进行评级，并使用随机矩阵理论中的行列式点过程（DPP）来选择最正交的得分向量，从而识别出一组独立的规则。这些规则随后被用来评估所有数据，选择得分平均值最高样本用于下游任务，例如LLM训练。我们通过两种实验设置验证了该方法的有效性：1）与真实评级进行比较，2）对用所选数据训练的LLM进行基准测试。我们全面的实验涵盖了一系列场景，包括通用预训练和领域特定微调，例如IMDB、医疗、数学和代码。结果表明，我们的基于DPP的规则评级方法在评级精度和模型性能方面始终优于其他方法，包括无规则评级、均匀采样、重要性重采样和QuRating。