LLM2D
基于规则的大语言模型数据选择
Rule-based Data Selection for Large Language Models
作者: Xiaomin Li, Mingye Gao, Zhiwei Zhang, Chang Yue, Hong Hu
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04715v1

摘要

大型语言模型(LLM)的训练数据质量对其性能有着显著的影响。越来越多的研究利用LLM根据人工设计的指标(规则)对数据进行评级和选择。然而,这些传统的基于规则的方法往往过分依赖于人为启发式方法,缺乏有效的规则评估指标,并且对新任务的适应性有限。在本研究中,我们提出了一种创新的基于规则的框架,该框架利用与规则相关的得分向量的正交性作为规则评估的新指标。我们的方法包括一个自动化流程,首先使用LLM生成一组多样化的规则,涵盖各种评级维度以评估数据质量。然后,它根据这些规则对一批数据进行评级,并使用随机矩阵理论中的行列式点过程(DPP)来选择最正交的得分向量,从而识别出一组独立的规则。这些规则随后被用来评估所有数据,选择得分平均值最高样本用于下游任务,例如LLM训练。我们通过两种实验设置验证了该方法的有效性:1)与真实评级进行比较,2)对用所选数据训练的LLM进行基准测试。我们全面的实验涵盖了一系列场景,包括通用预训练和领域特定微调,例如IMDB、医疗、数学和代码。结果表明,我们的基于DPP的规则评级方法在评级精度和模型性能方面始终优于其他方法,包括无规则评级、均匀采样、重要性重采样和QuRating。