LLM2D

摘要

在大型语言模型预训练中，数据选择至关重要，因为大规模可用训练语料库中存在质量差异。为了实现这一点，研究人员目前正在探索使用数据影响力来衡量数据实例的重要性，即高影响力得分表明将该实例纳入训练集可能会提高模型性能。因此，他们会选择得分最高的 top-$k$ 个实例。然而，这种方法存在一些局限性。(1) 计算所有可用数据的影響力非常耗时。(2) 选择的数据实例不够多样化，这可能会阻碍预训练模型有效地泛化到各种下游任务。在本文中，我们介绍了 \texttt{Quad}，一种通过利用数据影响力来实现最先进的预训练结果的数据选择方法，它同时考虑了质量和多样性。特别是，考虑到注意力层捕获了广泛的语义细节，我们已经调整了加速 $iHVP$ 计算方法以适应注意力层，增强了我们评估数据影响力（即其质量）的能力。为了实现多样性，\texttt{Quad} 将数据集聚集成每个聚类内相似的实例，以及不同聚类之间不同的实例。对于每个聚类，如果我们选择从中选择数据，我们会提取一些样本以评估影响，以避免处理所有实例。为了确定选择哪些聚类，我们利用经典的多臂老虎机方法，将每个聚类视为一个臂。这种方法有利于具有高影响力实例的聚类（确保高质量）或选择频率较低的聚类（确保多样性），从而很好地平衡了质量和多样性。