LLM2D

摘要

数据选择对于预训练大型语言模型至关重要，因为大规模可用的训练语料库中存在质量差异。为了实现这一点，研究人员目前正在研究使用数据影响力来衡量数据实例的重要性，即高影响力得分表明将此实例纳入训练集可能会提高模型性能。因此，他们选择得分最高的 top-k 实例。然而，这种方法存在一些局限性。(1) 计算所有可用数据的影響力非常耗时。(2) 所选数据实例不够多样化，这可能会阻碍预训练模型有效地推广到各种下游任务。在本文中，我们介绍了 \texttt{Quad}，这是一种数据选择方法，它通过使用数据影响力来实现最先进的预训练结果，从而兼顾质量和多样性。特别是，考虑到注意力层捕获了广泛的语义细节，我们对注意力层的加速 $iHVP$ 计算方法进行了调整，增强了我们评估数据影响力（即其质量）的能力。对于多样性，\texttt{Quad} 将数据集聚集成每个集群内的相似数据实例和不同集群之间的多样化实例。对于每个集群，如果我们选择从中选择数据，我们会取一些样本评估影响力，以避免处理所有实例。为了确定要选择哪些集群，我们利用经典的多臂老虎机方法，将每个集群视为一个臂。这种方法有利于具有高度影响力实例的集群（确保高质量）或选择频率较低的集群（确保多样性），从而在质量和多样性之间取得良好的平衡。