LLM2D

摘要

构建高性能大型语言模型的核心在于精心策划用于训练的理想数据集（Touvron等人，2023；Achiam等人，2023；Team等人，2024）。梯度影响分数（Pruthi等人，2020；Xia等人，2024）已被证明与模型性能相关，并常被用作数据选择的标准。然而，现有方法要么基于单个样本排序，要么基于低效的匹配过程，导致次优性能或扩展性问题。本文提出了一种梯度轨迹追踪（GTP）算法，该算法通过在L0范数正则化目标下联合选择数据点来追踪梯度轨迹。该算法的亮点在于：（1）联合选择而非独立的top-k选择，可自动去重样本；（2）利用压缩采样过程提高效率，并可通过分布式框架进一步加速。实验结果表明，该算法在领域内和目标领域选择基准测试中均优于top-k选择和竞争算法，例如，我们的算法只需选择少至0.5%的数据即可在目标指令微调任务中达到满分性能。