摘要
arXiv:2410.16208v4 宣布类型: 替换-交叉
摘要:数据选择可以减少训练LLMs所需的训练数据量;然而,数据选择的有效性与其计算量成正比。受计算受限的微调实践挑战的驱动,我们考虑了既预算了数据选择成本又预算了训练成本的设置。我们首先通过成本意识效用函数形式化了数据选择问题,并将数据选择问题建模为初始选择成本与训练增益之间的权衡。我们在多个任务上进行了全面的实验,通过调整微调令牌数量、模型大小以及数据选择计算预算来变化计算预算。有趣的是,我们发现许多强大的数据选择方法几乎从未在计算效率上占优,且更便宜的数据选择替代方案在理论和实验上都占优。对于计算效率的训练,我们发现困惑度数据选择和梯度数据选择所需的训练到选择模型大小的比例分别为5倍和10倍。