摘要
arXiv:2411.05735v2 宣告类型: 替换-交叉
摘要:语言模型性能取决于识别出用于训练的最佳数据组混合比例(例如,法律、代码、数学)。先前的工作提出了多种高效学习混合比例的方法,从拟合训练运行的回归模型到在整个训练过程中动态更新比例。令人惊讶的是,我们发现现有方法在平均测试困惑度方面没有一种能一贯优于简单分层采样基准方法。为了理解这种不一致,我们将现有的方法统一到一个标准框架中,表明它们等效于解决一个共同的优化问题:在特定方法的混合法则约束下最小化平均损失——这是对损失与混合比例之间关系的显式假设。该框架表明,测量方法混合法则的保真度可以提供其性能的洞察。实验证明,现有方法设置其混合法则参数不准确,导致我们观察到的不一致的混合性能。利用这一洞见,我们推导出一种新的在线方法Aioli,该方法在整个训练过程中直接估计混合法则参数,并使用它们动态调整比例。Aioli在6个数据集中比分层采样高出平均0.27个测试困惑度点,而现有方法未能一贯地超越分层采样,在最坏情况下比分层采样差6.9个点。此外,在计算资源有限而导致比例需在较短训练运行中学习的实际场景中,Aioli可以动态调整这些比例,在整个训练过程中始终一致地将性能提升最高达12.012个测试困惑度点,超过现有方法。