LLM2D

摘要

arXiv:2410.08020v3 宣布类型: replace-cross 摘要：近年来，在微调语言模型时，人们经常依赖于自动数据选择，通常使用大规模数据集中的最近邻检索。然而，我们在理论上表明，这种方法倾向于选择冗余数据，这限制了其有效性，甚至可能损害性能。为了解决这一问题，我们引入了SIFT（Selective Information Fusion and Treatment），这是一种数据选择算法，旨在减少给定提示时对模型响应的不确定性，将检索和主动学习的想法统一起来。虽然最近邻检索在信息重复存在时通常会失败，但SIFT考虑了信息重复，并优化了所选示例的整体信息增益。我们将评估集中在Pile数据集上的针对提示特定的语言模型测试时微调上，并展示了SIFT在计算开销最小的情况下始终优于最近邻检索。此外，我们展示了我们的不确定估计可以预测测试时微调的性能增益，并利用这一点开发了一个适应性算法，将测试时的计算投入与实现出的性能增益成比例。我们提供了一个$\texttt{activeft}$（主动微调）库，可以作为最近邻检索的即用型替代品。