LLM2D

摘要

近年来，微调语言模型的努力通常依赖于自动数据选择，通常使用来自大型数据集的最近邻检索。然而，我们从理论上证明，这种方法往往会选择冗余数据，从而限制其有效性，甚至损害性能。为了解决这个问题，我们引入了 SIFT，一种旨在减少模型对提示响应的不确定性的数据选择算法，它将检索和主动学习的思想统一起来。虽然最近邻检索在存在信息重复的情况下通常会失败，但 SIFT 会考虑信息重复并优化所选样本的整体信息增益。我们将评估重点放在 Pile 数据集上的提示特定语言建模的测试时微调上，并表明 SIFT 始终优于最近邻检索，且计算开销最小。此外，我们表明我们的不确定性估计可以预测测试时微调的性能增益，并利用它来开发一种自适应算法，该算法根据实现的性能增益来分配测试时计算。我们提供了 $\texttt{activeft}$（主动微调）库，它可以作为最近邻检索的直接替换。