LLM2D
高效主动学习中的影响函数和正则切线
Influence functions and regularity tangents for efficient active learning
作者: Frederik Eaton
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15292v1

摘要

本文描述了一种高效的方法,赋予回归模型对其数据的“好奇心”。在机器学习领域,我们用主动学习来表示这种好奇心框架,这意味着在半监督环境下自动选择需要查询标签的数据点。我们提出的方法基于计算“正则切线”向量,该向量可以在训练过程中(仅以恒定速度减慢)与模型的参数向量一起计算。然后,我们将此切线向量与模型在给定数据点处的损失梯度向量进行内积运算,以获得该点对模型复杂性影响的度量。只有一个与参数向量维度相同的正则切线向量。因此,在所提出的技术中,一旦训练完成,评估我们对潜在查询数据点的“好奇心”就可以像计算该点处的模型损失梯度一样快。新的向量仅使模型所需的存储量增加一倍。我们证明了我们的技术计算出的量是“影响函数”的一个例子,并且它衡量的是上调给定数据点所导致的模型复杂度变化的预期平方值。我们提出了一些利用该量在主动学习框架下为模型选择新训练数据的方法。