LLM2D

摘要

机器学习模型因其卓越的性能和强大的泛化能力，正越来越多地应用于各个领域和任务。然而，它们的成功依赖于大量标注数据的可用性，而这些数据的创建往往费力、耗时且昂贵。许多主动学习 (AL) 方法被提出以应对这些挑战，但它们往往未能充分利用主动学习核心阶段的信息，例如在标注集上进行训练和查询新的未标注样本。为了弥合这一差距，我们提出了一种新颖的主动学习方法 LPLgrad（梯度范数损失预测损失），旨在有效量化模型的不确定性并提高图像分类任务的准确性。LPLgrad 分为两个不同的阶段：(i) *训练阶段* 旨在通过联合训练主模型和辅助模型来预测输入特征的损失。两个模型都在标注数据上进行训练，以最大限度地提高学习过程的效率，这是以往主动学习方法中经常被忽视的一个方面。这种双模型方法增强了有效提取复杂输入特征和学习数据内在模式的能力；(ii) *查询阶段* 量化主模型的不确定性以指导样本选择。这是通过计算未标注数据集中样本熵值的梯度范数来实现的。优先选择梯度范数最高的样本进行标注，然后将其添加到标注集中，从而在最小的标注工作量下提高模型的性能。对真实世界数据集的大量评估表明，在少量标注图像的情况下，LPLgrad 方法在准确性方面比最先进的方法高出一个数量级，但在多个图像分类任务中实现了可比的训练和查询时间。