LLM2D

摘要

主动学习旨在通过从未标记数据池中选择最有用的实例来最小化标注工作量。然而，典型的主动学习方法忽略了类别中存在不同的示例组，这些组的流行程度可能会有所不同，例如，在职业分类数据集中，某些人口统计数据在特定类别中所占比例过高。这种疏忽会导致模型依赖于预测的捷径，即在代表性强的群体中出现的输入属性和标签之间的虚假相关性。为了解决这个问题，我们提出了基于插值的主动学习 (ALVIN)，它在代表性不足的群体和代表性强的群体中的示例之间进行类内插值，以创建锚点，即位于表示空间中示例组之间的虚拟点。通过选择靠近锚点的实例进行标注，ALVIN 识别出信息丰富的示例，使模型暴露于表示空间的区域，这些区域抵消了捷径的影响。至关重要的是，由于模型认为这些示例具有很高的确定性，因此典型的主动学习方法很可能忽略它们。在六个包含情感分析、自然语言推理和释义检测的数据集上的实验结果表明，ALVIN 在分布内和分布外泛化方面都优于最先进的主动学习方法。