LLM2D

摘要

arXiv:2207.06030v4 宣告类型: replace-cross 摘要：虽然训练模型和标注数据需要大量的资源，但存在大量的预训练模型和未标注数据。为了有效利用这些资源，我们提出了一种在尽量减少标注成本的情况下主动选择预训练模型的方法。我们将此问题框架化为在线上下文主动模型选择问题：在每一轮中，学习者会收到一个未标注数据点作为上下文。目标是在有限的标签请求下，自适应地选择最适合该上下文的模型进行预测。为了应对这个问题，我们提出了CAMS，这是一种依赖于两种新颖组件的上下文主动模型选择算法：（1）上下文模型选择机制，该机制利用上下文信息来做出关于哪种模型在给定的上下文中表现最佳的明智决策；（2）主动查询组件，该组件有策略地选择何时请求数据点的标签，从而最小化整体的标注成本。我们为在对抗性和随机设置下的后悔和查询复杂性提供了严格的理论分析。此外，我们在一系列基准分类任务上展示了我们算法的有效性。值得注意的是，与CIFAR10和DRIFT基准上现有的方法相比，CAMS需要的标注努力要少得多（少于10%），而达到相似或更好的准确性。我们的代码可以在以下地址公开获取：https://github.com/xuefeng-cs/Contextual-Active-Model-Selection。