LLM2D

摘要

样本选择通过提供信息丰富且具有代表性的样本，提高了机器学习模型的效率和有效性。通常，样本可以被建模为样本图，其中节点是样本，边代表它们的相似性。大多数现有方法都基于局部信息，例如样本的训练难度，从而忽略了全局信息，例如连接模式。这种疏忽会导致次优选择，因为全局信息对于确保所选样本能很好地代表图的结构特性至关重要。为了解决这个问题，我们采用结构熵来量化全局信息，并使用 Shapley 值将其从整个图无损地分解到各个节点。基于这种分解，我们提出了基于结构熵的样本选择 (SES) 方法，该方法整合了全局和局部信息来选择信息丰富且具有代表性的样本。SES 首先根据样本之间的相似性构建一个 kNN 图。然后，它通过将结构熵（全局度量）与训练难度（局部度量）相结合来衡量样本的重要性。最后，SES 应用重要性偏差的蓝噪声采样来选择一组多样化且具有代表性的样本。在三种学习场景（监督学习、主动学习和持续学习）上的综合实验清楚地证明了我们方法的有效性。