LLM2D

摘要

样本选择通过提供信息丰富且具有代表性的样本，提高了机器学习模型的效率和有效性。通常，样本可以建模为样本图，其中节点是样本，边表示它们的相似性。大多数现有方法基于局部信息，例如样本的训练难度，从而忽略了全局信息，例如连通性模式。这种疏忽会导致次优选择，因为全局信息对于确保所选样本能很好地反映图的结构特性至关重要。为了解决这个问题，我们采用结构熵来量化全局信息，并利用 Shapley 值将其从整个图无损地分解到各个节点。基于这种分解，我们提出了**结构熵样本选择 (SES)**，这是一种将全局和局部信息相结合以选择信息丰富且具有代表性的样本的方法。SES 首先基于样本之间的相似性构建一个 kNN 图。然后，它通过将结构熵（全局指标）与训练难度（局部指标）相结合来衡量样本的重要性。最后，SES 应用重要性偏差蓝噪声采样来选择一组多样化且具有代表性的样本。在监督学习、主动学习和持续学习这三种学习场景中的综合实验清楚地证明了我们方法的有效性。