LLM2D
基于Choquet积分的特征子集加权距离主导监督学习
Feature Subset Weighting for Distance-based Supervised Learning through Choquet Integration
作者: Adnan Theerens, Yvan Saeys, Chris Cornelis
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00624v1

摘要

arXiv:2504.00624v1 类别: cross 摘要:本文介绍了使用单调测度进行特征子集加权的距离基于监督学习。Choquet 积分被用于定义一个包含这些权重的距离度量。这种整合使得所提议的距离能够更有效地捕捉非线性关系,并考虑条件属性之间以及决策属性和条件属性之间的交互作用,从而提供一个更灵活的距离度量。特别地,我们展示了这种方法如何确保距离在添加重复和强烈相关特征时不受到影响。该方法的另一个关键点是,它使得特征子集加权在计算上是可行的,因为每次只需要计算$m$个特征子集权重,而不是计算所有特征子集权重($2^m$),其中$m$是特征的数量。接下来,我们还研究了使用Choquet积分测量相似性如何导致非等价的距离定义。通过双测度进一步探索了距离和相似性的关系。此外,我们提出了对称的Choquet距离和相似性,保持了相似性和距离的经典对称性。最后,我们引入了一个具体的特征子集加权距离,在$k$-最近邻(KNN)分类设置中评估了其性能,并将其与马氏距离和加权距离方法进行了比较。