LLM2D
基于二元PSO的ensemble下采样模型,用于平衡不平衡训练数据
A binary PSO based ensemble under-sampling model for rebalancing imbalanced training data
作者: Jinyan Li, Yaoyang Wu, Simon Fong, Antonio J. Tall\'on-Ballesteros, Xin-she Yang, Sabah Mohammed, Feng Wu
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01655v1

摘要

arXiv:2502.01655v1 类型: cross 摘要:集成技术和欠采样技术都是用于解决不平衡数据集分类问题的有效工具。本文提出了一种结合集成学习对分类器进行偏置和一种新的欠采样方法的新型集成方法。该欠采样方法称为二进制PSO实例选择,它与集成分类器结合使用,以找到适中长度和多数类样本的最佳组合,构建一个新的包含少数类样本的数据集。本文采用多目标策略,该方法在不平衡分类性能方面表现出显著改善,并同时保证原始数据集的最佳完整性。我们对提出的该方法进行了实验,并将其性能与几种传统的基本集成方法进行了比较。还在改进版本中使用了二进制PSO实例选择封装集成分类器,对这些不平衡数据集进行了实验。根据实验结果,我们提出的该方法优于单一集成方法、最新最先进的欠采样方法,以及这些方法与传统PSO实例选择算法的组合。